This is an archive of the discontinued LLVM Phabricator instance.

[X86] Model 256-bit AVX instructions in the AMD Jaguar scheduler (PR28573)
AbandonedPublic

Authored by avt77 on May 11 2017, 6:08 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel
dtemirbulatov
andreadb

Summary

This patch closes AVX part of Bug https://bugs.llvm.org/show_bug.cgi?id=28573. It seems we have some problem here: the throughput of some instructions could have non integer (but float) value.

Diff Detail

Event Timeline

avt77 created this revision.May 11 2017, 6:08 AM

avt77 added reviewers: RKSimon, spatel, dtemirbulatov.May 11 2017, 6:29 AM

avt77 added a subscriber: llvm-commits.

RKSimon added inline comments.May 11 2017, 6:41 AM

lib/Target/X86/X86Schedule.td
48 ↗	(On Diff #98624)	The LEA3 changes should be in their own patch.
lib/Target/X86/X86ScheduleBtVer2.td
132	Isn't this handled by the use of JALU01 grouping JALU0 + JALU1 together? So it has a choice of 2 pipes and it will have a tp of 1cy whichever it goes down.
test/CodeGen/X86/sse2-schedule.ll
6022 ↗	(On Diff #98624)	Jaguar has a max of 1 load/cycle - so the tp should still be 1.00

RKSimon added a reviewer: andreadb.May 11 2017, 6:51 AM

It seems I fixed all known issues except proper support of vzeroupper and vzeroall: will try to do it in the next patch.

I slightly changed the algorithm of throughput calculation: if the instr sched model does not have cycles for the given instruction but it's valid then throughput is equal to lattency.

RKSimon added inline comments.May 16 2017, 2:27 PM

lib/Target/X86/X86ScheduleBtVer2.td
70	I don't think adding these Cluster groups is necessary. TBH most of the ProcResource defs appear to be superfluous - most aren't used at all - we're just using the JFPU0/JFPU0/JFPU01 defs, with a few others for the longer op chain instructions.
377	Better off using JFPU0 as that's what is actually bound to the buffer. Same for the others below.
385	Shouldn't this def be something like the below, to show it will consume the AGU for a cycle? Same for the other loads. def WriteFAddYMLd: SchedWriteRes<[JLAGU,JFPU0]> { let Latency = 8; let ResourceCycles = [1,2]; }
test/CodeGen/X86/slow-unaligned-mem.ll
89 ↗	(On Diff #99105)	????

avt77 added inline comments.May 17 2017, 8:47 AM

lib/Target/X86/X86ScheduleBtVer2.td
70	Several nstructions below could be executed on FPA or on FPM that's why we need a possibility to say it and that's why I created JFPFltCluster. Is it OK? And I created JFPIntCluster cluster just in case: should I remove it?
377	Are you sure it's a good idea? FP0 includes VALU0, VIMUL and FPA. I'm using FPA because this instruction uses exactly FPA. At the same time if we use FPU0 then througput will be 2/3 = 0.666 and that's wrong. Or you mean that our instruction is FP and it should not deal with VALU0, VIMUL? In this case we should change the algorithm again.
385	I thought about but Software Optimization Guide does not show it (I mean it says about AGU but it does not include the additional cycle in its tables). Should I update the model?
test/CodeGen/X86/slow-unaligned-mem.ll
89 ↗	(On Diff #99105)	This test was written by hand that's why it's difficult to compare the results but the new version generates: BB#0: vxorps %ymm0, %ymm0, %ymm0 movl 4(%esp), %eax vmovups %ymm0, 32(%eax) vmovups %ymm0, (%eax) retl As you see we have vxorps between # BB#0: and 'movl'. I decided it's acceptable. Am I wrong?

I've fixed all issues raised by Simon. In addition I re-checked all numbers: it seems they are correct now.

I really don't understand why you are having to change the throughput calculation as part of this - split this as another patch?

lib/Target/X86/X86ScheduleBtVer2.td
381	Why WriteFAddYY not WriteFAddY ?
387	WriteFAddYLd ?
393	WriteFDivY?

In D33099#769806, @RKSimon wrote:

I really don't understand why you are having to change the throughput calculation as part of this - split this as another patch?

In this case I should move the test changes for zerroall and zeroupper in a separate patch as well, right?

RKSimon mentioned this in D33203: Add scheduler classes to integer/float horizontal operations.Jun 1 2017, 9:45 AM

I removed all changes related to throughput calculations. And I made all updates suggested by Simon.

RKSimon added inline comments.Jun 7 2017, 7:04 AM

lib/Target/X86/X86ScheduleBtVer2.td
22	It is still the Retire Control Unit, its just that the FPU can only touch 44 of the entries. let MicroOpBufferSize = 64; // Retire Control Unit
25	Don't remove whitespace.
93	Undo this whitespace
176	Don't remove whitespace.
401	WriteVMULYPD For all these defs, please can you include the 'Y' to make it clear that its just the 256-bit case
473	What is AVX11? Spelling: deafault -> default
481	"VMOVAP(D\|S)rm" etc. are memory loads - they should be in the Ld version
test/CodeGen/X86/avx-vzeroupper.ll
163 ↗	(On Diff #101712)	What is causing this?
test/CodeGen/X86/recip-fastmath.ll
344 ↗	(On Diff #101712)	Latency should be 5cy

avt77 added inline comments.Jun 8 2017, 4:41 AM

lib/Target/X86/X86ScheduleBtVer2.td
481	From my point of view rm-version store some register value into memory while mr-version loads the value from memory into the register. Am I right?
test/CodeGen/X86/recip-fastmath.ll
344 ↗	(On Diff #101712)	Why? In fact we should have tp 0.5 for XMM (see below). I'll fix it. VMOVAPD xmm1 xmm2 AVX 1 FPA\|FPM 1 0,5 VMOVAPD ymm1 ymm2 AVX 2 FPA\|FPM 1 1 VMOVAPS xmm1 xmm2 AVX 1 FPA\|FPM 1 0,5 VMOVAPS ymm1 ymm2 AVX 2 FPA\|FPM 1 1

All notes from Simon were resolved. In addition I fixed numbers for some XMM versions of VMOVxxxx instructions.

We have now only 256-bit ops: it makes the patch smaller.

RKSimon added inline comments.Jul 6 2017, 6:01 AM

lib/Target/X86/X86ScheduleBtVer2.td
417	VRVPPSYr -> VRCPPSYr ?
423	VRVPPSYm -> VRCPPSYm ?
425	WriteVDPPSY
431	WriteVDPPSYLd
447	VROUNDYP(S\|D)rm ?

avt77 retitled this revision from AMD Jaguar scheduler doesn't correctly model 256-bit AVX instructions to [X86] Model 256-bit AVX instructions in the AMD Jaguar scheduler (PR28573).Jul 6 2017, 7:24 AM

Simon, thank you for all these catches: I fixed them.

avt77 mentioned this in D35198: [X86] Model 256-bit AVX instructions in the AMD Jaguar scheduler Part-1 .Jul 10 2017, 6:07 AM

I merged this patch with trunk. Now it's a part 2 othe initial patch.

RKSimon added inline comments.Aug 4 2017, 8:27 AM

lib/Target/X86/X86ScheduleBtVer2.td
547	JLAGU, JSTC, JFPU01 ?

Simon, finaly I'm able to create ClothAvx test executable with clang. And I created it with this patch and without it. And I got the following results on AMD laptop (CPU AMD A10-8700P Radeon R6, 10 Compute Cores 4C+6G 1.80 GHz):

C:\Users\andre\Downloads\working\ClothExe>type avxcloth-patch.log
0.00 57.67 60.91 60.28 27.26 62.62 62.56 67.97
SIMD Width = 1
28.43 23.37 22.71 22.93 22.65 23.00 23.07 23.14 22.71 22.89 22.94 22.81 22.79 23.32 23.14
SIMD Width = 4
36.39 57.45 57.61 56.97 57.05 57.82 57.12 57.38 57.08 57.57 57.28 57.88 57.43 56.96 57.07 57.33
SIMD Width = 8
68.71 71.78 71.31 71.78 71.79 71.67 71.97 71.79 71.25 72.55 71.96 71.52 72.04 70.67 71.78 70.39 70.94
C:\Users\andre\Downloads\working\ClothExe>type avxcloth-trunk.log
0.00 55.19 59.88 58.43 19.96 60.22 58.58 57.37 59.34 60.11
SIMD Width = 1
24.51 21.64 21.29 21.42 21.37 21.38 21.43 21.19 22.37 23.09 24.14 23.77 23.23 23.12 22.43 22.30
SIMD Width = 4
35.74 58.77 56.04 55.87 56.56 55.44 55.24 55.26 55.44 54.91 56.47 57.75 56.36 56.72 55.56 56.11 56.59
SIMD Width = 8
65.76 70.74 70.04 70.26 70.95 72.26 73.50 70.77 69.86 69.93 70.76 70.25 70.41 71.99

As you see the patched version is slightly faster than the trunk one. Are you sure you saw any degradation with this patch?
BTW, the number are Flps per second (they are being calculated every one second).

I fixed an issue raised by Simon.

I re-based avx-schedule.ll test.

Thanks, please can you add the f16c-schedule.ll costs as well?

Also, please add DPPS/DPPD (xmm) costs as well.

All updates required by Simon were done.

I made changes related to SSE4.1 and F16C instructions in Jaguar.

RKSimon added inline comments.Oct 14 2017, 7:07 AM

lib/Target/X86/X86ScheduleBtVer2.td
385	This is a load so the AGU should be the first pipe def WriteDPPSLd: SchedWriteRes<[JLAGU, JFPU0, JFPU1]> {
398	def WriteDPPDLd: SchedWriteRes<[JLAGU, JFPU0, JFPU1]> {
404	Missing VTEST instructions
413	Latency is 3 according to AMD64_16h_InstrLatency_1.1.xlsx
416	You should probably just use a latency 3 here as its a convert+store.
419	There's no such instruction as VCVTPH2PSmr
428	WriteCVTPS2PHYSt
519	let NumMicroOps = 10;
525	let NumMicroOps = 11;
533	Give the MOVNT and ROUND instructions their own entries
659	VPTESTD?

This patch was splitted on 4 related patches which will be committed instead of this one.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ScheduleBtVer2.td

226 lines

test/

CodeGen/

X86/

avx-schedule.ll

130 lines

f16c-schedule.ll

14 lines

sse41-schedule.ll

8 lines

Diff 118550

lib/Target/X86/X86ScheduleBtVer2.td

Show All 13 Lines
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def BtVer2Model : SchedMachineModel {		def BtVer2Model : SchedMachineModel {
// All x86 instructions are modeled as a single micro-op, and btver2 can		// All x86 instructions are modeled as a single micro-op, and btver2 can
// decode 2 instructions per cycle.		// decode 2 instructions per cycle.
let IssueWidth = 2;		let IssueWidth = 2;
let MicroOpBufferSize = 64; // Retire Control Unit		let MicroOpBufferSize = 64; // Retire Control Unit
let LoadLatency = 5; // FPU latency (worse case cf Integer 3 cycle latency)		let LoadLatency = 5; // FPU latency (worse case cf Integer 3 cycle latency)
let HighLatency = 25;		let HighLatency = 25;
		RKSimonUnsubmitted Not Done Reply Inline Actions It is still the Retire Control Unit, its just that the FPU can only touch 44 of the entries. let MicroOpBufferSize = 64; // Retire Control Unit RKSimon: It is still the Retire Control Unit, its just that the FPU can only touch 44 of the entries.
let MispredictPenalty = 14; // Minimum branch misdirection penalty		let MispredictPenalty = 14; // Minimum branch misdirection penalty
let PostRAScheduler = 1;		let PostRAScheduler = 1;

RKSimonUnsubmitted Not Done Reply Inline Actions Don't remove whitespace. RKSimon: Don't remove whitespace.
// FIXME: SSE4/AVX is unimplemented. This flag is set to allow		// FIXME: SSE4/AVX is unimplemented. This flag is set to allow
// the scheduler to assign a default model to unrecognized opcodes.		// the scheduler to assign a default model to unrecognized opcodes.
let CompleteModel = 0;		let CompleteModel = 0;
}		}

let SchedModel = BtVer2Model in {		let SchedModel = BtVer2Model in {

// Jaguar can issue up to 6 micro-ops in one cycle		// Jaguar can issue up to 6 micro-ops in one cycle
Show All 28 Lines
def JVALU1 : ProcResource<1>; // vector integer		def JVALU1 : ProcResource<1>; // vector integer
def JVIMUL : ProcResource<1>; // vector integer multiplication		def JVIMUL : ProcResource<1>; // vector integer multiplication
def JSTC : ProcResource<1>; // vector store/convert		def JSTC : ProcResource<1>; // vector store/convert
def JFPM : ProcResource<1>; // FP multiplication		def JFPM : ProcResource<1>; // FP multiplication
def JFPA : ProcResource<1>; // FP addition		def JFPA : ProcResource<1>; // FP addition

// Integer loads are 3 cycles, so ReadAfterLd registers needn't be available until 3		// Integer loads are 3 cycles, so ReadAfterLd registers needn't be available until 3
// cycles after the memory operand.		// cycles after the memory operand.
def : ReadAdvance<ReadAfterLd, 3>;		def : ReadAdvance<ReadAfterLd, 3>;
		RKSimonUnsubmitted Not Done Reply Inline Actions I don't think adding these Cluster groups is necessary. TBH most of the ProcResource defs appear to be superfluous - most aren't used at all - we're just using the JFPU0/JFPU0/JFPU01 defs, with a few others for the longer op chain instructions. RKSimon: I don't think adding these Cluster groups is necessary. TBH most of the ProcResource defs…
		avt77AuthorUnsubmitted Not Done Reply Inline Actions Several nstructions below could be executed on FPA or on FPM that's why we need a possibility to say it and that's why I created JFPFltCluster. Is it OK? And I created JFPIntCluster cluster just in case: should I remove it? avt77: Several nstructions below could be executed on FPA or on FPM that's why we need a possibility…

// Many SchedWrites are defined in pairs with and without a folded load.		// Many SchedWrites are defined in pairs with and without a folded load.
// Instructions with folded loads are usually micro-fused, so they only appear		// Instructions with folded loads are usually micro-fused, so they only appear
// as two micro-ops when dispatched by the schedulers.		// as two micro-ops when dispatched by the schedulers.
// This multiclass defines the resource usage for variants with and without		// This multiclass defines the resource usage for variants with and without
// folded loads.		// folded loads.
multiclass JWriteResIntPair<X86FoldableSchedWrite SchedRW,		multiclass JWriteResIntPair<X86FoldableSchedWrite SchedRW,
ProcResourceKind ExePort,		ProcResourceKind ExePort,
int Lat> {		int Lat> {
// Register variant is using a single cycle on ExePort.		// Register variant is using a single cycle on ExePort.
def : WriteRes<SchedRW, [ExePort]> { let Latency = Lat; }		def : WriteRes<SchedRW, [ExePort]> { let Latency = Lat; }

// Memory variant also uses a cycle on JLAGU and adds 3 cycles to the		// Memory variant also uses a cycle on JLAGU and adds 3 cycles to the
// latency.		// latency.
def : WriteRes<SchedRW.Folded, [JLAGU, ExePort]> {		def : WriteRes<SchedRW.Folded, [JLAGU, ExePort]> {
let Latency = !add(Lat, 3);		let Latency = !add(Lat, 3);
}		}
}		}

multiclass JWriteResFpuPair<X86FoldableSchedWrite SchedRW,		multiclass JWriteResFpuPair<X86FoldableSchedWrite SchedRW,
ProcResourceKind ExePort,		ProcResourceKind ExePort,
int Lat> {		int Lat> {
// Register variant is using a single cycle on ExePort.		// Register variant is using a single cycle on ExePort.
		RKSimonUnsubmitted Not Done Reply Inline Actions Undo this whitespace RKSimon: Undo this whitespace
def : WriteRes<SchedRW, [ExePort]> { let Latency = Lat; }		def : WriteRes<SchedRW, [ExePort]> { let Latency = Lat; }

// Memory variant also uses a cycle on JLAGU and adds 5 cycles to the		// Memory variant also uses a cycle on JLAGU and adds 5 cycles to the
// latency.		// latency.
def : WriteRes<SchedRW.Folded, [JLAGU, ExePort]> {		def : WriteRes<SchedRW.Folded, [JLAGU, ExePort]> {
let Latency = !add(Lat, 5);		let Latency = !add(Lat, 5);
}		}
}		}
Show All 22 Lines	def : WriteRes<WriteIDivLd, [JALU1, JLAGU, JDiv]> {
let Latency = 41;		let Latency = 41;
let ResourceCycles = [1, 1, 25];		let ResourceCycles = [1, 1, 25];
}		}

// This is for simple LEAs with one or two input operands.		// This is for simple LEAs with one or two input operands.
// FIXME: SAGU 3-operand LEA		// FIXME: SAGU 3-operand LEA
def : WriteRes<WriteLEA, [JALU01]>;		def : WriteRes<WriteLEA, [JALU01]>;

////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
		RKSimonUnsubmitted Not Done Reply Inline Actions Isn't this handled by the use of JALU01 grouping JALU0 + JALU1 together? So it has a choice of 2 pipes and it will have a tp of 1cy whichever it goes down. RKSimon: Isn't this handled by the use of JALU01 grouping JALU0 + JALU1 together? So it has a choice of…
// Integer shifts and rotates.		// Integer shifts and rotates.
////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////

defm : JWriteResIntPair<WriteShift, JALU01, 1>;		defm : JWriteResIntPair<WriteShift, JALU01, 1>;

////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
// Loads, stores, and moves, not folded with other operations.		// Loads, stores, and moves, not folded with other operations.
// FIXME: Split x86 and SSE load/store/moves		// FIXME: Split x86 and SSE load/store/moves
Show All 27 Lines

defm : JWriteResFpuPair<WriteFAdd, JFPU0, 3>;		defm : JWriteResFpuPair<WriteFAdd, JFPU0, 3>;
defm : JWriteResFpuPair<WriteFMul, JFPU1, 2>;		defm : JWriteResFpuPair<WriteFMul, JFPU1, 2>;
defm : JWriteResFpuPair<WriteFRcp, JFPU1, 2>;		defm : JWriteResFpuPair<WriteFRcp, JFPU1, 2>;
defm : JWriteResFpuPair<WriteFRsqrt, JFPU1, 2>;		defm : JWriteResFpuPair<WriteFRsqrt, JFPU1, 2>;
defm : JWriteResFpuPair<WriteFShuffle, JFPU01, 1>;		defm : JWriteResFpuPair<WriteFShuffle, JFPU01, 1>;
defm : JWriteResFpuPair<WriteFBlend, JFPU01, 1>;		defm : JWriteResFpuPair<WriteFBlend, JFPU01, 1>;
defm : JWriteResFpuPair<WriteFShuffle256, JFPU01, 1>;		defm : JWriteResFpuPair<WriteFShuffle256, JFPU01, 1>;

RKSimonUnsubmitted Not Done Reply Inline Actions Don't remove whitespace. RKSimon: Don't remove whitespace.
def : WriteRes<WriteFSqrt, [JFPU1, JLAGU, JFPM]> {		def : WriteRes<WriteFSqrt, [JFPU1, JLAGU, JFPM]> {
let Latency = 21;		let Latency = 21;
let ResourceCycles = [1, 1, 21];		let ResourceCycles = [1, 1, 21];
}		}
def : WriteRes<WriteFSqrtLd, [JFPU1, JLAGU, JFPM]> {		def : WriteRes<WriteFSqrtLd, [JFPU1, JLAGU, JFPM]> {
let Latency = 26;		let Latency = 26;
let ResourceCycles = [1, 1, 21];		let ResourceCycles = [1, 1, 21];
}		}
▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines

// FIXME: pipe for system/microcode?		// FIXME: pipe for system/microcode?
def : WriteRes<WriteSystem, [JAny]> { let Latency = 100; }		def : WriteRes<WriteSystem, [JAny]> { let Latency = 100; }
def : WriteRes<WriteMicrocoded, [JAny]> { let Latency = 100; }		def : WriteRes<WriteMicrocoded, [JAny]> { let Latency = 100; }
def : WriteRes<WriteFence, [JSAGU]>;		def : WriteRes<WriteFence, [JSAGU]>;
def : WriteRes<WriteNop, []>;		def : WriteRes<WriteNop, []>;

////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
		// SSE4.1 instructions.
		////////////////////////////////////////////////////////////////////////////////

		def WriteDPPS: SchedWriteRes<[JFPU0, JFPU1]> {
		RKSimonUnsubmitted Not Done Reply Inline Actions Better off using JFPU0 as that's what is actually bound to the buffer. Same for the others below. RKSimon: Better off using JFPU0 as that's what is actually bound to the buffer. Same for the others…
		avt77AuthorUnsubmitted Not Done Reply Inline Actions Are you sure it's a good idea? FP0 includes VALU0, VIMUL and FPA. I'm using FPA because this instruction uses exactly FPA. At the same time if we use FPU0 then througput will be 2/3 = 0.666 and that's wrong. Or you mean that our instruction is FP and it should not deal with VALU0, VIMUL? In this case we should change the algorithm again. avt77: Are you sure it's a good idea? FP0 includes VALU0, VIMUL and FPA. I'm using FPA because this…
		let Latency = 11;
		let ResourceCycles = [4,4];
		let NumMicroOps = 5;
		}
		RKSimonUnsubmitted Not Done Reply Inline Actions Why WriteFAddYY not WriteFAddY ? RKSimon: Why WriteFAddYY not WriteFAddY ?
		def : InstRW<[WriteDPPS], (instregex "(V)?DPPSrri")>;

		def WriteDPPSLd: SchedWriteRes<[JFPU0, JFPU1, JLAGU]> {
		let Latency = 16;
		RKSimonUnsubmitted Not Done Reply Inline Actions Shouldn't this def be something like the below, to show it will consume the AGU for a cycle? Same for the other loads. def WriteFAddYMLd: SchedWriteRes<[JLAGU,JFPU0]> { let Latency = 8; let ResourceCycles = [1,2]; } RKSimon: Shouldn't this def be something like the below, to show it will consume the AGU for a cycle?
		avt77AuthorUnsubmitted Not Done Reply Inline Actions I thought about but Software Optimization Guide does not show it (I mean it says about AGU but it does not include the additional cycle in its tables). Should I update the model? avt77: I thought about but Software Optimization Guide does not show it (I mean it says about AGU but…
		RKSimonUnsubmitted Not Done Reply Inline Actions This is a load so the AGU should be the first pipe def WriteDPPSLd: SchedWriteRes<[JLAGU, JFPU0, JFPU1]> { RKSimon: This is a load so the AGU should be the first pipe ``` def WriteDPPSLd: SchedWriteRes<[JLAGU…
		let ResourceCycles = [4,4,1];
		let NumMicroOps = 6;
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteFAddYLd ? RKSimon: WriteFAddYLd ?
		}
		def : InstRW<[WriteDPPSLd], (instregex "(V)?DPPSrmi")>;

		def WriteDPPD: SchedWriteRes<[JFPU0, JFPU1]> {
		let Latency = 9;
		let ResourceCycles = [3,3];
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteFDivY? RKSimon: WriteFDivY?
		let NumMicroOps = 3;
		}
		def : InstRW<[WriteDPPD], (instregex "(V)?DPPDrri")>;

		def WriteDPPDLd: SchedWriteRes<[JFPU0, JFPU1, JLAGU]> {
		RKSimonUnsubmitted Not Done Reply Inline Actions def WriteDPPDLd: SchedWriteRes<[JLAGU, JFPU0, JFPU1]> { RKSimon: def WriteDPPDLd: SchedWriteRes<[JLAGU, JFPU0, JFPU1]> {
		let Latency = 14;
		let ResourceCycles = [3,3,1];
		let NumMicroOps = 4;
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteVMULYPD For all these defs, please can you include the 'Y' to make it clear that its just the 256-bit case RKSimon: WriteVMULYPD For all these defs, please can you include the 'Y' to make it clear that its just…
		}
		def : InstRW<[WriteDPPDLd], (instregex "(V)?DPPDrmi")>;

		RKSimonUnsubmitted Not Done Reply Inline Actions Missing VTEST instructions RKSimon: Missing VTEST instructions
		////////////////////////////////////////////////////////////////////////////////
		// F16C instructions.
		////////////////////////////////////////////////////////////////////////////////

		def WriteCVTPS2PH: SchedWriteRes<[JFPU1]> {
		let Latency = 4;
		let ResourceCycles = [1];
		}
		def : InstRW<[WriteCVTPS2PH], (instregex "VCVTPS2PHrr", "VCVTPH2PSrr")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions Latency is 3 according to AMD64_16h_InstrLatency_1.1.xlsx RKSimon: Latency is 3 according to AMD64_16h_InstrLatency_1.1.xlsx

		def WriteCVTPS2PHSt: SchedWriteRes<[JFPU1, JLAGU]> {
		let Latency = 9;
		RKSimonUnsubmitted Not Done Reply Inline Actions You should probably just use a latency 3 here as its a convert+store. RKSimon: You should probably just use a latency 3 here as its a convert+store.
		let ResourceCycles = [1, 1];
		RKSimonUnsubmitted Not Done Reply Inline Actions VRVPPSYr -> VRCPPSYr ? RKSimon: VRVPPSYr -> VRCPPSYr ?
		}
		def : InstRW<[WriteCVTPS2PHSt], (instregex "VCVTPS2PHmr", "VCVTPH2PSmr")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions There's no such instruction as VCVTPH2PSmr RKSimon: There's no such instruction as VCVTPH2PSmr

		def WriteCVTPS2PHY: SchedWriteRes<[JFPU0, JFPU1]> {
		let Latency = 6;
		let ResourceCycles = [2,2];
		RKSimonUnsubmitted Not Done Reply Inline Actions VRVPPSYm -> VRCPPSYm ? RKSimon: VRVPPSYm -> VRCPPSYm ?
		let NumMicroOps = 3;
		}
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteVDPPSY RKSimon: WriteVDPPSY
		def : InstRW<[WriteCVTPS2PHY], (instregex "VCVTPS2PHYrr")>;

		def WriteCVTPS2PHYLd: SchedWriteRes<[JFPU0, JFPU1, JLAGU]> {
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteCVTPS2PHYSt RKSimon: WriteCVTPS2PHYSt
		let Latency = 11;
		let ResourceCycles = [2,2,1];
		let NumMicroOps = 3;
		RKSimonUnsubmitted Not Done Reply Inline Actions WriteVDPPSYLd RKSimon: WriteVDPPSYLd
		}
		def : InstRW<[WriteCVTPS2PHYLd], (instregex "VCVTPS2PHYmr")>;

		def WriteCVTPH2PSY: SchedWriteRes<[JFPU1]> {
		let Latency = 5;
		let ResourceCycles = [2];
		let NumMicroOps = 2;
		}
		def : InstRW<[WriteCVTPH2PSY], (instregex "VCVTPH2PSYrr")>;

		def WriteCVTPH2PSYLd: SchedWriteRes<[JFPU1, JLAGU]> {
		let Latency = 10;
		let ResourceCycles = [2,1];
		let NumMicroOps = 2;
		}
		def : InstRW<[WriteCVTPH2PSY], (instregex "VCVTPH2PSYrm")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions VROUNDYP(S\|D)rm ? RKSimon: VROUNDYP(S\|D)rm ?

		////////////////////////////////////////////////////////////////////////////////
// SSE4A instructions.		// SSE4A instructions.
////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////

def WriteEXTRQ: SchedWriteRes<[JFPU01]> {		def WriteEXTRQ: SchedWriteRes<[JFPU01]> {
let Latency = 1;		let Latency = 1;
let ResourceCycles = [1];		let ResourceCycles = [1];
}		}
def : InstRW<[WriteEXTRQ], (instregex "EXTRQ")>;		def : InstRW<[WriteEXTRQ], (instregex "EXTRQ")>;

def WriteINSERTQ: SchedWriteRes<[JFPU01]> {		def WriteINSERTQ: SchedWriteRes<[JFPU01]> {
let Latency = 2;		let Latency = 2;
let ResourceCycles = [4];		let ResourceCycles = [4];
}		}
def : InstRW<[WriteINSERTQ], (instregex "INSERTQ")>;		def : InstRW<[WriteINSERTQ], (instregex "INSERTQ")>;

////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
// AVX instructions.		// AVX instructions.
////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////

def WriteFAddY: SchedWriteRes<[JFPU0]> {		def WriteFAddY: SchedWriteRes<[JFPU0]> {
let Latency = 3;		let Latency = 3;
let ResourceCycles = [2];		let ResourceCycles = [2];
}		}
def : InstRW<[WriteFAddY], (instregex "VADD(SUB)?P(S\|D)Yrr", "VSUBP(S\|D)Yrr")>;		def : InstRW<[WriteFAddY], (instregex "VADD(SUB)?P(S\|D)Yrr", "VSUBP(S\|D)Yrr")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions What is AVX11? Spelling: deafault -> default RKSimon: What is AVX11? Spelling: deafault -> default

def WriteFAddYLd: SchedWriteRes<[JLAGU, JFPU0]> {		def WriteFAddYLd: SchedWriteRes<[JLAGU, JFPU0]> {
let Latency = 8;		let Latency = 8;
let ResourceCycles = [1, 2];		let ResourceCycles = [1, 2];
}		}
def : InstRW<[WriteFAddYLd, ReadAfterLd], (instregex "VADD(SUB)?P(S\|D)Yrm", "VSUBP(S\|D)Yrm")>;		def : InstRW<[WriteFAddYLd, ReadAfterLd], (instregex "VADD(SUB)?P(S\|D)Yrm", "VSUBP(S\|D)Yrm")>;

def WriteFDivY: SchedWriteRes<[JFPU1]> {		def WriteFDivY: SchedWriteRes<[JFPU1]> {
		RKSimonUnsubmitted Not Done Reply Inline Actions "VMOVAP(D\|S)rm" etc. are memory loads - they should be in the Ld version RKSimon: "VMOVAP(D\|S)rm" etc. are memory loads - they should be in the Ld version
		avt77AuthorUnsubmitted Not Done Reply Inline Actions From my point of view rm-version store some register value into memory while mr-version loads the value from memory into the register. Am I right? avt77: From my point of view rm-version store some register value into memory while mr-version loads…
let Latency = 38;		let Latency = 38;
let ResourceCycles = [38];		let ResourceCycles = [38];
}		}
def : InstRW<[WriteFDivY], (instregex "VDIVP(D\|S)Yrr")>;		def : InstRW<[WriteFDivY], (instregex "VDIVP(D\|S)Yrr")>;

def WriteFDivYLd: SchedWriteRes<[JLAGU, JFPU1]> {		def WriteFDivYLd: SchedWriteRes<[JLAGU, JFPU1]> {
let Latency = 43;		let Latency = 43;
let ResourceCycles = [1, 38];		let ResourceCycles = [1, 38];
Show All 19 Lines
def : InstRW<[WriteVMULYPS], (instregex "VMULPSYrr", "VRCPPSYr", "VRSQRTPSYr")>;		def : InstRW<[WriteVMULYPS], (instregex "VMULPSYrr", "VRCPPSYr", "VRSQRTPSYr")>;

def WriteVMULYPSLd: SchedWriteRes<[JLAGU, JFPU1]> {		def WriteVMULYPSLd: SchedWriteRes<[JLAGU, JFPU1]> {
let Latency = 7;		let Latency = 7;
let ResourceCycles = [1, 2];		let ResourceCycles = [1, 2];
}		}
def : InstRW<[WriteVMULYPSLd, ReadAfterLd], (instregex "VMULPSYrm", "VRCPPSYm", "VRSQRTPSYm")>;		def : InstRW<[WriteVMULYPSLd, ReadAfterLd], (instregex "VMULPSYrm", "VRCPPSYm", "VRSQRTPSYm")>;

		def WriteVDPPSY: SchedWriteRes<[JFPU1, JFPU0]> {
		let Latency = 12;
		let ResourceCycles = [6, 6];
		RKSimonUnsubmitted Not Done Reply Inline Actions let NumMicroOps = 10; RKSimon: let NumMicroOps = 10;
		}
		def : InstRW<[WriteVDPPSY], (instregex "VDPPSYrr")>;

		def WriteVDPPSYLd: SchedWriteRes<[JLAGU, JFPU1, JFPU0]> {
		let Latency = 17;
		let ResourceCycles = [1, 6, 6];
		RKSimonUnsubmitted Not Done Reply Inline Actions let NumMicroOps = 11; RKSimon: let NumMicroOps = 11;
		}
		def : InstRW<[WriteVDPPSYLd, ReadAfterLd], (instregex "VDPPSYrm")>;

		def WriteVCVT: SchedWriteRes<[JSTC]> {
		let Latency = 3;
		let ResourceCycles = [2];
		}
		def : InstRW<[WriteVCVT], (instregex "VCVTDQ2P(S\|D)Yrr", "VMOVNTP(S\|D)Ymr", "VROUNDYP(S\|D)r")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions Give the MOVNT and ROUND instructions their own entries RKSimon: Give the MOVNT and ROUND instructions their own entries

		def WriteVCVTLd: SchedWriteRes<[JLAGU, JSTC]> {
		let Latency = 8;
		let ResourceCycles = [1, 2];
		}
		def : InstRW<[WriteVCVTLd, ReadAfterLd], (instregex "VCVTDQ2P(S\|D)Yrm", "VROUNDYP(S\|D)rm")>;

		def WriteVCVTYPD: SchedWriteRes<[JSTC, JFPU01]> {
		let Latency = 6;
		let ResourceCycles = [2, 4];
		}
		def : InstRW<[WriteVCVTYPD], (instregex "VCVTPD2(DQ\|PS)Yrr")>;

		def WriteVCVTYPDLd: SchedWriteRes<[JLAGU, JSTC, JFPU01]> {
		RKSimonUnsubmitted Not Done Reply Inline Actions JLAGU, JSTC, JFPU01 ? RKSimon: JLAGU, JSTC, JFPU01 ?
		let Latency = 11;
		let ResourceCycles = [1, 2, 2];
		}
		def : InstRW<[WriteVCVTYPDLd, ReadAfterLd], (instregex "VCVTPD2(DQ\|PS)Yrm")>;

		def WriteVCVTYPS: SchedWriteRes<[JSTC]> {
		let Latency = 3;
		let ResourceCycles = [2];
		}
		def : InstRW<[WriteVCVTYPS], (instregex "VCVTPS2DQYrr")>;

		def WriteVCVTYPSLd: SchedWriteRes<[JLAGU, JSTC]> {
		let Latency = 11;
		let ResourceCycles = [1, 2];
		}
		def : InstRW<[WriteVCVTYPSLd, ReadAfterLd], (instregex "VCVTPS2DQYrm")>;

		def WriteAVX11: SchedWriteRes<[JFPU01]> {
		let ResourceCycles = [2];
		}
		def : InstRW<[WriteAVX11], (instregex "VAND(N)?P(S\|D)Yrr", "VBLENDP(S\|D)Yrri",
		"VMOVDDUPYrr", "VMOVS(H\|L)DUPYrr", "VMOVUP(D\|S)Yrr",
		"VORP(S\|D)Yrr", "VPERMILP(D\|S)Yri", "VSHUFP(D\|S)Yrri",
		"VXORP(S\|D)Yrr")>;

		def WriteAVX11Ld: SchedWriteRes<[JLAGU, JFPU01]> {
		let Latency = 6;
		let ResourceCycles = [1, 2];
		}
		def : InstRW<[WriteAVX11Ld, ReadAfterLd], (instregex "VAND(N)?P(S\|D)Yrm",
		"VMOVDDUPYrm", "VMOVS(H\|L)DUPYrr", "VMOVUP(D\|S)Ymr",
		"VORP(S\|D)Yrm", "VPERMILP(D\|S)Yrm", "VSHUFP(D\|S)Yrmi",
		"VXORP(S\|D)Yrm")>;

		def WriteVBlendVPY: SchedWriteRes<[JFPU01]> {
		let Latency = 3;
		let ResourceCycles = [6];
		}
		def : InstRW<[WriteVBlendVPY], (instregex "VBLENDVP(S\|D)Yrr", "VPERMILP(D\|S)Yrr")>;

		def WriteVBlendVPYLd: SchedWriteRes<[JLAGU, JFPU01]> {
		let Latency = 8;
		let ResourceCycles = [1, 6];
		}
		def : InstRW<[WriteVBlendVPYLd, ReadAfterLd], (instregex "VBLENDVP(S\|D)Yrm")>;

		def WriteVBROADCASTY: SchedWriteRes<[JFPU01]> {
		let Latency = 1;
		let ResourceCycles = [4];
		}
		def : InstRW<[WriteVBROADCASTY], (instregex "VBROADCASTS(S\|D)Yrr")>;

		def WriteVBROADCASTYLd: SchedWriteRes<[JLAGU, JFPU01]> {
		let Latency = 6;
		let ResourceCycles = [1, 4];
		}
		def : InstRW<[WriteVBROADCASTYLd, ReadAfterLd], (instregex "VBROADCASTS(S\|D)Yrm")>;

		def WriteFPAY22: SchedWriteRes<[JFPU0]> {
		let Latency = 2;
		let ResourceCycles = [2];
		}
		def : InstRW<[WriteFPAY22], (instregex "VCMPP(S\|D)Yrri", "VM(AX\|IN)P(D\|S)Yrr")>;

		def WriteFPAY22Ld: SchedWriteRes<[JLAGU, JFPU0]> {
		let Latency = 7;
		let ResourceCycles = [1, 2];
		}
		def : InstRW<[WriteFPAY22Ld, ReadAfterLd], (instregex "VCMPP(S\|D)Yrmi", "VM(AX\|IN)P(D\|S)Yrm")>;

		def WriteVHAddSubY: SchedWriteRes<[JFPU0]> {
		let Latency = 3;
		let ResourceCycles = [2];
		}
		def : InstRW<[WriteVHAddSubY], (instregex "VH(ADD\|SUB)P(D\|S)Yrr")>;

		def WriteVHAddSubYLd: SchedWriteRes<[JLAGU, JFPU0]> {
		let Latency = 8;
		let ResourceCycles = [1, 2];
		}
		def : InstRW<[WriteVHAddSubYLd], (instregex "VH(ADD\|SUB)P(D\|S)Yrm")>;

		def WriteVMaskMovY: SchedWriteRes<[JFPU01]> {
		let Latency = 6;
		let ResourceCycles = [4];
		}
		def : InstRW<[WriteVMaskMovY], (instregex "VMASKMOVP(D\|S)Yrm")>;

		def WriteVMaskMovYLd: SchedWriteRes<[JLAGU, JFPU01]> {
		let Latency = 11;
		let ResourceCycles = [1, 4];
		}
		def : InstRW<[WriteVMaskMovYLd], (instregex "VMASKMOVP(D\|S)Ymr")>;

		// TODO: In fact we have latency '2+i'. The +i represents an additional 1 cycle transfer
		// operation which moves the floating point result to the integer unit. During this
		// additional cycle the floating point unit execution resources are not occupied
		// and ALU0 in the integer unit is occupied instead.
		def WriteVMOVMSK: SchedWriteRes<[JFPU0]> {
		let Latency = 3;
		}
		def : InstRW<[WriteVMOVMSK], (instregex "VMOVMSKP(D\|S)Yrr")>;

		// TODO: In fact we have latency '3+i'. The +i represents an additional 1 cycle transfer
		// operation which moves the floating point result to the integer unit. During this
		// additional cycle the floating point unit execution resources are not occupied
		// and ALU0 in the integer unit is occupied instead.
		def WriteVTESTY: SchedWriteRes<[JFPU01, JFPU0]> {
		let Latency = 4;
		let ResourceCycles = [2, 2];
		}
		def : InstRW<[WriteVTESTY], (instregex "VTESTP(S\|D)Yrr")>;
		RKSimonUnsubmitted Not Done Reply Inline Actions VPTESTD? RKSimon: VPTESTD?

		def WriteVTESTYLd: SchedWriteRes<[JLAGU, JFPU01, JFPU0]> {
		let Latency = 9;
		let ResourceCycles = [1, 4, 2];
		}
		def : InstRW<[WriteVTESTYLd], (instregex "VTESTP(S\|D)Yrm")>;

def WriteVSQRTYPD: SchedWriteRes<[JFPU1]> {		def WriteVSQRTYPD: SchedWriteRes<[JFPU1]> {
let Latency = 54;		let Latency = 54;
let ResourceCycles = [54];		let ResourceCycles = [54];
}		}
def : InstRW<[WriteVSQRTYPD], (instregex "VSQRTPDYr")>;		def : InstRW<[WriteVSQRTYPD], (instregex "VSQRTPDYr")>;

def WriteVSQRTYPDLd: SchedWriteRes<[JLAGU, JFPU1]> {		def WriteVSQRTYPDLd: SchedWriteRes<[JLAGU, JFPU1]> {
let Latency = 59;		let Latency = 59;
Show All 29 Lines

test/CodeGen/X86/avx-schedule.ll

	Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_andnotpd:			; BTVER2-LABEL: test_andnotpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_andnotpd:			; ZNVER1-LABEL: test_andnotpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vandnpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vandnpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_andnotps:			; BTVER2-LABEL: test_andnotps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_andnotps:			; ZNVER1-LABEL: test_andnotps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vandnps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vandnps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_andpd:			; BTVER2-LABEL: test_andpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_andpd:			; ZNVER1-LABEL: test_andpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vandpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vandpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_andps:			; BTVER2-LABEL: test_andps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_andps:			; ZNVER1-LABEL: test_andps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vandps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vandps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:0.33]			; SKX-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:0.33]
	; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],mem[1,2],ymm0[3] sched: [8:0.50]			; SKX-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],mem[1,2],ymm0[3] sched: [8:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_blendpd:			; BTVER2-LABEL: test_blendpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:0.50]			; BTVER2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],mem[1,2],ymm0[3] sched: [6:1.00]			; BTVER2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],mem[1,2],ymm0[3] sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_blendpd:			; ZNVER1-LABEL: test_blendpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:0.50]			; ZNVER1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3] sched: [1:0.50]
	; ZNVER1-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:1.00]
	Show All 34 Lines
	; SKX-LABEL: test_blendps:			; SKX-LABEL: test_blendps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:0.33]			; SKX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:0.33]
	; SKX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [8:0.50]			; SKX-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [8:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_blendps:			; BTVER2-LABEL: test_blendps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:0.50]			; BTVER2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:1.00]
	; BTVER2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [6:1.00]			; BTVER2-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_blendps:			; ZNVER1-LABEL: test_blendps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:0.50]			; ZNVER1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2],ymm0[3,4,5,6,7] sched: [1:0.50]
	; ZNVER1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [8:0.50]			; ZNVER1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2],ymm0[3],mem[4,5,6],ymm0[7] sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	Show All 31 Lines
	; SKX-LABEL: test_blendvpd:			; SKX-LABEL: test_blendvpd:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:0.67]			; SKX-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:0.67]
	; SKX-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [9:0.67]			; SKX-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [9:0.67]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_blendvpd:			; BTVER2-LABEL: test_blendvpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:1.00]			; BTVER2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [3:3.00]
	; BTVER2-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [7:1.00]			; BTVER2-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:3.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_blendvpd:			; ZNVER1-LABEL: test_blendvpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
	; ZNVER1-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vblendvpd %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <4 x double> @llvm.x86.avx.blendv.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%1 = call <4 x double> @llvm.x86.avx.blendv.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	Show All 31 Lines
	; SKX-LABEL: test_blendvps:			; SKX-LABEL: test_blendvps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:0.67]			; SKX-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:0.67]
	; SKX-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [9:0.67]			; SKX-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [9:0.67]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_blendvps:			; BTVER2-LABEL: test_blendvps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [2:1.00]			; BTVER2-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [3:3.00]
	; BTVER2-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [7:1.00]			; BTVER2-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:3.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_blendvps:			; ZNVER1-LABEL: test_blendvps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vblendvps %ymm2, %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
	; ZNVER1-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vblendvps %ymm2, (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x float> @llvm.x86.avx.blendv.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%1 = call <8 x float> @llvm.x86.avx.blendv.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	;			;
	; SKX-LABEL: test_broadcastsd_ymm:			; SKX-LABEL: test_broadcastsd_ymm:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [7:0.50]			; SKX-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [7:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_broadcastsd_ymm:			; BTVER2-LABEL: test_broadcastsd_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [6:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_broadcastsd_ymm:			; ZNVER1-LABEL: test_broadcastsd_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vbroadcastsd (%rdi), %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = load double, double *%a0, align 8			%1 = load double, double *%a0, align 8
	%2 = insertelement <4 x double> undef, double %1, i32 0			%2 = insertelement <4 x double> undef, double %1, i32 0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	;			;
	; SKX-LABEL: test_broadcastss_ymm:			; SKX-LABEL: test_broadcastss_ymm:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [7:0.50]			; SKX-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [7:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_broadcastss_ymm:			; BTVER2-LABEL: test_broadcastss_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [6:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_broadcastss_ymm:			; ZNVER1-LABEL: test_broadcastss_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vbroadcastss (%rdi), %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = load float, float *%a0, align 4			%1 = load float, float *%a0, align 4
	%2 = insertelement <8 x float> undef, float %1, i32 0			%2 = insertelement <8 x float> undef, float %1, i32 0
	Show All 36 Lines
	; SKX-NEXT: vcmpeqpd (%rdi), %ymm0, %k1 # sched: [10:1.00]			; SKX-NEXT: vcmpeqpd (%rdi), %ymm0, %k1 # sched: [10:1.00]
	; SKX-NEXT: vpmovm2q %k0, %ymm0			; SKX-NEXT: vpmovm2q %k0, %ymm0
	; SKX-NEXT: vpmovm2q %k1, %ymm1			; SKX-NEXT: vpmovm2q %k1, %ymm1
	; SKX-NEXT: vpor %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vpor %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cmppd:			; BTVER2-LABEL: test_cmppd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcmpeqpd %ymm1, %ymm0, %ymm1 # sched: [3:1.00]			; BTVER2-NEXT: vcmpeqpd %ymm1, %ymm0, %ymm1 # sched: [2:2.00]
	; BTVER2-NEXT: vcmpeqpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vcmpeqpd (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: vorpd %ymm0, %ymm1, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vorpd %ymm0, %ymm1, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cmppd:			; ZNVER1-LABEL: test_cmppd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcmpeqpd %ymm1, %ymm0, %ymm1 # sched: [3:1.00]			; ZNVER1-NEXT: vcmpeqpd %ymm1, %ymm0, %ymm1 # sched: [3:1.00]
	; ZNVER1-NEXT: vcmpeqpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vcmpeqpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: vorpd %ymm0, %ymm1, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vorpd %ymm0, %ymm1, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vcmpeqps (%rdi), %ymm0, %k1 # sched: [10:1.00]			; SKX-NEXT: vcmpeqps (%rdi), %ymm0, %k1 # sched: [10:1.00]
	; SKX-NEXT: vpmovm2d %k0, %ymm0			; SKX-NEXT: vpmovm2d %k0, %ymm0
	; SKX-NEXT: vpmovm2d %k1, %ymm1			; SKX-NEXT: vpmovm2d %k1, %ymm1
	; SKX-NEXT: vpor %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vpor %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cmpps:			; BTVER2-LABEL: test_cmpps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcmpeqps %ymm1, %ymm0, %ymm1 # sched: [3:1.00]			; BTVER2-NEXT: vcmpeqps %ymm1, %ymm0, %ymm1 # sched: [2:2.00]
	; BTVER2-NEXT: vcmpeqps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vcmpeqps (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: vorps %ymm0, %ymm1, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vorps %ymm0, %ymm1, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cmpps:			; ZNVER1-LABEL: test_cmpps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcmpeqps %ymm1, %ymm0, %ymm1 # sched: [3:1.00]			; ZNVER1-NEXT: vcmpeqps %ymm1, %ymm0, %ymm1 # sched: [3:1.00]
	; ZNVER1-NEXT: vcmpeqps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vcmpeqps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: vorps %ymm0, %ymm1, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vorps %ymm0, %ymm1, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	Show All 40 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [7:1.00]			; SKX-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [7:1.00]
	; SKX-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [13:1.00]			; SKX-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [13:1.00]
	; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cvtdq2pd:			; BTVER2-LABEL: test_cvtdq2pd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [8:2.00]
	; BTVER2-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cvtdq2pd:			; ZNVER1-LABEL: test_cvtdq2pd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [12:1.00]			; ZNVER1-NEXT: vcvtdq2pd (%rdi), %ymm1 # sched: [12:1.00]
	; ZNVER1-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [5:1.00]			; ZNVER1-NEXT: vcvtdq2pd %xmm0, %ymm0 # sched: [5:1.00]
	; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	Show All 40 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [11:0.50]			; SKX-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [11:0.50]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cvtdq2ps:			; BTVER2-LABEL: test_cvtdq2ps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [8:2.00]
	; BTVER2-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cvtdq2ps:			; ZNVER1-LABEL: test_cvtdq2ps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [12:1.00]			; ZNVER1-NEXT: vcvtdq2ps (%rdi), %ymm1 # sched: [12:1.00]
	; ZNVER1-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [5:1.00]			; ZNVER1-NEXT: vcvtdq2ps %ymm0, %ymm0 # sched: [5:1.00]
	; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [7:1.00]			; SKX-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [7:1.00]
	; SKX-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [8:1.00]			; SKX-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [8:1.00]
	; SKX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [3:1.00]			; SKX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [3:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cvtpd2ps:			; BTVER2-LABEL: test_cvtpd2ps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [11:2.00]
	; BTVER2-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [6:2.00]
	; BTVER2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [1:0.50]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cvtpd2ps:			; ZNVER1-LABEL: test_cvtpd2ps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [11:1.00]			; ZNVER1-NEXT: vcvtpd2psy (%rdi), %xmm1 # sched: [11:1.00]
	; ZNVER1-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [5:1.00]			; ZNVER1-NEXT: vcvtpd2ps %ymm0, %xmm0 # sched: [5:1.00]
	; ZNVER1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [2:0.67]			; ZNVER1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 # sched: [2:0.67]
	Show All 40 Lines
	; SKX-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [11:0.50]			; SKX-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [11:0.50]
	; SKX-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_cvtps2dq:			; BTVER2-LABEL: test_cvtps2dq:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [8:1.00]
	; BTVER2-NEXT: vcvttps2dq %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvttps2dq %ymm0, %ymm0 # sched: [3:1.00]
	; BTVER2-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_cvtps2dq:			; ZNVER1-LABEL: test_cvtps2dq:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [12:1.00]			; ZNVER1-NEXT: vcvttps2dq (%rdi), %ymm1 # sched: [12:1.00]
	; ZNVER1-NEXT: vcvttps2dq %ymm0, %ymm0 # sched: [5:1.00]			; ZNVER1-NEXT: vcvttps2dq %ymm0, %ymm0 # sched: [5:1.00]
	; ZNVER1-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; SKX-LABEL: test_dpps:			; SKX-LABEL: test_dpps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [13:1.33]			; SKX-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [13:1.33]
	; SKX-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [20:1.33]			; SKX-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [20:1.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_dpps:			; BTVER2-LABEL: test_dpps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [12:6.00]
	; BTVER2-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [17:6.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_dpps:			; ZNVER1-LABEL: test_dpps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [100:?]			; ZNVER1-NEXT: vdpps $7, %ymm1, %ymm0, %ymm0 # sched: [100:?]
	; ZNVER1-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [100:?]			; ZNVER1-NEXT: vdpps $7, (%rdi), %ymm0, %ymm0 # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x float> @llvm.x86.avx.dp.ps.256(<8 x float> %a0, <8 x float> %a1, i8 7)			%1 = call <8 x float> @llvm.x86.avx.dp.ps.256(<8 x float> %a0, <8 x float> %a1, i8 7)
	▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2 # sched: [8:0.50]			; SKX-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2 # sched: [8:0.50]
	; SKX-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi) # sched: [2:1.00]			; SKX-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi) # sched: [2:1.00]
	; SKX-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:1.00]			; SKX-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_maskmovpd_ymm:			; BTVER2-LABEL: test_maskmovpd_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2			; BTVER2-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2 # sched: [6:2.00]
	; BTVER2-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi)			; BTVER2-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi) # sched: [11:2.00]
	; BTVER2-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:0.50]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_maskmovpd_ymm:			; ZNVER1-LABEL: test_maskmovpd_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2 # sched: [8:1.00]			; ZNVER1-NEXT: vmaskmovpd (%rdi), %ymm0, %ymm2 # sched: [8:1.00]
	; ZNVER1-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi) # sched: [5:1.00]			; ZNVER1-NEXT: vmaskmovpd %ymm1, %ymm0, (%rdi) # sched: [5:1.00]
	; ZNVER1-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vmovapd %ymm2, %ymm0 # sched: [1:0.50]
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2 # sched: [8:0.50]			; SKX-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2 # sched: [8:0.50]
	; SKX-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi) # sched: [2:1.00]			; SKX-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi) # sched: [2:1.00]
	; SKX-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:1.00]			; SKX-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_maskmovps_ymm:			; BTVER2-LABEL: test_maskmovps_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2			; BTVER2-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2 # sched: [6:2.00]
	; BTVER2-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi)			; BTVER2-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi) # sched: [11:2.00]
	; BTVER2-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:0.50]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_maskmovps_ymm:			; ZNVER1-LABEL: test_maskmovps_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2 # sched: [8:1.00]			; ZNVER1-NEXT: vmaskmovps (%rdi), %ymm0, %ymm2 # sched: [8:1.00]
	; ZNVER1-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi) # sched: [5:1.00]			; ZNVER1-NEXT: vmaskmovps %ymm1, %ymm0, (%rdi) # sched: [5:1.00]
	; ZNVER1-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vmovaps %ymm2, %ymm0 # sched: [1:0.50]
	Show All 33 Lines
	; SKX-LABEL: test_maxpd:			; SKX-LABEL: test_maxpd:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; SKX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; SKX-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_maxpd:			; BTVER2-LABEL: test_maxpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_maxpd:			; ZNVER1-LABEL: test_maxpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vmaxpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vmaxpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %a0, <4 x double> %a1)			%1 = call <4 x double> @llvm.x86.avx.max.pd.256(<4 x double> %a0, <4 x double> %a1)
	Show All 31 Lines
	; SKX-LABEL: test_maxps:			; SKX-LABEL: test_maxps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; SKX-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; SKX-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_maxps:			; BTVER2-LABEL: test_maxps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_maxps:			; ZNVER1-LABEL: test_maxps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vmaxps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vmaxps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x float> @llvm.x86.avx.max.ps.256(<8 x float> %a0, <8 x float> %a1)			%1 = call <8 x float> @llvm.x86.avx.max.ps.256(<8 x float> %a0, <8 x float> %a1)
	Show All 31 Lines
	; SKX-LABEL: test_minpd:			; SKX-LABEL: test_minpd:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; SKX-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; SKX-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_minpd:			; BTVER2-LABEL: test_minpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_minpd:			; ZNVER1-LABEL: test_minpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vminpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vminpd (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %a0, <4 x double> %a1)			%1 = call <4 x double> @llvm.x86.avx.min.pd.256(<4 x double> %a0, <4 x double> %a1)
	Show All 31 Lines
	; SKX-LABEL: test_minps:			; SKX-LABEL: test_minps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; SKX-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; SKX-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_minps:			; BTVER2-LABEL: test_minps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; BTVER2-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [7:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_minps:			; ZNVER1-LABEL: test_minps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vminps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]			; ZNVER1-NEXT: vminps (%rdi), %ymm0, %ymm0 # sched: [10:1.00]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x float> @llvm.x86.avx.min.ps.256(<8 x float> %a0, <8 x float> %a1)			%1 = call <8 x float> @llvm.x86.avx.min.ps.256(<8 x float> %a0, <8 x float> %a1)
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:1.00]			; SKX-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:1.00]
	; SKX-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [7:0.50]			; SKX-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [7:0.50]
	; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movddup:			; BTVER2-LABEL: test_movddup:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [5:1.00]			; BTVER2-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [6:1.00]
	; BTVER2-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:0.50]			; BTVER2-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:1.00]
	; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movddup:			; ZNVER1-LABEL: test_movddup:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [8:0.50]			; ZNVER1-NEXT: vmovddup {{.*#+}} ymm1 = mem[0,0,2,2] sched: [8:0.50]
	; ZNVER1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:0.50]			; ZNVER1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2] sched: [1:0.50]
	; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	Show All 33 Lines
	; SKX-LABEL: test_movmskpd:			; SKX-LABEL: test_movmskpd:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmovmskpd %ymm0, %eax # sched: [2:1.00]			; SKX-NEXT: vmovmskpd %ymm0, %eax # sched: [2:1.00]
	; SKX-NEXT: vzeroupper # sched: [4:1.00]			; SKX-NEXT: vzeroupper # sched: [4:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movmskpd:			; BTVER2-LABEL: test_movmskpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovmskpd %ymm0, %eax # sched: [1:0.50]			; BTVER2-NEXT: vmovmskpd %ymm0, %eax # sched: [3:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movmskpd:			; ZNVER1-LABEL: test_movmskpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovmskpd %ymm0, %eax # sched: [1:1.00]			; ZNVER1-NEXT: vmovmskpd %ymm0, %eax # sched: [1:1.00]
	; ZNVER1-NEXT: vzeroupper # sched: [100:?]			; ZNVER1-NEXT: vzeroupper # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call i32 @llvm.x86.avx.movmsk.pd.256(<4 x double> %a0)			%1 = call i32 @llvm.x86.avx.movmsk.pd.256(<4 x double> %a0)
	Show All 29 Lines
	; SKX-LABEL: test_movmskps:			; SKX-LABEL: test_movmskps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vmovmskps %ymm0, %eax # sched: [2:1.00]			; SKX-NEXT: vmovmskps %ymm0, %eax # sched: [2:1.00]
	; SKX-NEXT: vzeroupper # sched: [4:1.00]			; SKX-NEXT: vzeroupper # sched: [4:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movmskps:			; BTVER2-LABEL: test_movmskps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovmskps %ymm0, %eax # sched: [1:0.50]			; BTVER2-NEXT: vmovmskps %ymm0, %eax # sched: [3:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movmskps:			; ZNVER1-LABEL: test_movmskps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovmskps %ymm0, %eax # sched: [1:1.00]			; ZNVER1-NEXT: vmovmskps %ymm0, %eax # sched: [1:1.00]
	; ZNVER1-NEXT: vzeroupper # sched: [100:?]			; ZNVER1-NEXT: vzeroupper # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call i32 @llvm.x86.avx.movmsk.ps.256(<8 x float> %a0)			%1 = call i32 @llvm.x86.avx.movmsk.ps.256(<8 x float> %a0)
	Show All 30 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmovntpd %ymm0, (%rdi) # sched: [1:1.00]			; SKX-NEXT: vmovntpd %ymm0, (%rdi) # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movntpd:			; BTVER2-LABEL: test_movntpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vmovntpd %ymm0, (%rdi) # sched: [1:1.00]			; BTVER2-NEXT: vmovntpd %ymm0, (%rdi) # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movntpd:			; ZNVER1-LABEL: test_movntpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmovntpd %ymm0, (%rdi) # sched: [1:0.50]			; ZNVER1-NEXT: vmovntpd %ymm0, (%rdi) # sched: [1:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = fadd <4 x double> %a0, %a0			%1 = fadd <4 x double> %a0, %a0
	Show All 30 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmovntps %ymm0, (%rdi) # sched: [1:1.00]			; SKX-NEXT: vmovntps %ymm0, (%rdi) # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movntps:			; BTVER2-LABEL: test_movntps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vmovntps %ymm0, (%rdi) # sched: [1:1.00]			; BTVER2-NEXT: vmovntps %ymm0, (%rdi) # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movntps:			; ZNVER1-LABEL: test_movntps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmovntps %ymm0, (%rdi) # sched: [1:0.50]			; ZNVER1-NEXT: vmovntps %ymm0, (%rdi) # sched: [1:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = fadd <8 x float> %a0, %a0			%1 = fadd <8 x float> %a0, %a0
	Show All 35 Lines
	; SKX-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:1.00]			; SKX-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:1.00]
	; SKX-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [7:0.50]			; SKX-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [7:0.50]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movshdup:			; BTVER2-LABEL: test_movshdup:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [5:1.00]			; BTVER2-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [5:1.00]
	; BTVER2-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:0.50]			; BTVER2-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:1.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movshdup:			; ZNVER1-LABEL: test_movshdup:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [8:0.50]			; ZNVER1-NEXT: vmovshdup {{.*#+}} ymm1 = mem[1,1,3,3,5,5,7,7] sched: [8:0.50]
	; ZNVER1-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:0.50]			; ZNVER1-NEXT: vmovshdup {{.*#+}} ymm0 = ymm0[1,1,3,3,5,5,7,7] sched: [1:0.50]
	; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	Show All 39 Lines
	; SKX-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:1.00]			; SKX-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:1.00]
	; SKX-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [7:0.50]			; SKX-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [7:0.50]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movsldup:			; BTVER2-LABEL: test_movsldup:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [5:1.00]			; BTVER2-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [5:1.00]
	; BTVER2-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:0.50]			; BTVER2-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:1.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movsldup:			; ZNVER1-LABEL: test_movsldup:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [8:0.50]			; ZNVER1-NEXT: vmovsldup {{.*#+}} ymm1 = mem[0,0,2,2,4,4,6,6] sched: [8:0.50]
	; ZNVER1-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:0.50]			; ZNVER1-NEXT: vmovsldup {{.*#+}} ymm0 = ymm0[0,0,2,2,4,4,6,6] sched: [1:0.50]
	; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmovupd %ymm0, (%rsi) # sched: [1:1.00]			; SKX-NEXT: vmovupd %ymm0, (%rsi) # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movupd:			; BTVER2-LABEL: test_movupd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovupd (%rdi), %ymm0 # sched: [5:1.00]			; BTVER2-NEXT: vmovupd (%rdi), %ymm0 # sched: [5:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vmovupd %ymm0, (%rsi) # sched: [1:1.00]			; BTVER2-NEXT: vmovupd %ymm0, (%rsi) # sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movupd:			; ZNVER1-LABEL: test_movupd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovupd (%rdi), %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vmovupd (%rdi), %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm0, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmovupd %ymm0, (%rsi) # sched: [1:0.50]			; ZNVER1-NEXT: vmovupd %ymm0, (%rsi) # sched: [1:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	Show All 40 Lines
	; SKX-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmovups %ymm0, (%rsi) # sched: [1:1.00]			; SKX-NEXT: vmovups %ymm0, (%rsi) # sched: [1:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_movups:			; BTVER2-LABEL: test_movups:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vmovups (%rdi), %ymm0 # sched: [5:1.00]			; BTVER2-NEXT: vmovups (%rdi), %ymm0 # sched: [5:1.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vmovups %ymm0, (%rsi) # sched: [1:1.00]			; BTVER2-NEXT: vmovups %ymm0, (%rsi) # sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_movups:			; ZNVER1-LABEL: test_movups:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vmovups (%rdi), %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vmovups (%rdi), %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm0, %ymm0, %ymm0 # sched: [3:1.00]
	; ZNVER1-NEXT: vmovups %ymm0, (%rsi) # sched: [1:0.50]			; ZNVER1-NEXT: vmovups %ymm0, (%rsi) # sched: [1:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: orpd:			; BTVER2-LABEL: orpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: orpd:			; ZNVER1-LABEL: orpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_orps:			; BTVER2-LABEL: test_orps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_orps:			; ZNVER1-LABEL: test_orps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:1.00]			; SKX-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:1.00]
	; SKX-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [8:1.00]			; SKX-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [8:1.00]
	; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_permilpd_ymm:			; BTVER2-LABEL: test_permilpd_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [6:1.00]			; BTVER2-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [6:1.00]
	; BTVER2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:0.50]			; BTVER2-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:1.00]
	; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_permilpd_ymm:			; ZNVER1-LABEL: test_permilpd_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [8:0.50]			; ZNVER1-NEXT: vpermilpd {{.*#+}} ymm1 = mem[1,0,2,3] sched: [8:0.50]
	; ZNVER1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:0.50]			; ZNVER1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,3] sched: [1:0.50]
	; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:1.00]			; SKX-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:1.00]
	; SKX-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [8:1.00]			; SKX-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [8:1.00]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_permilps_ymm:			; BTVER2-LABEL: test_permilps_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [6:1.00]			; BTVER2-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [6:1.00]
	; BTVER2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:0.50]			; BTVER2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:1.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_permilps_ymm:			; ZNVER1-LABEL: test_permilps_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [8:0.50]			; ZNVER1-NEXT: vpermilps {{.*#+}} ymm1 = mem[3,2,1,0,7,6,5,4] sched: [8:0.50]
	; ZNVER1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:0.50]			; ZNVER1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4] sched: [1:0.50]
	; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; SKX-LABEL: test_permilvarpd_ymm:			; SKX-LABEL: test_permilvarpd_ymm:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]			; SKX-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; SKX-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_permilvarpd_ymm:			; BTVER2-LABEL: test_permilvarpd_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [3:3.00]
	; BTVER2-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_permilvarpd_ymm:			; ZNVER1-LABEL: test_permilvarpd_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vpermilpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
	; ZNVER1-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpermilpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; SKX-LABEL: test_permilvarps_ymm:			; SKX-LABEL: test_permilvarps_ymm:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]			; SKX-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; SKX-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]			; SKX-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_permilvarps_ymm:			; BTVER2-LABEL: test_permilvarps_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [3:3.00]
	; BTVER2-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_permilvarps_ymm:			; ZNVER1-LABEL: test_permilvarps_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; ZNVER1-NEXT: vpermilps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
	; ZNVER1-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpermilps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [8:0.67]			; SKX-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [8:0.67]
	; SKX-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [15:0.67]			; SKX-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [15:0.67]
	; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_roundpd:			; BTVER2-LABEL: test_roundpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [8:1.00]
	; BTVER2-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_roundpd:			; ZNVER1-LABEL: test_roundpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [11:1.00]			; ZNVER1-NEXT: vroundpd $7, (%rdi), %ymm1 # sched: [11:1.00]
	; ZNVER1-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [4:1.00]			; ZNVER1-NEXT: vroundpd $7, %ymm0, %ymm0 # sched: [4:1.00]
	; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	Show All 40 Lines
	; SKX-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [8:0.67]			; SKX-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [8:0.67]
	; SKX-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [15:0.67]			; SKX-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [15:0.67]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_roundps:			; BTVER2-LABEL: test_roundps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [8:1.00]
	; BTVER2-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_roundps:			; ZNVER1-LABEL: test_roundps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [11:1.00]			; ZNVER1-NEXT: vroundps $7, (%rdi), %ymm1 # sched: [11:1.00]
	; ZNVER1-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [4:1.00]			; ZNVER1-NEXT: vroundps $7, %ymm0, %ymm0 # sched: [4:1.00]
	; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:1.00]			; SKX-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:1.00]
	; SKX-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [8:1.00]			; SKX-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [8:1.00]
	; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_shufpd:			; BTVER2-LABEL: test_shufpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:0.50]			; BTVER2-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:1.00]
	; BTVER2-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [6:1.00]			; BTVER2-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [6:1.00]
	; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_shufpd:			; ZNVER1-LABEL: test_shufpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:0.50]			; ZNVER1-NEXT: vshufpd {{.*#+}} ymm0 = ymm0[1],ymm1[0],ymm0[2],ymm1[3] sched: [1:0.50]
	; ZNVER1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [8:0.50]			; ZNVER1-NEXT: vshufpd {{.*#+}} ymm1 = ymm1[1],mem[0],ymm1[2],mem[3] sched: [8:0.50]
	Show All 34 Lines
	; SKX-LABEL: test_shufps:			; SKX-LABEL: test_shufps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:1.00]			; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:1.00]
	; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [8:1.00]			; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [8:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_shufps:			; BTVER2-LABEL: test_shufps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:0.50]			; BTVER2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:1.00]
	; BTVER2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [6:1.00]			; BTVER2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [6:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_shufps:			; ZNVER1-LABEL: test_shufps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:0.50]			; ZNVER1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,0],ymm1[0,0],ymm0[4,4],ymm1[4,4] sched: [1:0.50]
	; ZNVER1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [8:0.50]			; ZNVER1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,3],mem[0,0],ymm0[4,7],mem[4,4] sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	▲ Show 20 Lines • Show All 333 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vtestpd (%rdi), %ymm0 # sched: [9:1.00]			; SKX-NEXT: vtestpd (%rdi), %ymm0 # sched: [9:1.00]
	; SKX-NEXT: adcl $0, %eax # sched: [1:0.50]			; SKX-NEXT: adcl $0, %eax # sched: [1:0.50]
	; SKX-NEXT: vzeroupper # sched: [4:1.00]			; SKX-NEXT: vzeroupper # sched: [4:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_testpd_ymm:			; BTVER2-LABEL: test_testpd_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: xorl %eax, %eax # sched: [1:0.50]			; BTVER2-NEXT: xorl %eax, %eax # sched: [1:0.50]
	; BTVER2-NEXT: vtestpd %ymm1, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vtestpd %ymm1, %ymm0 # sched: [4:2.00]
	; BTVER2-NEXT: setb %al # sched: [1:0.50]			; BTVER2-NEXT: setb %al # sched: [1:0.50]
	; BTVER2-NEXT: vtestpd (%rdi), %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vtestpd (%rdi), %ymm0 # sched: [9:3.00]
	; BTVER2-NEXT: adcl $0, %eax # sched: [1:0.50]			; BTVER2-NEXT: adcl $0, %eax # sched: [1:0.50]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_testpd_ymm:			; ZNVER1-LABEL: test_testpd_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: xorl %eax, %eax # sched: [1:0.25]			; ZNVER1-NEXT: xorl %eax, %eax # sched: [1:0.25]
	; ZNVER1-NEXT: vtestpd %ymm1, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vtestpd %ymm1, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: setb %al # sched: [1:0.25]			; ZNVER1-NEXT: setb %al # sched: [1:0.25]
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vtestps (%rdi), %ymm0 # sched: [9:1.00]			; SKX-NEXT: vtestps (%rdi), %ymm0 # sched: [9:1.00]
	; SKX-NEXT: adcl $0, %eax # sched: [1:0.50]			; SKX-NEXT: adcl $0, %eax # sched: [1:0.50]
	; SKX-NEXT: vzeroupper # sched: [4:1.00]			; SKX-NEXT: vzeroupper # sched: [4:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_testps_ymm:			; BTVER2-LABEL: test_testps_ymm:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: xorl %eax, %eax # sched: [1:0.50]			; BTVER2-NEXT: xorl %eax, %eax # sched: [1:0.50]
	; BTVER2-NEXT: vtestps %ymm1, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vtestps %ymm1, %ymm0 # sched: [4:2.00]
	; BTVER2-NEXT: setb %al # sched: [1:0.50]			; BTVER2-NEXT: setb %al # sched: [1:0.50]
	; BTVER2-NEXT: vtestps (%rdi), %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vtestps (%rdi), %ymm0 # sched: [9:3.00]
	; BTVER2-NEXT: adcl $0, %eax # sched: [1:0.50]			; BTVER2-NEXT: adcl $0, %eax # sched: [1:0.50]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_testps_ymm:			; ZNVER1-LABEL: test_testps_ymm:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: xorl %eax, %eax # sched: [1:0.25]			; ZNVER1-NEXT: xorl %eax, %eax # sched: [1:0.25]
	; ZNVER1-NEXT: vtestps %ymm1, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vtestps %ymm1, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: setb %al # sched: [1:0.25]			; ZNVER1-NEXT: setb %al # sched: [1:0.25]
	▲ Show 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_xorpd:			; BTVER2-LABEL: test_xorpd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddpd %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_xorpd:			; ZNVER1-LABEL: test_xorpd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vxorpd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vxorpd (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]			; SKX-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
	; SKX-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; SKX-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_xorps:			; BTVER2-LABEL: test_xorps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:0.50]			; BTVER2-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:1.00]
	; BTVER2-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]			; BTVER2-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [6:1.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_xorps:			; ZNVER1-LABEL: test_xorps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]			; ZNVER1-NEXT: vxorps %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]			; ZNVER1-NEXT: vxorps (%rdi), %ymm0, %ymm0 # sched: [8:0.50]
	▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

test/CodeGen/X86/f16c-schedule.ll

	Show All 32 Lines
	; SKYLAKE-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [4:0.50]			; SKYLAKE-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [4:0.50]
	; SKYLAKE-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [5:1.00]			; SKYLAKE-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [5:1.00]
	; SKYLAKE-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [2:1.00]			; SKYLAKE-NEXT: retq # sched: [2:1.00]
	;			;
	; BTVER2-LABEL: test_vcvtph2ps_128:			; BTVER2-LABEL: test_vcvtph2ps_128:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [8:1.00]
	; BTVER2-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [4:1.00]
	; BTVER2-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_vcvtph2ps_128:			; ZNVER1-LABEL: test_vcvtph2ps_128:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [100:?]			; ZNVER1-NEXT: vcvtph2ps (%rdi), %xmm1 # sched: [100:?]
	; ZNVER1-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vcvtph2ps %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %xmm0, %xmm1, %xmm0 # sched: [3:1.00]
	Show All 32 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [4:0.50]			; SKYLAKE-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [4:0.50]
	; SKYLAKE-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [7:1.00]			; SKYLAKE-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [7:1.00]
	; SKYLAKE-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [2:1.00]			; SKYLAKE-NEXT: retq # sched: [2:1.00]
	;			;
	; BTVER2-LABEL: test_vcvtph2ps_256:			; BTVER2-LABEL: test_vcvtph2ps_256:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [8:1.00]			; BTVER2-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [5:2.00]
	; BTVER2-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [5:2.00]
	; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_vcvtph2ps_256:			; ZNVER1-LABEL: test_vcvtph2ps_256:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [100:?]			; ZNVER1-NEXT: vcvtph2ps (%rdi), %ymm1 # sched: [100:?]
	; ZNVER1-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [100:?]			; ZNVER1-NEXT: vcvtph2ps %xmm0, %ymm0 # sched: [100:?]
	; ZNVER1-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:1.00]			; ZNVER1-NEXT: vaddps %ymm0, %ymm1, %ymm0 # sched: [3:1.00]
	Show All 28 Lines
	; SKYLAKE-LABEL: test_vcvtps2ph_128:			; SKYLAKE-LABEL: test_vcvtps2ph_128:
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [5:1.00]			; SKYLAKE-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [5:1.00]
	; SKYLAKE-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [5:1.00]			; SKYLAKE-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [5:1.00]
	; SKYLAKE-NEXT: retq # sched: [2:1.00]			; SKYLAKE-NEXT: retq # sched: [2:1.00]
	;			;
	; BTVER2-LABEL: test_vcvtps2ph_128:			; BTVER2-LABEL: test_vcvtps2ph_128:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [4:1.00]
	; BTVER2-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [8:1.00]			; BTVER2-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [9:1.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_vcvtps2ph_128:			; ZNVER1-LABEL: test_vcvtps2ph_128:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vcvtps2ph $0, %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [100:?]			; ZNVER1-NEXT: vcvtps2ph $0, %xmm1, (%rdi) # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.vcvtps2ph.128(<4 x float> %a0, i32 0)			%1 = call <8 x i16> @llvm.x86.vcvtps2ph.128(<4 x float> %a0, i32 0)
	Show All 30 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [7:1.00]			; SKYLAKE-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [7:1.00]
	; SKYLAKE-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [7:1.00]			; SKYLAKE-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [7:1.00]
	; SKYLAKE-NEXT: vzeroupper # sched: [4:1.00]			; SKYLAKE-NEXT: vzeroupper # sched: [4:1.00]
	; SKYLAKE-NEXT: retq # sched: [2:1.00]			; SKYLAKE-NEXT: retq # sched: [2:1.00]
	;			;
	; BTVER2-LABEL: test_vcvtps2ph_256:			; BTVER2-LABEL: test_vcvtps2ph_256:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [6:2.00]
	; BTVER2-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [8:1.00]			; BTVER2-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [11:2.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_vcvtps2ph_256:			; ZNVER1-LABEL: test_vcvtps2ph_256:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vcvtps2ph $0, %ymm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [100:?]			; ZNVER1-NEXT: vcvtps2ph $0, %ymm1, (%rdi) # sched: [100:?]
	; ZNVER1-NEXT: vzeroupper # sched: [100:?]			; ZNVER1-NEXT: vzeroupper # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float> %a0, i32 0)			%1 = call <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float> %a0, i32 0)
	%2 = call <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float> %a1, i32 0)			%2 = call <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float> %a1, i32 0)
	store <8 x i16> %2, <8 x i16> *%a2			store <8 x i16> %2, <8 x i16> *%a2
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}
	declare <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float>, i32)			declare <8 x i16> @llvm.x86.vcvtps2ph.256(<8 x float>, i32)

test/CodeGen/X86/sse41-schedule.ll

	Show First 20 Lines • Show All 282 Lines • ▼ Show 20 Lines
	; SKX-LABEL: test_dppd:			; SKX-LABEL: test_dppd:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [9:1.00]			; SKX-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [9:1.00]
	; SKX-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [15:1.00]			; SKX-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [15:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_dppd:			; BTVER2-LABEL: test_dppd:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [9:3.00]
	; BTVER2-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [8:1.00]			; BTVER2-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [14:3.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_dppd:			; ZNVER1-LABEL: test_dppd:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vdppd $7, %xmm1, %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vdppd $7, (%rdi), %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <2 x double> @llvm.x86.sse41.dppd(<2 x double> %a0, <2 x double> %a1, i8 7)			%1 = call <2 x double> @llvm.x86.sse41.dppd(<2 x double> %a0, <2 x double> %a1, i8 7)
	Show All 37 Lines
	; SKX-LABEL: test_dpps:			; SKX-LABEL: test_dpps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [13:1.33]			; SKX-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [13:1.33]
	; SKX-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [19:1.33]			; SKX-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [19:1.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_dpps:			; BTVER2-LABEL: test_dpps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [11:4.00]
	; BTVER2-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [8:1.00]			; BTVER2-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [16:4.00]
	; BTVER2-NEXT: retq # sched: [4:1.00]			; BTVER2-NEXT: retq # sched: [4:1.00]
	;			;
	; ZNVER1-LABEL: test_dpps:			; ZNVER1-LABEL: test_dpps:
	; ZNVER1: # BB#0:			; ZNVER1: # BB#0:
	; ZNVER1-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vdpps $7, %xmm1, %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [100:?]			; ZNVER1-NEXT: vdpps $7, (%rdi), %xmm0, %xmm0 # sched: [100:?]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <4 x float> @llvm.x86.sse41.dpps(<4 x float> %a0, <4 x float> %a1, i8 7)			%1 = call <4 x float> @llvm.x86.sse41.dpps(<4 x float> %a0, <4 x float> %a1, i8 7)
	▲ Show 20 Lines • Show All 2,514 Lines • Show Last 20 Lines