This is an archive of the discontinued LLVM Phabricator instance.

[ExecutionDepsFix] Kill clearance at function entry/calls
Needs ReviewPublic

Authored by loladiro on Jan 16 2017, 3:49 PM.

Download Raw Diff

Details

Reviewers

myatsina
atrick
mkuper
MatzeB

Summary

This is a follow up to D28759 and together with that commit fixes
all (maybe all, pending another look at the benchmarks) of
the benchmarks that regressed due to rL278321 (while keeping the
performance enhancements in cases where rL278321 was beneficial).

Prior to this commit, the analysis would simply ignore any function
calls for the clearance calulation, causing incorrect results after
any function call (for the benchmarks that regressed rL278321 just
happened to pick a register that was worse than the xmm0 default).
With this patch, we kill clearance for all registers when a function
call occurs.

Similarly, we kill clearance at function entry. This is by far the more
disruprive of the two cases, but is necessary to avoid 2x penalty in some
common cases. The most obvious case where this happens is calling a
small-ish non-inlined function in a loop. If the function uses xmm
registers that are not live-ins, it is likely to fall into this performance
trap, if we don't consider clearance small on live-ins.

This is obviously more pessimistic than reality in a lot cases. However,
the combination of the immense penalty for not having the dependency
breaking instruction (3-5x), together with the fact that these instructions
are extremely cheap (they are special cased in the decoder, AFAIK, so
don't even take up an execution unit).

Diff Detail

Build Status

Buildable 3075
Build 3075: arc lint + arc unit

Event Timeline

loladiro created this revision.Jan 16 2017, 3:49 PM

loladiro added a parent revision: D28759: [ExecutionDepsFix] Improve clearance calculation for loops.Jan 16 2017, 3:49 PM

myatsina added inline comments.Jan 17 2017, 5:48 AM

lib/CodeGen/ExecutionDepsFix.cpp
509	Isn't it enough to do this only in the primary pass?
685	Better not mix 2 different issues in one patch, so please separate this optimization (and the related pickBestRegisterForUndef changes) to another review with a dedicated test. Please also upload here a patch (+test) that relate just to the "call" clearance calculation.
test/CodeGen/X86/break-false-dep.ll
336	Isn't this suppose to be part of the https://reviews.llvm.org/D28759 patch?

vchuravy added a subscriber: vchuravy.Jan 18 2017, 6:28 PM

Updated to also kill clearance at function entry

And a revised optimization procedure to avoid excessive vxorps caused by
that.

loladiro edited the summary of this revision. (Show Details)Jan 19 2017, 11:45 AM

Sorry to make you re-review this, but the solution I had put up previously turned out to be insufficient to address all the regressions we were seeing on benchmarks. Combining your previous changes with the two pending revisions, we're seeing 2-3x improvements on a number of our benchmarks and no regressions!

I'll update this to pull out the optimization into a prior patch, stacked before this one.

loladiro mentioned this in D28915: [ExecutionDepsFix] Optimize instruction insertion.Jan 19 2017, 1:23 PM

Split out the optimization part into D28915

loladiro added a parent revision: D28915: [ExecutionDepsFix] Optimize instruction insertion.Jan 19 2017, 1:35 PM

loladiro retitled this revision from [ExecutionDepsFix] Kill clearance at function calls to [ExecutionDepsFix] Kill clearance at function entry/calls.

loladiro edited the summary of this revision. (Show Details)

loladiro set the repository for this revision to rL LLVM.

The existent tests you've changes seem to be affect by other changes as well.
Can you please upload only the changed tests' logic that is affected by this patch alone?
I would not like to see the affects of "xor fusion" or the other things here, just the support for call instructions in clearance calculation

lib/CodeGen/ExecutionDepsFix.cpp
412	I was about to upload a review for this issue :) It solves at least 2 bugzillas: https://llvm.org/bugs/show_bug.cgi?id=25277 https://llvm.org/bugs/show_bug.cgi?id=27573 One of them is marked as duplicate of other issues, so it will solve those too probably. You should mention these bugzillas in your commit message. In my version I had some small refactoring to this code section, feel free to adopt it if you like it: // If this is an entery block, we don't know what the caller function did // with the register, therfore we treat them as they were defined just before // the first instruction. // Otherwise, default values are 'nothing happened a long time ago'. int defaultDefVal = MBB->pred_empty() ? -1 : -(1 << 20); for (unsigned rx = 0; rx != NumRegs; ++rx) { LiveRegs[rx].Value = nullptr; LiveRegs[rx].Def = defaultDefVal; } // This is the entry block. if (MBB->pred_empty()) { DEBUG(dbgs() << "BB#" << MBB->getNumber() << ": entry\n"); return; }
631	Here, you've made this version dependent on the D28915 review. I suggest you commit this patch before D28915, but then you need to change this condition a bit (else if --> if). You can change it back in the "isDependencyBreak" review.
test/CodeGen/X86/avx512-cvt.ll
19	I think the checks in this test mix some of of your separate changes (the "XOR" fusion?). Are you sure this tst is correct? Shouldn't it have 2 xors? also, I'm not sure why xmm2, xmm3 changed to xmm4 here.
60	Same here and in the rest of this file, I don;t understand why the register changed from xmm2 to xmm3. This should not have been caused by the change in this patch.
test/CodeGen/X86/break-false-dep.ll
269	Why the change? What are you testing here?
362	let's separate between xor after call instruction and "xor fusion". these are 2 different features and each should have it's own tests, and this is the exact purpose of unit tests. If you want a test that combines several feature it shouldn't come at the expense of each feature's stand alone tests. It can be added on top of them.
364	This change should contain 2 tests, Check xor in the callee after a call (which callclearance does) Check xor in a function (I know it is indirectly tests in a lot of other places, but I think we should have an explicit test for this).
371	A suggestion for a simpler test that tests the call feature: define <4 x double> @callclearance( i64 %val ) { // inline asm to force choosing one register %val1 = sitofp i64 %val to double %val2 = sitofp i64 %val to double %2 = call <4 x double> @myfunc(i64 %val, i64 %val1) %val3 = sitofp i64 %val to double ... } Show that the undef register of the first and the second convert are the same, but the undef register of the third convert is different from them (--> the call instruction changes the clearance and thus another register was chosen).
test/CodeGen/X86/half.ll
104	the register is written explicitly, so better check the register too, no? There are other tests like this further on.
test/CodeGen/X86/i64-to-float.ll
281	why the change to xmm2? There is a dependency on it "really close", 3 instructions above it (vpcmpgtq %xmm1, %xmm0, %xmm2)

loladiro added inline comments.Feb 9 2017, 4:31 PM

lib/CodeGen/ExecutionDepsFix.cpp
631	Without D28915 there several hundred more xorps to be inserted in the tests ;)
test/CodeGen/X86/avx512-cvt.ll
19	Yes, this relies on the optimization in D28915. With this patch, but without the other one it would have inserted three xorps here (one for each of xmm2, xmm3, xmm4). The optimization in that patch allows us to get away with one. The reason this changed here and not in the other patch is that before this, xmm2 was considered to have sufficient clearance (same for xmm3 and xmm4), but now it doesn't any more.
test/CodeGen/X86/break-false-dep.ll
269	As remarked in the other revision, this is a trick for making sure that pickBestRegister is still tested.
371	What kind of inline asm do you have in mind for this purpose? I tried for a bit to come up with something, but didn't manage to.
test/CodeGen/X86/half.ll
104	Fair enough
test/CodeGen/X86/i64-to-float.ll
281	Well, there needs to be an xor with some register here. xmm2 seems as good as any other, unless the fact that is was used shortly before actually makes a difference (I'm not aware of such an impact, since this should be handle in the register renaming unit, but happy to be corrected).

myatsina added inline comments.Feb 15 2017, 8:02 AM

lib/CodeGen/ExecutionDepsFix.cpp
631	Good point :)
test/CodeGen/X86/avx512-cvt.ll
19	Why doesn't xmm2 have enough clearance and xmm4 does? There is no loop here, xmm4 and xmm2 should have the same clearance at this point. Or is it getting together with the other optimization you did that merges a bunch of instructions and re-writes their undef register? This is why I want to keep all these changes you are making separate from each other as much as possible. I understand they are ALL needed for avoiding the regressions, but they have complex interaction with each other therefore I think it's crucial to do them separately and incrementally. It will also help "documentation" of the different parts of this mechanism.
test/CodeGen/X86/break-false-dep.ll
371	The inline asm itself can be nop or empty string, it is treated as a black box for most of the compiler and nobody actually analyzes the registers that are used there. The important part is to mark the relevant registers as clobbered by the asm call (equivelent to the clobber list in extended inline asm): tail call void asm sideeffect "", "~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{dirflag},~{fpsr},~{flags}"() Here the inline asm is "" and it marks xmm8-xmm11 as clobbered, so this instruction will mark these registers as defs for clearance calculation purpose.
test/CodeGen/X86/i64-to-float.ll
281	What I meant in my comment is the original choice of xmm3 seems to be better than the new choice of xmm2. In theory if you prefer far away register, you may find a register that is far enough so that you wouldn't have to insert a xor and by this save an instruction.

myatsina added inline comments.Feb 15 2017, 8:10 AM

test/CodeGen/X86/break-false-dep.ll
269	Well, you're no longer just testing pickBestReg, you're also testing the "xor fusion" which beats the purpose of unit tests. Why do you think this test didn't test "pickBestReg" after your change? But this test does need to be changes to expect a "xor" before the convert (which should be the only effect of your change on this test). Or is there some other way you've affected this test that I'm missing?

loladiro added inline comments.Feb 15 2017, 1:12 PM

test/CodeGen/X86/avx512-cvt.ll
19	Without the change in D28915, this diff would have been: ; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1 ; KNL-NEXT: vpextrq $1, %xmm1, %rax +; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2 ; KNL-NEXT: vmovq %xmm1, %rax +; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1 ; KNL-NEXT: vunpcklpd {{.#+}} xmm1 = xmm1[0],xmm2[0] ; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2 ; KNL-NEXT: vpextrq $1, %xmm2, %rax +; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm3 ; KNL-NEXT: vmovq %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2 ; KNL-NEXT: vunpcklpd {{.#+}} xmm2 = xmm2[0],xmm3[0] ; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1 ; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2 ; KNL-NEXT: vpextrq $1, %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3 ; KNL-NEXT: vmovq %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2 ; KNL-NEXT: vunpcklpd {{.#+}} xmm2 = xmm2[0],xmm3[0] ; KNL-NEXT: vpextrq $1, %xmm0, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3 ; KNL-NEXT: vmovq %xmm0, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm0 ; KNL-NEXT: vunpcklpd {{.#+}} xmm0 = xmm0[0],xmm3[0] ; KNL-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; KNL-NEXT: vinsertf64x4 $1, %ymm1, %zmm0, %zmm0 ; KNL-NEXT: retq The optimization in D28915 allows it to recognize that it only needs on vxorps.
test/CodeGen/X86/break-false-dep.ll
269	Because after this change, there's no register with sufficient clearance (since all clearances are killed at function entry, so there's no "best register" for it to pick - they're all bad). This construction (comparison against a constant 0) forces llvm to materialize a vxorps, which breaks the dependence, so pickBestReg actually has some work to do.
371	Yes, but that's the opposite of what we need. We'd need some inline assembly to revive clearances (because they're now dead-by-default), not kill them.
test/CodeGen/X86/i64-to-float.ll
281	Why does xmm3 seem better? At this point the compiler has already determined that no register has sufficient clearance, which is why it inserts the dependency break. As far as I know, which register it uses then doesn't matter.

MatzeB resigned from this revision.Aug 15 2017, 11:06 AM

Revision Contents

Path

Size

lib/

CodeGen/

ExecutionDepsFix.cpp

20 lines

test/

CodeGen/

X86/

7 lines

42 lines

79 lines

2 lines

4 lines

10 lines

5 lines

3 lines

3 lines

3 lines

sqrt-fastmath-tune.ll

3 lines

sqrt-fastmath.ll

4 lines

sse-scalar-fp-arith.ll

4 lines

sse2-intrinsics-fast-isel.ll

3 lines

sse_partial_update.ll

9 lines

2 lines

2 lines

391 lines

8 lines

Diff 85019

lib/CodeGen/ExecutionDepsFix.cpp

Show First 20 Lines • Show All 397 Lines • ▼ Show 20 Lines	void ExeDepsFix::enterBasicBlock(MachineBasicBlock *MBB) {
// Default values are 'nothing happened a long time ago'.		// Default values are 'nothing happened a long time ago'.
for (unsigned rx = 0; rx != NumRegs; ++rx) {		for (unsigned rx = 0; rx != NumRegs; ++rx) {
LiveRegs[rx].Value = nullptr;		LiveRegs[rx].Value = nullptr;
LiveRegs[rx].Def = -(1 << 20);		LiveRegs[rx].Def = -(1 << 20);
}		}

// This is the entry block.		// This is the entry block.
if (MBB->pred_empty()) {		if (MBB->pred_empty()) {
for (const auto &LI : MBB->liveins()) {		// Treat all registers as being defined just before the first instruction.
for (int rx : regIndices(LI.PhysReg)) {		// We used to only do this for live-ins, but that's a bit of a gamble.
// Treat function live-ins as if they were defined just before the first		// If our caller does arithmetic with these registers is is quite likely
// instruction. Usually, function arguments are set up immediately		// that it will have used registers beyond the ones that are live here.
// before the call.		// Given the immense penalty for getting this wrong, being conservative
		// here seems worth it.
		for (unsigned rx = 0; rx != NumRegs; ++rx) {
		myatsinaUnsubmitted Not Done Reply Inline Actions I was about to upload a review for this issue :) It solves at least 2 bugzillas: https://llvm.org/bugs/show_bug.cgi?id=25277 https://llvm.org/bugs/show_bug.cgi?id=27573 One of them is marked as duplicate of other issues, so it will solve those too probably. You should mention these bugzillas in your commit message. In my version I had some small refactoring to this code section, feel free to adopt it if you like it: // If this is an entery block, we don't know what the caller function did // with the register, therfore we treat them as they were defined just before // the first instruction. // Otherwise, default values are 'nothing happened a long time ago'. int defaultDefVal = MBB->pred_empty() ? -1 : -(1 << 20); for (unsigned rx = 0; rx != NumRegs; ++rx) { LiveRegs[rx].Value = nullptr; LiveRegs[rx].Def = defaultDefVal; } // This is the entry block. if (MBB->pred_empty()) { DEBUG(dbgs() << "BB#" << MBB->getNumber() << ": entry\n"); return; } myatsina: I was about to upload a review for this issue :) It solves at least 2 bugzillas: https://llvm.
LiveRegs[rx].Def = -1;		LiveRegs[rx].Def = -1;
}		}
}
DEBUG(dbgs() << "BB#" << MBB->getNumber() << ": entry\n");		DEBUG(dbgs() << "BB#" << MBB->getNumber() << ": entry\n");
return;		return;
}		}

// Try to coalesce live-out registers from predecessors.		// Try to coalesce live-out registers from predecessors.
for (MachineBasicBlock::const_pred_iterator pi = MBB->pred_begin(),		for (MachineBasicBlock::const_pred_iterator pi = MBB->pred_begin(),
pe = MBB->pred_end(); pi != pe; ++pi) {		pe = MBB->pred_end(); pi != pe; ++pi) {
auto fi = MBBInfos.find(*pi);		auto fi = MBBInfos.find(*pi);
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	void ExeDepsFix::pickBestRegisterForUndef(MachineInstr *MI, unsigned OpIdx,
unsigned Pref, bool &TrueDependency) {		unsigned Pref, bool &TrueDependency) {
MachineOperand &MO = MI->getOperand(OpIdx);		MachineOperand &MO = MI->getOperand(OpIdx);
assert(MO.isUndef() && "Expected undef machine operand");		assert(MO.isUndef() && "Expected undef machine operand");

unsigned OriginalReg = MO.getReg();		unsigned OriginalReg = MO.getReg();

// Update only undef operands that are mapped to one register.		// Update only undef operands that are mapped to one register.
if (AliasMap[OriginalReg].size() != 1)		if (AliasMap[OriginalReg].size() != 1)
return;		return;
		myatsinaUnsubmitted Not Done Reply Inline Actions Isn't it enough to do this only in the primary pass? myatsina: Isn't it enough to do this only in the primary pass?

// Get the undef operand's register class		// Get the undef operand's register class
const TargetRegisterClass *OpRC =		const TargetRegisterClass *OpRC =
TII->getRegClass(MI->getDesc(), OpIdx, TRI, *MF);		TII->getRegClass(MI->getDesc(), OpIdx, TRI, *MF);

// If the instruction has a true dependency, we can hide the false depdency		// If the instruction has a true dependency, we can hide the false depdency
// behind it.		// behind it.
for (MachineOperand &CurrMO : MI->operands()) {		for (MachineOperand &CurrMO : MI->operands()) {
▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	void ExeDepsFix::processDefs(MachineInstr *MI, bool breakDependency,
}		}
unsigned DepReg = 0;		unsigned DepReg = 0;
if (TII->isDependencyBreak(*MI, &DepReg)) {		if (TII->isDependencyBreak(*MI, &DepReg)) {
for (int rx : regIndices(DepReg)) {		for (int rx : regIndices(DepReg)) {
// This instruction is a dependency break, so there are no clearance		// This instruction is a dependency break, so there are no clearance
// issues, reset the counter.		// issues, reset the counter.
LiveRegs[rx].Def = -(1 << 20);		LiveRegs[rx].Def = -(1 << 20);
}		}
		} else if (MI->isCall()) {
		myatsinaUnsubmitted Not Done Reply Inline Actions Here, you've made this version dependent on the D28915 review. I suggest you commit this patch before D28915, but then you need to change this condition a bit (else if --> if). You can change it back in the "isDependencyBreak" review. myatsina: Here, you've made this version dependent on the D28915 review. I suggest you commit this patch…
		loladiroAuthorUnsubmitted Not Done Reply Inline Actions Without D28915 there several hundred more xorps to be inserted in the tests ;) loladiro: Without D28915 there several hundred more xorps to be inserted in the tests ;)
		myatsinaUnsubmitted Not Done Reply Inline Actions Good point :) myatsina: Good point :)
		// If this is a call, pretend all registers we are considering are def'd
		// here. We have no idea which registers the callee may use.
		for (unsigned i = 0, e = NumRegs; i != e; ++i)
		LiveRegs[i].Def = CurInstr;
}		}
++CurInstr;		++CurInstr;
}		}

// Set the undef read register to `Reg` for all UndefReads in the range		// Set the undef read register to `Reg` for all UndefReads in the range
// [from,to).		// [from,to).
void ExeDepsFix::collapseUndefReads(unsigned from, unsigned to, unsigned Reg) {		void ExeDepsFix::collapseUndefReads(unsigned from, unsigned to, unsigned Reg) {
if (from >= to)		if (from >= to)
Show All 33 Lines
/// Walk the block backward computing precise liveness. This is expensive, so we		/// Walk the block backward computing precise liveness. This is expensive, so we
/// only do it on demand. Note that the occurrence of undefined register reads		/// only do it on demand. Note that the occurrence of undefined register reads
/// that should be broken is very rare, but when they occur we may have many in		/// that should be broken is very rare, but when they occur we may have many in
/// a single block.		/// a single block.
void ExeDepsFix::processUndefReads(MachineBasicBlock *MBB) {		void ExeDepsFix::processUndefReads(MachineBasicBlock *MBB) {
if (UndefReads.empty())		if (UndefReads.empty())
return;		return;

// We want to be slightly clever here, to avoid the following common pattern:		// We want to be slightly clever here, to avoid the following common pattern:
		myatsinaUnsubmitted Not Done Reply Inline Actions Better not mix 2 different issues in one patch, so please separate this optimization (and the related pickBestRegisterForUndef changes) to another review with a dedicated test. Please also upload here a patch (+test) that relate just to the "call" clearance calculation. myatsina: Better not mix 2 different issues in one patch, so please separate this optimization (and the…
// Suppose we have some instruction `vrandom %in, %out` and the following code		// Suppose we have some instruction `vrandom %in, %out` and the following code
// vrandom %xmm0<undef>, %xmm0<def>		// vrandom %xmm0<undef>, %xmm0<def>
// vrandom %xmm1<undef>, %xmm1<def>		// vrandom %xmm1<undef>, %xmm1<def>
// vrandom %xmm2<undef>, %xmm2<def>		// vrandom %xmm2<undef>, %xmm2<def>
// vrandom %xmm3<undef>, %xmm3<def>		// vrandom %xmm3<undef>, %xmm3<def>
// The earlier logic likes to produce these, because it picks the first		// The earlier logic likes to produce these, because it picks the first
// register		// register
// to break ties in clearance. However, most register allocators pick the dest		// to break ties in clearance. However, most register allocators pick the dest
▲ Show 20 Lines • Show All 383 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-cvt.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%a = fpext <4 x float> %b to <4 x double>			%a = fpext <4 x float> %b to <4 x double>
	ret <4 x double> %a			ret <4 x double> %a
	}			}

	define double @funcA(i64* nocapture %e) nounwind uwtable readonly ssp {			define double @funcA(i64* nocapture %e) nounwind uwtable readonly ssp {
	; CHECK-LABEL: funcA:			; CHECK-LABEL: funcA:
	; CHECK: # BB#0:			; CHECK: # BB#0:
				; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vcvtsi2sdq (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vcvtsi2sdq (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp1 = load i64, i64* %e, align 8			%tmp1 = load i64, i64* %e, align 8
	%conv = sitofp i64 %tmp1 to double			%conv = sitofp i64 %tmp1 to double
	ret double %conv			ret double %conv
	}			}

	define double @funcB(i32* nocapture %e) nounwind uwtable readonly ssp {			define double @funcB(i32* nocapture %e) nounwind uwtable readonly ssp {
	; CHECK-LABEL: funcB:			; CHECK-LABEL: funcB:
	; CHECK: # BB#0:			; CHECK: # BB#0:
				; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vcvtsi2sdl (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vcvtsi2sdl (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp1 = load i32, i32* %e, align 4			%tmp1 = load i32, i32* %e, align 4
	%conv = sitofp i32 %tmp1 to double			%conv = sitofp i32 %tmp1 to double
	ret double %conv			ret double %conv
	}			}

	define float @funcC(i32* nocapture %e) nounwind uwtable readonly ssp {			define float @funcC(i32* nocapture %e) nounwind uwtable readonly ssp {
	; CHECK-LABEL: funcC:			; CHECK-LABEL: funcC:
	; CHECK: # BB#0:			; CHECK: # BB#0:
				; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vcvtsi2ssl (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vcvtsi2ssl (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp1 = load i32, i32* %e, align 4			%tmp1 = load i32, i32* %e, align 4
	%conv = sitofp i32 %tmp1 to float			%conv = sitofp i32 %tmp1 to float
	ret float %conv			ret float %conv
	}			}

	define float @funcD(i64* nocapture %e) nounwind uwtable readonly ssp {			define float @funcD(i64* nocapture %e) nounwind uwtable readonly ssp {
	; CHECK-LABEL: funcD:			; CHECK-LABEL: funcD:
	; CHECK: # BB#0:			; CHECK: # BB#0:
				; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vcvtsi2ssq (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vcvtsi2ssq (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp1 = load i64, i64* %e, align 8			%tmp1 = load i64, i64* %e, align 8
	%conv = sitofp i64 %tmp1 to float			%conv = sitofp i64 %tmp1 to float
	ret float %conv			ret float %conv
	}			}

	define void @fpext() nounwind uwtable {			define void @fpext() nounwind uwtable {
	; CHECK-LABEL: fpext:			; CHECK-LABEL: fpext:
	; CHECK: # BB#0:			; CHECK: # BB#0:
				; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vcvtss2sd -{{[0-9]+}}(%rsp), %xmm0, %xmm0			; CHECK-NEXT: vcvtss2sd -{{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vmovsd %xmm0, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: vmovsd %xmm0, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%f = alloca float, align 4			%f = alloca float, align 4
	%d = alloca double, align 8			%d = alloca double, align 8
	%tmp = load float, float* %f, align 4			%tmp = load float, float* %f, align 4
	%conv = fpext float %tmp to double			%conv = fpext float %tmp to double
	store double %conv, double* %d, align 8			store double %conv, double* %d, align 8
	Show All 14 Lines
	; CHECK-LABEL: floor_f32:			; CHECK-LABEL: floor_f32:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vroundss $9, %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vroundss $9, %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%res = call float @llvm.floor.f32(float %a)			%res = call float @llvm.floor.f32(float %a)
	ret float %res			ret float %res
	}			}
	declare float @llvm.floor.f32(float %p)			declare float @llvm.floor.f32(float %p)

test/CodeGen/X86/avx512-cvt.ll

Show All 10 Lines	; ALL-NEXT: retq
ret <16 x float> %b		ret <16 x float> %b
}		}

define <8 x double> @sltof864(<8 x i64> %a) {		define <8 x double> @sltof864(<8 x i64> %a) {
; KNL-LABEL: sltof864:		; KNL-LABEL: sltof864:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1		; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1
; KNL-NEXT: vpextrq $1, %xmm1, %rax		; KNL-NEXT: vpextrq $1, %xmm1, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4
		myatsinaUnsubmitted Not Done Reply Inline Actions I think the checks in this test mix some of of your separate changes (the "XOR" fusion?). Are you sure this tst is correct? Shouldn't it have 2 xors? also, I'm not sure why xmm2, xmm3 changed to xmm4 here. myatsina: I think the checks in this test mix some of of your separate changes (the "XOR" fusion?). Are…
		loladiroAuthorUnsubmitted Not Done Reply Inline Actions Yes, this relies on the optimization in D28915. With this patch, but without the other one it would have inserted three xorps here (one for each of xmm2, xmm3, xmm4). The optimization in that patch allows us to get away with one. The reason this changed here and not in the other patch is that before this, xmm2 was considered to have sufficient clearance (same for xmm3 and xmm4), but now it doesn't any more. loladiro: Yes, this relies on the optimization in D28915. With this patch, but without the other one it…
		myatsinaUnsubmitted Not Done Reply Inline Actions Why doesn't xmm2 have enough clearance and xmm4 does? There is no loop here, xmm4 and xmm2 should have the same clearance at this point. Or is it getting together with the other optimization you did that merges a bunch of instructions and re-writes their undef register? This is why I want to keep all these changes you are making separate from each other as much as possible. I understand they are ALL needed for avoiding the regressions, but they have complex interaction with each other therefore I think it's crucial to do them separately and incrementally. It will also help "documentation" of the different parts of this mechanism. myatsina: Why doesn't xmm2 have enough clearance and xmm4 does? There is no loop here, xmm4 and xmm2…
		loladiroAuthorUnsubmitted Not Done Reply Inline Actions Without the change in D28915, this diff would have been: ; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1 ; KNL-NEXT: vpextrq $1, %xmm1, %rax +; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2 ; KNL-NEXT: vmovq %xmm1, %rax +; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1 ; KNL-NEXT: vunpcklpd {{.#+}} xmm1 = xmm1[0],xmm2[0] ; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2 ; KNL-NEXT: vpextrq $1, %xmm2, %rax +; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm3 ; KNL-NEXT: vmovq %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2 ; KNL-NEXT: vunpcklpd {{.#+}} xmm2 = xmm2[0],xmm3[0] ; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1 ; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2 ; KNL-NEXT: vpextrq $1, %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3 ; KNL-NEXT: vmovq %xmm2, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2 ; KNL-NEXT: vunpcklpd {{.#+}} xmm2 = xmm2[0],xmm3[0] ; KNL-NEXT: vpextrq $1, %xmm0, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3 ; KNL-NEXT: vmovq %xmm0, %rax +; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4 ; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm0 ; KNL-NEXT: vunpcklpd {{.#+}} xmm0 = xmm0[0],xmm3[0] ; KNL-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; KNL-NEXT: vinsertf64x4 $1, %ymm1, %zmm0, %zmm0 ; KNL-NEXT: retq The optimization in D28915 allows it to recognize that it only needs on vxorps. loladiro: Without the change in D28915, this diff would have been: ``` ; KNL-NEXT: vextracti32x4 $3…
		; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2
; KNL-NEXT: vmovq %xmm1, %rax		; KNL-NEXT: vmovq %xmm1, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm1
; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2		; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2
; KNL-NEXT: vpextrq $1, %xmm2, %rax		; KNL-NEXT: vpextrq $1, %xmm2, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm3		; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3
; KNL-NEXT: vmovq %xmm2, %rax		; KNL-NEXT: vmovq %xmm2, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2		; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm2
; KNL-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],xmm3[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1		; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2		; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2
; KNL-NEXT: vpextrq $1, %xmm2, %rax		; KNL-NEXT: vpextrq $1, %xmm2, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3		; KNL-NEXT: vcvtsi2sdq %rax, %xmm4, %xmm3
; KNL-NEXT: vmovq %xmm2, %rax		; KNL-NEXT: vmovq %xmm2, %rax
Show All 16 Lines	; SKX-NEXT: retq
ret <8 x double> %b		ret <8 x double> %b
}		}

define <4 x double> @sltof464(<4 x i64> %a) {		define <4 x double> @sltof464(<4 x i64> %a) {
; KNL-LABEL: sltof464:		; KNL-LABEL: sltof464:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm1		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm1
; KNL-NEXT: vpextrq $1, %xmm1, %rax		; KNL-NEXT: vpextrq $1, %xmm1, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
		myatsinaUnsubmitted Not Done Reply Inline Actions Same here and in the rest of this file, I don;t understand why the register changed from xmm2 to xmm3. This should not have been caused by the change in this patch. myatsina: Same here and in the rest of this file, I don;t understand why the register changed from xmm2…
; KNL-NEXT: vmovq %xmm1, %rax		; KNL-NEXT: vmovq %xmm1, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; KNL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; KNL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: sltof464:		; SKX-LABEL: sltof464:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: vcvtqq2pd %ymm0, %ymm0		; SKX-NEXT: vcvtqq2pd %ymm0, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%b = sitofp <4 x i64> %a to <4 x double>		%b = sitofp <4 x i64> %a to <4 x double>
ret <4 x double> %b		ret <4 x double> %b
}		}

define <2 x float> @sltof2f32(<2 x i64> %a) {		define <2 x float> @sltof2f32(<2 x i64> %a) {
; KNL-LABEL: sltof2f32:		; KNL-LABEL: sltof2f32:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; KNL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; KNL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: sltof2f32:		; SKX-LABEL: sltof2f32:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: vcvtqq2ps %xmm0, %xmm0		; SKX-NEXT: vcvtqq2ps %xmm0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%b = sitofp <2 x i64> %a to <2 x float>		%b = sitofp <2 x i64> %a to <2 x float>
ret <2 x float>%b		ret <2 x float>%b
}		}

define <4 x float> @sltof4f32_mem(<4 x i64>* %a) {		define <4 x float> @sltof4f32_mem(<4 x i64>* %a) {
; KNL-LABEL: sltof4f32_mem:		; KNL-LABEL: sltof4f32_mem:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vmovdqu (%rdi), %ymm0		; KNL-NEXT: vmovdqu (%rdi), %ymm0
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%b = fptosi <4 x float> %a to <4 x i64>		%b = fptosi <4 x float> %a to <4 x i64>
ret <4 x i64> %b		ret <4 x i64> %b
}		}

define <4 x float> @sltof432(<4 x i64> %a) {		define <4 x float> @sltof432(<4 x i64> %a) {
; KNL-LABEL: sltof432:		; KNL-LABEL: sltof432:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: sltof432:		; SKX-LABEL: sltof432:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: vcvtqq2ps %ymm0, %xmm0		; SKX-NEXT: vcvtqq2ps %ymm0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%b = sitofp <4 x i64> %a to <4 x float>		%b = sitofp <4 x i64> %a to <4 x float>
ret <4 x float> %b		ret <4 x float> %b
}		}

define <4 x float> @ultof432(<4 x i64> %a) {		define <4 x float> @ultof432(<4 x i64> %a) {
; KNL-LABEL: ultof432:		; KNL-LABEL: ultof432:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; KNL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2		; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0		; KNL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: ultof432:		; SKX-LABEL: ultof432:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: vcvtuqq2ps %ymm0, %xmm0		; SKX-NEXT: vcvtuqq2ps %ymm0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%b = uitofp <4 x i64> %a to <4 x float>		%b = uitofp <4 x i64> %a to <4 x float>
ret <4 x float> %b		ret <4 x float> %b
}		}

define <8 x double> @ultof64(<8 x i64> %a) {		define <8 x double> @ultof64(<8 x i64> %a) {
; KNL-LABEL: ultof64:		; KNL-LABEL: ultof64:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1		; KNL-NEXT: vextracti32x4 $3, %zmm0, %xmm1
; KNL-NEXT: vpextrq $1, %xmm1, %rax		; KNL-NEXT: vpextrq $1, %xmm1, %rax
; KNL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2		; KNL-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm2
; KNL-NEXT: vmovq %xmm1, %rax		; KNL-NEXT: vmovq %xmm1, %rax
; KNL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1		; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm1
; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2		; KNL-NEXT: vextracti32x4 $2, %zmm0, %xmm2
; KNL-NEXT: vpextrq $1, %xmm2, %rax		; KNL-NEXT: vpextrq $1, %xmm2, %rax
; KNL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm3		; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm3
; KNL-NEXT: vmovq %xmm2, %rax		; KNL-NEXT: vmovq %xmm2, %rax
; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm2		; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm2
; KNL-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],xmm3[0]		; KNL-NEXT: vunpcklpd {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1		; KNL-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2		; KNL-NEXT: vextracti32x4 $1, %zmm0, %xmm2
; KNL-NEXT: vpextrq $1, %xmm2, %rax		; KNL-NEXT: vpextrq $1, %xmm2, %rax
; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm3		; KNL-NEXT: vcvtusi2sdq %rax, %xmm4, %xmm3
; KNL-NEXT: vmovq %xmm2, %rax		; KNL-NEXT: vmovq %xmm2, %rax
▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%mask = fcmp ogt <4 x double>%a1, %b1		%mask = fcmp ogt <4 x double>%a1, %b1
%c = select <4 x i1>%mask, <4 x double>%a, <4 x double>zeroinitializer		%c = select <4 x i1>%mask, <4 x double>%a, <4 x double>zeroinitializer
ret <4 x double> %c		ret <4 x double> %c
}		}

define double @funcA(i64* nocapture %e) {		define double @funcA(i64* nocapture %e) {
; ALL-LABEL: funcA:		; ALL-LABEL: funcA:
; ALL: ## BB#0: ## %entry		; ALL: ## BB#0: ## %entry
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtsi2sdq (%rdi), %xmm0, %xmm0		; ALL-NEXT: vcvtsi2sdq (%rdi), %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
entry:		entry:
%tmp1 = load i64, i64* %e, align 8		%tmp1 = load i64, i64* %e, align 8
%conv = sitofp i64 %tmp1 to double		%conv = sitofp i64 %tmp1 to double
ret double %conv		ret double %conv
}		}

define double @funcB(i32* %e) {		define double @funcB(i32* %e) {
; ALL-LABEL: funcB:		; ALL-LABEL: funcB:
; ALL: ## BB#0: ## %entry		; ALL: ## BB#0: ## %entry
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtsi2sdl (%rdi), %xmm0, %xmm0		; ALL-NEXT: vcvtsi2sdl (%rdi), %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
entry:		entry:
%tmp1 = load i32, i32* %e, align 4		%tmp1 = load i32, i32* %e, align 4
%conv = sitofp i32 %tmp1 to double		%conv = sitofp i32 %tmp1 to double
ret double %conv		ret double %conv
}		}

define float @funcC(i32* %e) {		define float @funcC(i32* %e) {
; ALL-LABEL: funcC:		; ALL-LABEL: funcC:
; ALL: ## BB#0: ## %entry		; ALL: ## BB#0: ## %entry
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtsi2ssl (%rdi), %xmm0, %xmm0		; ALL-NEXT: vcvtsi2ssl (%rdi), %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
entry:		entry:
%tmp1 = load i32, i32* %e, align 4		%tmp1 = load i32, i32* %e, align 4
%conv = sitofp i32 %tmp1 to float		%conv = sitofp i32 %tmp1 to float
ret float %conv		ret float %conv
}		}

define float @i64tof32(i64* %e) {		define float @i64tof32(i64* %e) {
; ALL-LABEL: i64tof32:		; ALL-LABEL: i64tof32:
; ALL: ## BB#0: ## %entry		; ALL: ## BB#0: ## %entry
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtsi2ssq (%rdi), %xmm0, %xmm0		; ALL-NEXT: vcvtsi2ssq (%rdi), %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
entry:		entry:
%tmp1 = load i64, i64* %e, align 8		%tmp1 = load i64, i64* %e, align 8
%conv = sitofp i64 %tmp1 to float		%conv = sitofp i64 %tmp1 to float
ret float %conv		ret float %conv
}		}

▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
; ALL-NEXT: retq		; ALL-NEXT: retq
%b = fptoui float %a to i32		%b = fptoui float %a to i32
ret i32 %b		ret i32 %b
}		}

define float @uitofp02(i32 %a) nounwind {		define float @uitofp02(i32 %a) nounwind {
; ALL-LABEL: uitofp02:		; ALL-LABEL: uitofp02:
; ALL: ## BB#0:		; ALL: ## BB#0:
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtusi2ssl %edi, %xmm0, %xmm0		; ALL-NEXT: vcvtusi2ssl %edi, %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%b = uitofp i32 %a to float		%b = uitofp i32 %a to float
ret float %b		ret float %b
}		}

define double @uitofp03(i32 %a) nounwind {		define double @uitofp03(i32 %a) nounwind {
; ALL-LABEL: uitofp03:		; ALL-LABEL: uitofp03:
; ALL: ## BB#0:		; ALL: ## BB#0:
		; ALL-NEXT: vxorps %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtusi2sdl %edi, %xmm0, %xmm0		; ALL-NEXT: vcvtusi2sdl %edi, %xmm0, %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%b = uitofp i32 %a to double		%b = uitofp i32 %a to double
ret double %b		ret double %b
}		}

define <16 x float> @sitofp_16i1_float(<16 x i32> %a) {		define <16 x float> @sitofp_16i1_float(<16 x i32> %a) {
; KNL-LABEL: sitofp_16i1_float:		; KNL-LABEL: sitofp_16i1_float:
▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: vpxor %xmm1, %xmm1, %xmm1		; KNL-NEXT: vpxor %xmm1, %xmm1, %xmm1
; KNL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]		; KNL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
; KNL-NEXT: vmovdqa {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]		; KNL-NEXT: vmovdqa {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]
; KNL-NEXT: vpxor %xmm1, %xmm0, %xmm0		; KNL-NEXT: vpxor %xmm1, %xmm0, %xmm0
; KNL-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0		; KNL-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm0
; KNL-NEXT: vpextrq $1, %xmm0, %rax		; KNL-NEXT: vpextrq $1, %xmm0, %rax
; KNL-NEXT: andl $1, %eax		; KNL-NEXT: andl $1, %eax
		; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2
; KNL-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm1		; KNL-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm1
; KNL-NEXT: vmovq %xmm0, %rax		; KNL-NEXT: vmovq %xmm0, %rax
; KNL-NEXT: andl $1, %eax		; KNL-NEXT: andl $1, %eax
; KNL-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0		; KNL-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: uitofp_2i1_float:		; SKX-LABEL: uitofp_2i1_float:
Show All 35 Lines

test/CodeGen/X86/break-false-dep.ll

	Show First 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	fake:			fake:
	ret double 0.0			ret double 0.0
	}			}

	; Make sure we are making a smart choice regarding undef registers in order to			; Make sure we are making a smart choice regarding undef registers in order to
	; avoid a cyclic dependence on a write to the same register in a previous			; avoid a cyclic dependence on a write to the same register in a previous
	; iteration, especially when we cannot zero out the undef register because it			; iteration, especially when we cannot zero out the undef register because it
	; is alive.			; is alive.
	define i64 @loopclearence(i64* nocapture %x, double* nocapture %y) nounwind {			define i64 @loopclearence(float %z, double %a, double %b, double %c, i64* nocapture %x, double* nocapture %y) nounwind {
	entry:			entry:
	%vx = load i64, i64* %x			%vx = load i64, i64* %x
	br label %loop			;AVX-LABEL:@loopclearence
				;AVX: vxorps [[XMM4_7:%xmm[4-7]]], [[XMM4_7]], [[XMM4_7]]
				;AVX-NEXT: vucomiss [[XMM4_7]], %xmm0
				%0 = fcmp ult float %z, 0.0
				myatsinaUnsubmitted Not Done Reply Inline Actions Why the change? What are you testing here? myatsina: Why the change? What are you testing here?
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions As remarked in the other revision, this is a trick for making sure that pickBestRegister is still tested. loladiro: As remarked in the other revision, this is a trick for making sure that pickBestRegister is…
				myatsinaUnsubmitted Not Done Reply Inline Actions Well, you're no longer just testing pickBestReg, you're also testing the "xor fusion" which beats the purpose of unit tests. Why do you think this test didn't test "pickBestReg" after your change? But this test does need to be changes to expect a "xor" before the convert (which should be the only effect of your change on this test). Or is there some other way you've affected this test that I'm missing? myatsina: Well, you're no longer just testing pickBestReg, you're also testing the "xor fusion" which…
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions Because after this change, there's no register with sufficient clearance (since all clearances are killed at function entry, so there's no "best register" for it to pick - they're all bad). This construction (comparison against a constant 0) forces llvm to materialize a vxorps, which breaks the dependence, so pickBestReg actually has some work to do. loladiro: Because after this change, there's no register with sufficient clearance (since all clearances…
				br i1 %0, label %loop, label %fake

	loop:			loop:
	%i = phi i64 [ 1, %entry ], [ %inc, %loop ]			%i = phi i64 [ 1, %entry ], [ %inc, %loop ]
	%s1 = phi i64 [ %vx, %entry ], [ %s2, %loop ]			%s1 = phi i64 [ %vx, %entry ], [ %s2, %loop ]
				store volatile double %a, double *%y
				store volatile double %b, double *%y
				store volatile double %c, double *%y
				; AVX-NOT: {{%xmm[4-7]}}
				; This register was forced to have an xorps, above, therefore it should be simply re-used
				; AVX-NOT: vxorps
				; AVX: vcvtsi2sdq {{.*}}, [[XMM4_7]], {{%xmm[0-9]+}}
	%fi = sitofp i64 %i to double			%fi = sitofp i64 %i to double
	tail call void asm sideeffect "", "~{xmm0},~{xmm1},~{xmm2},~{xmm3},~{dirflag},~{fpsr},~{flags}"()
	tail call void asm sideeffect "", "~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{dirflag},~{fpsr},~{flags}"()			tail call void asm sideeffect "", "~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{dirflag},~{fpsr},~{flags}"()
	tail call void asm sideeffect "", "~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{dirflag},~{fpsr},~{flags}"()			tail call void asm sideeffect "", "~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{dirflag},~{fpsr},~{flags}"()
	%vy = load double, double* %y			%vy = load double, double* %y
	%fipy = fadd double %fi, %vy			%fipy = fadd double %fi, %vy
	%iipy = fptosi double %fipy to i64			%iipy = fptosi double %fipy to i64
	%s2 = add i64 %s1, %iipy			%s2 = add i64 %s1, %iipy
	%inc = add nsw i64 %i, 1			%inc = add nsw i64 %i, 1
	%exitcond = icmp eq i64 %inc, 156250000			%exitcond = icmp eq i64 %inc, 156250000
	br i1 %exitcond, label %ret, label %loop			br i1 %exitcond, label %ret, label %loop
	ret:			ret:
	ret i64 %s2			ret i64 %s2
	;AVX-LABEL:@loopclearence			fake:
	;Registers 4-7 are not used and therefore one of them should be chosen			ret i64 0
	;AVX-NOT: {{%xmm[4-7]}}
	;AVX: vcvtsi2sdq {{.*}}, [[XMM4_7:%xmm[4-7]]], {{%xmm[0-9]+}}
	;AVX-NOT: [[XMM4_7]]
	}			}

	; Make sure we are making a smart choice regarding undef registers even for more			; Make sure we are making a smart choice regarding undef registers even for more
	; complicated loop structures. This example is the inner loop from			; complicated loop structures. This example is the inner loop from
	; julia> a = falses(10000); a[1:4:end] = true			; julia> a = falses(10000); a[1:4:end] = true
	; julia> linspace(1.0,2.0,10000)[a]			; julia> linspace(1.0,2.0,10000)[a]
	define void @loopclearance2(double* nocapture %y, i64* %x, double %c1, double %c2, double %c3, double %c4, i64 %size) {			define double @loopclearance2(double %z, double %c1, double %c2, double %c3, double %c4, double %c5,
				double* nocapture %y, i64* %x, i64 %size) {
	entry:			entry:
	tail call void asm sideeffect "", "~{xmm7},~{dirflag},~{fpsr},~{flags}"()			%fadd = fadd double %c4, %c5
	tail call void asm sideeffect "", "~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{dirflag},~{fpsr},~{flags}"()			;AVX-LABEL:@loopclearance2
	tail call void asm sideeffect "", "~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{dirflag},~{fpsr},~{flags}"()			; AVX: vxorps [[XMM6:%xmm6]], [[XMM6]], [[XMM6]]
	br label %loop			; AVX-NEXT: vucomisd [[XMM6]], %xmm
				%cmp1 = fcmp ult double %fadd, 0.0
				br i1 %cmp1, label %loop, label %fake

				fake:
				ret double %z

	loop:			loop:
	%phi_i = phi i64 [ 1, %entry ], [ %nexti, %loop_end ]			%phi_i = phi i64 [ 1, %entry ], [ %nexti, %loop_end ]
	%phi_j = phi i64 [ 1, %entry ], [ %nextj, %loop_end ]			%phi_j = phi i64 [ 1, %entry ], [ %nextj, %loop_end ]
	%phi_k = phi i64 [ 0, %entry ], [ %nextk, %loop_end ]			%phi_k = phi i64 [ 0, %entry ], [ %nextk, %loop_end ]
	br label %inner_loop			br label %inner_loop

	inner_loop:			inner_loop:
	%phi = phi i64 [ %phi_k, %loop ], [ %nextk, %inner_loop ]			%phi = phi i64 [ %phi_k, %loop ], [ %nextk, %inner_loop ]
	%idx = lshr i64 %phi, 6			%idx = lshr i64 %phi, 6
	%inputptr = getelementptr i64, i64* %x, i64 %idx			%inputptr = getelementptr i64, i64* %x, i64 %idx
	%input = load i64, i64* %inputptr, align 8			%input = load i64, i64* %inputptr, align 8
	%masked = and i64 %phi, 63			%masked = and i64 %phi, 63
	%shiftedmasked = shl i64 1, %masked			%shiftedmasked = shl i64 1, %masked
	%maskedinput = and i64 %input, %shiftedmasked			%maskedinput = and i64 %input, %shiftedmasked
	%cmp = icmp eq i64 %maskedinput, 0			%cmp = icmp eq i64 %maskedinput, 0
	%nextk = add i64 %phi, 1			%nextk = add i64 %phi, 1
	br i1 %cmp, label %inner_loop, label %loop_end			br i1 %cmp, label %inner_loop, label %loop_end

	loop_end:			loop_end:
	%nexti = add i64 %phi_i, 1			%nexti = add i64 %phi_i, 1
	%nextj = add i64 %phi_j, 1			%nextj = add i64 %phi_j, 1
	; Register use, plus us clobbering 7-15 above, basically forces xmm7 here as			; Register use, plus us clobbering 7-15 above, basically forces xmm7 here as
				myatsinaUnsubmitted Not Done Reply Inline Actions Isn't this suppose to be part of the https://reviews.llvm.org/D28759 patch? myatsina: Isn't this suppose to be part of the https://reviews.llvm.org/D28759 patch?
	; the only reasonable choice. The primary thing we care about is that it's			; the only reasonable choice. The primary thing we care about is that it's
	; not one of the registers used in the loop (e.g. not the output reg here)			; not one of the registers used in the loop (e.g. not the output reg here)
	;AVX-NOT: %xmm6			;AVX-NOT: %xmm6
	;AVX: vcvtsi2sdq {{.*}}, %xmm6, {{%xmm[0-9]+}}			;AVX-NOT: vxorps
				;AVX-NOT: vxorpd
				;AVX: vcvtsi2sdq {{.*}}, [[XMM6]], {{%xmm[0-9]+}}
	;AVX-NOT: %xmm6			;AVX-NOT: %xmm6
	%nexti_f = sitofp i64 %nexti to double			%nexti_f = sitofp i64 %nexti to double
	%sub = fsub double %c1, %nexti_f			%sub = fsub double %c1, %nexti_f
	%mul = fmul double %sub, %c2			%mul = fmul double %sub, %c2
	;AVX: vcvtsi2sdq {{.*}}, %xmm6, {{%xmm[0-9]+}}			;AVX: vcvtsi2sdq {{.*}}, [[XMM6]], {{%xmm[0-9]+}}
	;AVX-NOT: %xmm6
	%phi_f = sitofp i64 %phi to double			%phi_f = sitofp i64 %phi to double
	%mul2 = fmul double %phi_f, %c3			%mul2 = fmul double %phi_f, %c3
	%add2 = fadd double %mul, %mul2			%add2 = fadd double %mul, %mul2
	%div = fdiv double %add2, %c4			%div = fdiv double %add2, %c4
	%prev_j = add i64 %phi_j, -1			%prev_j = add i64 %phi_j, -1
	%outptr = getelementptr double, double* %y, i64 %prev_j			%outptr = getelementptr double, double* %y, i64 %prev_j
	store double %div, double* %outptr, align 8			store double %div, double* %outptr, align 8
	%done = icmp slt i64 %size, %nexti			%done = icmp slt i64 %size, %nexti
	br i1 %done, label %loopdone, label %loop			br i1 %done, label %loopdone, label %loop

	loopdone:			loopdone:
				ret double 0.0
				}

				; Make sure that calls kill register clearance and that a we don't insert
				myatsinaUnsubmitted Not Done Reply Inline Actions let's separate between xor after call instruction and "xor fusion". these are 2 different features and each should have it's own tests, and this is the exact purpose of unit tests. If you want a test that combines several feature it shouldn't come at the expense of each feature's stand alone tests. It can be added on top of them. myatsina: let's separate between xor after call instruction and "xor fusion". these are 2 different…
				; an extra dependency-breaking instruction if one suffices.
				declare double @sin(double %x)
				myatsinaUnsubmitted Not Done Reply Inline Actions This change should contain 2 tests, Check xor in the callee after a call (which callclearance does) Check xor in a function (I know it is indirectly tests in a lot of other places, but I think we should have an explicit test for this). myatsina: This change should contain 2 tests, 1. Check xor in the callee after a call (which…
				define void @callclearance(double %x, i64 %y, i64 *%z) {
				entry:
				br label %loop

				loop:
				%idx = phi i32 [0, %entry], [%idx, %loop]
				%valptr = getelementptr i64, i64* %y, i32 %idx
				myatsinaUnsubmitted Not Done Reply Inline Actions A suggestion for a simpler test that tests the call feature: define <4 x double> @callclearance( i64 %val ) { // inline asm to force choosing one register %val1 = sitofp i64 %val to double %val2 = sitofp i64 %val to double %2 = call <4 x double> @myfunc(i64 %val, i64 %val1) %val3 = sitofp i64 %val to double ... } Show that the undef register of the first and the second convert are the same, but the undef register of the third convert is different from them (--> the call instruction changes the clearance and thus another register was chosen). myatsina: A suggestion for a simpler test that tests the call feature: define <4 x double>…
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions What kind of inline asm do you have in mind for this purpose? I tried for a bit to come up with something, but didn't manage to. loladiro: What kind of inline asm do you have in mind for this purpose? I tried for a bit to come up with…
				myatsinaUnsubmitted Not Done Reply Inline Actions The inline asm itself can be nop or empty string, it is treated as a black box for most of the compiler and nobody actually analyzes the registers that are used there. The important part is to mark the relevant registers as clobbered by the asm call (equivelent to the clobber list in extended inline asm): tail call void asm sideeffect "", "~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{dirflag},~{fpsr},~{flags}"() Here the inline asm is "" and it marks xmm8-xmm11 as clobbered, so this instruction will mark these registers as defs for clearance calculation purpose. myatsina: The inline asm itself can be nop or empty string, it is treated as a black box for most of the…
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions Yes, but that's the opposite of what we need. We'd need some inline assembly to revive clearances (because they're now dead-by-default), not kill them. loladiro: Yes, but that's the opposite of what we need. We'd need some inline assembly to revive…
				%valptr2 = getelementptr i64, i64* %z, i32 %idx
				%outptr = getelementptr double, double* %x, i32 %idx
				;AVX-LABEL:@callclearance
				;AVX: vxorps [[THEXMM:%xmm[0-9]+]], [[THEXMM]], [[THEXMM]]
				;AVX: vcvtsi2sdq {{.*}}, [[THEXMM]], {{%xmm[0-9]+}}
				;AVX-NOT: vxorps
				;AVX: vcvtsi2sdq {{.*}}, [[THEXMM]], {{%xmm[0-9]+}}
				%val = load i64, i64 *%valptr
				%val_f = sitofp i64 %val to double
				%val2 = load i64, i64 *%valptr2
				%val2_f = sitofp i64 %val2 to double
				%sined = call double @sin(double %val_f)
				%sined2 = call double @sin(double %val2_f)
				%sum = fadd double %sined, %sined2
				store double %sum, double *%x
				%done = icmp sgt i32 %idx, 10000
				br i1 %done, label %end, label %loop

				end:
	ret void			ret void
	}			}

	define double @breakoptimization(i64 %a, i64 %b, i64 %c, i64 %d) {			define double @breakoptimization(i64 %a, i64 %b, i64 %c, i64 %d) {
	;AVX-LABEL:@breakoptimization			;AVX-LABEL:@breakoptimization
	top:			top:
	tail call void asm sideeffect "", "~{xmm0},~{xmm1},~{xmm2},~{xmm3},~{dirflag},~{fpsr},~{flags}"()			tail call void asm sideeffect "", "~{xmm0},~{xmm1},~{xmm2},~{xmm3},~{dirflag},~{fpsr},~{flags}"()
	tail call void asm sideeffect "", "~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{dirflag},~{fpsr},~{flags}"()			tail call void asm sideeffect "", "~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{dirflag},~{fpsr},~{flags}"()
	Show All 16 Lines

test/CodeGen/X86/combine-fcopysign.ll

Show First 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <4 x float> %2		ret <4 x float> %2
}		}

; copysign(x, fp_extend(y)) -> copysign(x, y)		; copysign(x, fp_extend(y)) -> copysign(x, y)
define <4 x double> @combine_vec_fcopysign_fpext_sgn(<4 x double> %x, <4 x float> %y) {		define <4 x double> @combine_vec_fcopysign_fpext_sgn(<4 x double> %x, <4 x float> %y) {
; SSE-LABEL: combine_vec_fcopysign_fpext_sgn:		; SSE-LABEL: combine_vec_fcopysign_fpext_sgn:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movaps %xmm2, %xmm3		; SSE-NEXT: movaps %xmm2, %xmm3
		; SSE-NEXT: xorps %xmm4, %xmm4
; SSE-NEXT: cvtss2sd %xmm2, %xmm4		; SSE-NEXT: cvtss2sd %xmm2, %xmm4
; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]		; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]
; SSE-NEXT: movaps %xmm2, %xmm6		; SSE-NEXT: movaps %xmm2, %xmm6
; SSE-NEXT: movhlps {{.*#+}} xmm6 = xmm6[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm6 = xmm6[1,1]
; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]		; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]
; SSE-NEXT: movaps {{.*#+}} xmm7		; SSE-NEXT: movaps {{.*#+}} xmm7
; SSE-NEXT: movaps %xmm0, %xmm2		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: andps %xmm7, %xmm2		; SSE-NEXT: andps %xmm7, %xmm2
Show All 38 Lines

; copysign(x, fp_round(y)) -> copysign(x, y)		; copysign(x, fp_round(y)) -> copysign(x, y)
define <4 x float> @combine_vec_fcopysign_fptrunc_sgn(<4 x float> %x, <4 x double> %y) {		define <4 x float> @combine_vec_fcopysign_fptrunc_sgn(<4 x float> %x, <4 x double> %y) {
; SSE-LABEL: combine_vec_fcopysign_fptrunc_sgn:		; SSE-LABEL: combine_vec_fcopysign_fptrunc_sgn:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movaps %xmm0, %xmm3
; SSE-NEXT: movaps {{.*#+}} xmm5		; SSE-NEXT: movaps {{.*#+}} xmm5
; SSE-NEXT: andps %xmm5, %xmm0		; SSE-NEXT: andps %xmm5, %xmm0
		; SSE-NEXT: xorps %xmm6, %xmm6
; SSE-NEXT: cvtsd2ss %xmm1, %xmm6		; SSE-NEXT: cvtsd2ss %xmm1, %xmm6
; SSE-NEXT: movaps {{.*#+}} xmm4 = [-0.000000e+00,-0.000000e+00,-0.000000e+00,-0.000000e+00]		; SSE-NEXT: movaps {{.*#+}} xmm4 = [-0.000000e+00,-0.000000e+00,-0.000000e+00,-0.000000e+00]
; SSE-NEXT: andps %xmm4, %xmm6		; SSE-NEXT: andps %xmm4, %xmm6
; SSE-NEXT: orps %xmm6, %xmm0		; SSE-NEXT: orps %xmm6, %xmm0
; SSE-NEXT: movshdup {{.*#+}} xmm6 = xmm3[1,1,3,3]		; SSE-NEXT: movshdup {{.*#+}} xmm6 = xmm3[1,1,3,3]
; SSE-NEXT: andps %xmm5, %xmm6		; SSE-NEXT: andps %xmm5, %xmm6
; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
; SSE-NEXT: cvtsd2ss %xmm1, %xmm1		; SSE-NEXT: cvtsd2ss %xmm1, %xmm1
Show All 39 Lines

test/CodeGen/X86/fold-load-unops.ll

	Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	define float @rcpss_size(float* %a) optsize {			define float @rcpss_size(float* %a) optsize {
	; SSE-LABEL: rcpss_size:			; SSE-LABEL: rcpss_size:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: rcpss (%rdi), %xmm0			; SSE-NEXT: rcpss (%rdi), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: rcpss_size:			; AVX-LABEL: rcpss_size:
	; AVX: # BB#0:			; AVX: # BB#0:
				; AVX-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vrcpss (%rdi), %xmm0, %xmm0			; AVX-NEXT: vrcpss (%rdi), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load float, float* %a			%ld = load float, float* %a
	%ins = insertelement <4 x float> undef, float %ld, i32 0			%ins = insertelement <4 x float> undef, float %ld, i32 0
	%res = tail call <4 x float> @llvm.x86.sse.rcp.ss(<4 x float> %ins)			%res = tail call <4 x float> @llvm.x86.sse.rcp.ss(<4 x float> %ins)
	%ext = extractelement <4 x float> %res, i32 0			%ext = extractelement <4 x float> %res, i32 0
	ret float %ext			ret float %ext
	}			}

	define float @rsqrtss_size(float* %a) optsize {			define float @rsqrtss_size(float* %a) optsize {
	; SSE-LABEL: rsqrtss_size:			; SSE-LABEL: rsqrtss_size:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: rsqrtss (%rdi), %xmm0			; SSE-NEXT: rsqrtss (%rdi), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: rsqrtss_size:			; AVX-LABEL: rsqrtss_size:
	; AVX: # BB#0:			; AVX: # BB#0:
				; AVX-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vrsqrtss (%rdi), %xmm0, %xmm0			; AVX-NEXT: vrsqrtss (%rdi), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load float, float* %a			%ld = load float, float* %a
	%ins = insertelement <4 x float> undef, float %ld, i32 0			%ins = insertelement <4 x float> undef, float %ld, i32 0
	%res = tail call <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float> %ins)			%res = tail call <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float> %ins)
	%ext = extractelement <4 x float> %res, i32 0			%ext = extractelement <4 x float> %res, i32 0
	ret float %ext			ret float %ext
	}			}

	define float @sqrtss_size(float* %a) optsize{			define float @sqrtss_size(float* %a) optsize{
	; SSE-LABEL: sqrtss_size:			; SSE-LABEL: sqrtss_size:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: sqrtss (%rdi), %xmm0			; SSE-NEXT: sqrtss (%rdi), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: sqrtss_size:			; AVX-LABEL: sqrtss_size:
	; AVX: # BB#0:			; AVX: # BB#0:
				; AVX-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vsqrtss (%rdi), %xmm0, %xmm0			; AVX-NEXT: vsqrtss (%rdi), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load float, float* %a			%ld = load float, float* %a
	%ins = insertelement <4 x float> undef, float %ld, i32 0			%ins = insertelement <4 x float> undef, float %ld, i32 0
	%res = tail call <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float> %ins)			%res = tail call <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float> %ins)
	%ext = extractelement <4 x float> %res, i32 0			%ext = extractelement <4 x float> %res, i32 0
	ret float %ext			ret float %ext
	}			}

	define double @sqrtsd_size(double* %a) optsize {			define double @sqrtsd_size(double* %a) optsize {
	; SSE-LABEL: sqrtsd_size:			; SSE-LABEL: sqrtsd_size:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: sqrtsd (%rdi), %xmm0			; SSE-NEXT: sqrtsd (%rdi), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: sqrtsd_size:			; AVX-LABEL: sqrtsd_size:
	; AVX: # BB#0:			; AVX: # BB#0:
				; AVX-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vsqrtsd (%rdi), %xmm0, %xmm0			; AVX-NEXT: vsqrtsd (%rdi), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%ld = load double, double* %a			%ld = load double, double* %a
	%ins = insertelement <2 x double> undef, double %ld, i32 0			%ins = insertelement <2 x double> undef, double %ld, i32 0
	%res = tail call <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double> %ins)			%res = tail call <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double> %ins)
	%ext = extractelement <2 x double> %res, i32 0			%ext = extractelement <2 x double> %res, i32 0
	ret double %ext			ret double %ext
	}			}

	declare <4 x float> @llvm.x86.sse.rcp.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rcp.ss(<4 x float>) nounwind readnone
	declare <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float>) nounwind readnone
	declare <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float>) nounwind readnone
	declare <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double>) nounwind readnone

test/CodeGen/X86/half.ll

Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	; CHECK-F16C-NEXT: retq
ret i64 %r		ret i64 %r
}		}

define void @test_sitofp_i64(i64 %a, half* %p) #0 {		define void @test_sitofp_i64(i64 %a, half* %p) #0 {
; CHECK-LABEL: test_sitofp_i64:		; CHECK-LABEL: test_sitofp_i64:

; CHECK-LIBCALL-NEXT: pushq [[ADDR:%[a-z]+]]		; CHECK-LIBCALL-NEXT: pushq [[ADDR:%[a-z]+]]
; CHECK-LIBCALL-NEXT: movq %rsi, [[ADDR]]		; CHECK-LIBCALL-NEXT: movq %rsi, [[ADDR]]
		; CHECK-LIBCALL-NEXT: xorps
		myatsinaUnsubmitted Not Done Reply Inline Actions the register is written explicitly, so better check the register too, no? There are other tests like this further on. myatsina: the register is written explicitly, so better check the register too, no? There are other tests…
		loladiroAuthorUnsubmitted Not Done Reply Inline Actions Fair enough loladiro: Fair enough
; CHECK-LIBCALL-NEXT: cvtsi2ssq %rdi, %xmm0		; CHECK-LIBCALL-NEXT: cvtsi2ssq %rdi, %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee		; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee
; CHECK-LIBCALL-NEXT: movw %ax, ([[ADDR]])		; CHECK-LIBCALL-NEXT: movw %ax, ([[ADDR]])
; CHECK_LIBCALL-NEXT: popq [[ADDR]]		; CHECK_LIBCALL-NEXT: popq [[ADDR]]
; CHECK_LIBCALL-NEXT: retq		; CHECK_LIBCALL-NEXT: retq

; CHECK-F16C-NEXT: vcvtsi2ssq %rdi, [[REG0:%[a-z0-9]+]], [[REG0]]		; CHECK-F16C-NEXT: vxorps [[REG0:%[a-z0-9]+]], [[REG0]], [[REG0]]
		; CHECK-F16C-NEXT: vcvtsi2ssq %rdi, [[REG0]], [[REG0]]
; CHECK-F16C-NEXT: vcvtps2ph $4, [[REG0]], [[REG0]]		; CHECK-F16C-NEXT: vcvtps2ph $4, [[REG0]], [[REG0]]
; CHECK-F16C-NEXT: vmovd [[REG0]], %eax		; CHECK-F16C-NEXT: vmovd [[REG0]], %eax
; CHECK-F16C-NEXT: movw %ax, (%rsi)		; CHECK-F16C-NEXT: movw %ax, (%rsi)
; CHECK-F16C-NEXT: retq		; CHECK-F16C-NEXT: retq
%r = sitofp i64 %a to half		%r = sitofp i64 %a to half
store half %r, half* %p		store half %r, half* %p
ret void		ret void
}		}
Show All 37 Lines
define void @test_uitofp_i64(i64 %a, half* %p) #0 {		define void @test_uitofp_i64(i64 %a, half* %p) #0 {
; CHECK-LABEL: test_uitofp_i64:		; CHECK-LABEL: test_uitofp_i64:
; CHECK-LIBCALL-NEXT: pushq [[ADDR:%[a-z0-9]+]]		; CHECK-LIBCALL-NEXT: pushq [[ADDR:%[a-z0-9]+]]
; CHECK-LIBCALL-NEXT: movq %rsi, [[ADDR]]		; CHECK-LIBCALL-NEXT: movq %rsi, [[ADDR]]
; CHECK-NEXT: testq %rdi, %rdi		; CHECK-NEXT: testq %rdi, %rdi
; CHECK-NEXT: js [[LABEL1:.LBB[0-9_]+]]		; CHECK-NEXT: js [[LABEL1:.LBB[0-9_]+]]

; simple conversion to float if non-negative		; simple conversion to float if non-negative
		; CHECK-LIBCALL-NEXT: xorps
; CHECK-LIBCALL-NEXT: cvtsi2ssq %rdi, [[REG1:%[a-z0-9]+]]		; CHECK-LIBCALL-NEXT: cvtsi2ssq %rdi, [[REG1:%[a-z0-9]+]]
		; CHECK-F16C-NEXT: vxorps
; CHECK-F16C-NEXT: vcvtsi2ssq %rdi, [[REG1:%[a-z0-9]+]], [[REG1]]		; CHECK-F16C-NEXT: vcvtsi2ssq %rdi, [[REG1:%[a-z0-9]+]], [[REG1]]
; CHECK-NEXT: jmp [[LABEL2:.LBB[0-9_]+]]		; CHECK-NEXT: jmp [[LABEL2:.LBB[0-9_]+]]

; convert using shift+or if negative		; convert using shift+or if negative
; CHECK-NEXT: [[LABEL1]]:		; CHECK-NEXT: [[LABEL1]]:
; CHECK-NEXT: movq %rdi, %rax		; CHECK-NEXT: movq %rdi, %rax
; CHECK-NEXT: shrq %rax		; CHECK-NEXT: shrq %rax
; CHECK-NEXT: andl $1, %edi		; CHECK-NEXT: andl $1, %edi
; CHECK-NEXT: orq %rax, [[REG2:%[a-z0-9]+]]		; CHECK-NEXT: orq %rax, [[REG2:%[a-z0-9]+]]
		; CHECK-LIBCALL-NEXT: xorps
; CHECK-LIBCALL-NEXT: cvtsi2ssq [[REG2]], [[REG3:%[a-z0-9]+]]		; CHECK-LIBCALL-NEXT: cvtsi2ssq [[REG2]], [[REG3:%[a-z0-9]+]]
; CHECK-LIBCALL-NEXT: addss [[REG3]], [[REG1]]		; CHECK-LIBCALL-NEXT: addss [[REG3]], [[REG1]]
		; CHECK-F16C-NEXT: vxorps
; CHECK-F16C-NEXT: vcvtsi2ssq [[REG2]], [[REG3:%[a-z0-9]+]], [[REG3]]		; CHECK-F16C-NEXT: vcvtsi2ssq [[REG2]], [[REG3:%[a-z0-9]+]], [[REG3]]
; CHECK-F16C-NEXT: vaddss [[REG3]], [[REG3]], [[REG1:[%a-z0-9]+]]		; CHECK-F16C-NEXT: vaddss [[REG3]], [[REG3]], [[REG1:[%a-z0-9]+]]

; convert float to half		; convert float to half
; CHECK-NEXT: [[LABEL2]]:		; CHECK-NEXT: [[LABEL2]]:
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee		; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee
; CHECK-LIBCALL-NEXT: movw %ax, ([[ADDR]])		; CHECK-LIBCALL-NEXT: movw %ax, ([[ADDR]])
; CHECK-LIBCALL-NEXT: popq [[ADDR]]		; CHECK-LIBCALL-NEXT: popq [[ADDR]]
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
; CHECK-LABEL: test_sitofp_fadd_i32:		; CHECK-LABEL: test_sitofp_fadd_i32:

; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: pushq %rbx
; CHECK-LIBCALL-NEXT: subq $16, %rsp		; CHECK-LIBCALL-NEXT: subq $16, %rsp
; CHECK-LIBCALL-NEXT: movl %edi, %ebx		; CHECK-LIBCALL-NEXT: movl %edi, %ebx
; CHECK-LIBCALL-NEXT: movzwl (%rsi), %edi		; CHECK-LIBCALL-NEXT: movzwl (%rsi), %edi
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee		; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee
; CHECK-LIBCALL-NEXT: movss %xmm0, 12(%rsp)		; CHECK-LIBCALL-NEXT: movss %xmm0, 12(%rsp)
		; CHECK-LIBCALL-NEXT: xorps %xmm0, %xmm0
; CHECK-LIBCALL-NEXT: cvtsi2ssl %ebx, %xmm0		; CHECK-LIBCALL-NEXT: cvtsi2ssl %ebx, %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee		; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee
; CHECK-LIBCALL-NEXT: movzwl %ax, %edi		; CHECK-LIBCALL-NEXT: movzwl %ax, %edi
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee		; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee
; CHECK-LIBCALL-NEXT: addss 12(%rsp), %xmm0		; CHECK-LIBCALL-NEXT: addss 12(%rsp), %xmm0
; CHECK-LIBCALL-NEXT: addq $16, %rsp		; CHECK-LIBCALL-NEXT: addq $16, %rsp
; CHECK-LIBCALL-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq

; CHECK-F16C-NEXT: movswl (%rsi), %eax		; CHECK-F16C-NEXT: movswl (%rsi), %eax
; CHECK-F16C-NEXT: vmovd %eax, %xmm0		; CHECK-F16C-NEXT: vmovd %eax, %xmm0
; CHECK-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; CHECK-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
		; CHECK-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
; CHECK-F16C-NEXT: vcvtsi2ssl %edi, %xmm1, %xmm1		; CHECK-F16C-NEXT: vcvtsi2ssl %edi, %xmm1, %xmm1
; CHECK-F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; CHECK-F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; CHECK-F16C-NEXT: vcvtph2ps %xmm1, %xmm1		; CHECK-F16C-NEXT: vcvtph2ps %xmm1, %xmm1
; CHECK-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0		; CHECK-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0
; CHECK-F16C-NEXT: retq		; CHECK-F16C-NEXT: retq

define float @test_sitofp_fadd_i32(i32 %a, half* %b) #0 {		define float @test_sitofp_fadd_i32(i32 %a, half* %b) #0 {
%tmp0 = load half, half* %b		%tmp0 = load half, half* %b
%tmp1 = sitofp i32 %a to half		%tmp1 = sitofp i32 %a to half
%tmp2 = fadd half %tmp0, %tmp1		%tmp2 = fadd half %tmp0, %tmp1
%tmp3 = fpext half %tmp2 to float		%tmp3 = fpext half %tmp2 to float
ret float %tmp3		ret float %tmp3
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }

test/CodeGen/X86/i64-to-float.ll

	Show First 20 Lines • Show All 272 Lines • ▼ Show 20 Lines
	; X64-AVX: # BB#0:			; X64-AVX: # BB#0:
	; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [18446744073709551361,18446744073709551361]			; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [18446744073709551361,18446744073709551361]
	; X64-AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X64-AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
	; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255]			; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255]
	; X64-AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X64-AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0			; X64-AVX-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
	; X64-AVX-NEXT: vpextrq $1, %xmm0, %rax			; X64-AVX-NEXT: vpextrq $1, %xmm0, %rax
	; X64-AVX-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1			; X64-AVX-NEXT: vxorps %xmm2, %xmm2, %xmm2
				myatsinaUnsubmitted Not Done Reply Inline Actions why the change to xmm2? There is a dependency on it "really close", 3 instructions above it (vpcmpgtq %xmm1, %xmm0, %xmm2) myatsina: why the change to xmm2? There is a dependency on it "really close", 3 instructions above it…
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions Well, there needs to be an xor with some register here. xmm2 seems as good as any other, unless the fact that is was used shortly before actually makes a difference (I'm not aware of such an impact, since this should be handle in the register renaming unit, but happy to be corrected). loladiro: Well, there needs to be an xor with some register here. xmm2 seems as good as any other, unless…
				myatsinaUnsubmitted Not Done Reply Inline Actions What I meant in my comment is the original choice of xmm3 seems to be better than the new choice of xmm2. In theory if you prefer far away register, you may find a register that is far enough so that you wouldn't have to insert a xor and by this save an instruction. myatsina: What I meant in my comment is the original choice of xmm3 seems to be better than the new…
				loladiroAuthorUnsubmitted Not Done Reply Inline Actions Why does xmm3 seem better? At this point the compiler has already determined that no register has sufficient clearance, which is why it inserts the dependency break. As far as I know, which register it uses then doesn't matter. loladiro: Why does xmm3 seem better? At this point the compiler has already determined that no register…
				; X64-AVX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
	; X64-AVX-NEXT: vmovq %xmm0, %rax			; X64-AVX-NEXT: vmovq %xmm0, %rax
	; X64-AVX-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0			; X64-AVX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
	; X64-AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; X64-AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%clo = icmp slt <2 x i64> %a, <i64 -255, i64 -255>			%clo = icmp slt <2 x i64> %a, <i64 -255, i64 -255>
	%lo = select <2 x i1> %clo, <2 x i64> <i64 -255, i64 -255>, <2 x i64> %a			%lo = select <2 x i1> %clo, <2 x i64> <i64 -255, i64 -255>, <2 x i64> %a
	%chi = icmp sgt <2 x i64> %lo, <i64 255, i64 255>			%chi = icmp sgt <2 x i64> %lo, <i64 255, i64 255>
	%hi = select <2 x i1> %chi, <2 x i64> <i64 255, i64 255>, <2 x i64> %lo			%hi = select <2 x i1> %chi, <2 x i64> <i64 255, i64 255>, <2 x i64> %lo
	%cvt = sitofp <2 x i64> %hi to <2 x double>			%cvt = sitofp <2 x i64> %hi to <2 x double>
	ret <2 x double> %cvt			ret <2 x double> %cvt
	}			}

test/CodeGen/X86/isint.ll

	; RUN: llc < %s -mtriple=x86_64-pc-unknown -mattr=+sse2 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-pc-unknown -mattr=+sse2 \| FileCheck %s
	; RUN: llc < %s -mtriple=i686-pc-unknown -mattr=+sse2 \| FileCheck %s			; RUN: llc < %s -mtriple=i686-pc-unknown -mattr=+sse2 \| FileCheck %s

	; PR19059			; PR19059
	; RUN: llc < %s -mtriple=i686-pc-unknown -mattr=+sse2 \| FileCheck -check-prefix=CHECK32 %s			; RUN: llc < %s -mtriple=i686-pc-unknown -mattr=+sse2 \| FileCheck -check-prefix=CHECK32 %s

	define i32 @isint_return(double %d) nounwind {			define i32 @isint_return(double %d) nounwind {
	; CHECK-LABEL: isint_return:			; CHECK-LABEL: isint_return:
	; CHECK-NOT: xor			; CHECK-NOT: xor
	; CHECK: cvt			; CHECK: cvt
	%i = fptosi double %d to i32			%i = fptosi double %d to i32
				; CHECK-NEXT: xor
	; CHECK-NEXT: cvt			; CHECK-NEXT: cvt
	%e = sitofp i32 %i to double			%e = sitofp i32 %i to double
	; CHECK: cmpeqsd			; CHECK: cmpeqsd
	%c = fcmp oeq double %d, %e			%c = fcmp oeq double %d, %e
	; CHECK32-NOT: movd {{.}}, %r{{.}}			; CHECK32-NOT: movd {{.}}, %r{{.}}
	; CHECK32-NOT: andq			; CHECK32-NOT: andq
	; CHECK-NEXT: movd			; CHECK-NEXT: movd
	; CHECK-NEXT: andl			; CHECK-NEXT: andl
	%z = zext i1 %c to i32			%z = zext i1 %c to i32
	ret i32 %z			ret i32 %z
	}			}

	define i32 @isint_float_return(float %f) nounwind {			define i32 @isint_float_return(float %f) nounwind {
	; CHECK-LABEL: isint_float_return:			; CHECK-LABEL: isint_float_return:
	; CHECK-NOT: xor			; CHECK-NOT: xor
	; CHECK: cvt			; CHECK: cvt
	%i = fptosi float %f to i32			%i = fptosi float %f to i32
				; CHECK-NEXT: xor
	; CHECK-NEXT: cvt			; CHECK-NEXT: cvt
	%g = sitofp i32 %i to float			%g = sitofp i32 %i to float
	; CHECK: cmpeqss			; CHECK: cmpeqss
	%c = fcmp oeq float %f, %g			%c = fcmp oeq float %f, %g
	; CHECK-NOT: movd {{.}}, %r{{.}}			; CHECK-NOT: movd {{.}}, %r{{.}}
	; CHECK-NEXT: movd			; CHECK-NEXT: movd
	; CHECK-NEXT: andl			; CHECK-NEXT: andl
	%z = zext i1 %c to i32			%z = zext i1 %c to i32
	ret i32 %z			ret i32 %z
	}			}

	declare void @foo()			declare void @foo()

	define void @isint_branch(double %d) nounwind {			define void @isint_branch(double %d) nounwind {
	; CHECK-LABEL: isint_branch:			; CHECK-LABEL: isint_branch:
	; CHECK: cvt			; CHECK: cvt
	%i = fptosi double %d to i32			%i = fptosi double %d to i32
				; CHECK-NEXT: xor
	; CHECK-NEXT: cvt			; CHECK-NEXT: cvt
	%e = sitofp i32 %i to double			%e = sitofp i32 %i to double
	; CHECK: ucomisd			; CHECK: ucomisd
	%c = fcmp oeq double %d, %e			%c = fcmp oeq double %d, %e
	; CHECK-NEXT: jne			; CHECK-NEXT: jne
	; CHECK-NEXT: jp			; CHECK-NEXT: jp
	br i1 %c, label %true, label %false			br i1 %c, label %true, label %false
	true:			true:
	call void @foo()			call void @foo()
	ret void			ret void
	false:			false:
	ret void			ret void
	}			}

test/CodeGen/X86/recip-fastmath.ll

	Show All 24 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%div = fdiv fast float 1.0, %x			%div = fdiv fast float 1.0, %x
	ret float %div			ret float %div
	}			}

	define float @f32_one_step(float %x) #1 {			define float @f32_one_step(float %x) #1 {
	; SSE-LABEL: f32_one_step:			; SSE-LABEL: f32_one_step:
	; SSE: # BB#0:			; SSE: # BB#0:
				; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: rcpss %xmm0, %xmm2			; SSE-NEXT: rcpss %xmm0, %xmm2
	; SSE-NEXT: mulss %xmm2, %xmm0			; SSE-NEXT: mulss %xmm2, %xmm0
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: subss %xmm0, %xmm1			; SSE-NEXT: subss %xmm0, %xmm1
	; SSE-NEXT: mulss %xmm2, %xmm1			; SSE-NEXT: mulss %xmm2, %xmm1
	; SSE-NEXT: addss %xmm2, %xmm1			; SSE-NEXT: addss %xmm2, %xmm1
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	Show All 9 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%div = fdiv fast float 1.0, %x			%div = fdiv fast float 1.0, %x
	ret float %div			ret float %div
	}			}

	define float @f32_two_step(float %x) #2 {			define float @f32_two_step(float %x) #2 {
	; SSE-LABEL: f32_two_step:			; SSE-LABEL: f32_two_step:
	; SSE: # BB#0:			; SSE: # BB#0:
				; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: rcpss %xmm0, %xmm2			; SSE-NEXT: rcpss %xmm0, %xmm2
	; SSE-NEXT: movaps %xmm0, %xmm3			; SSE-NEXT: movaps %xmm0, %xmm3
	; SSE-NEXT: mulss %xmm2, %xmm3			; SSE-NEXT: mulss %xmm2, %xmm3
	; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: movaps %xmm1, %xmm4			; SSE-NEXT: movaps %xmm1, %xmm4
	; SSE-NEXT: subss %xmm3, %xmm4			; SSE-NEXT: subss %xmm3, %xmm4
	; SSE-NEXT: mulss %xmm2, %xmm4			; SSE-NEXT: mulss %xmm2, %xmm4
	; SSE-NEXT: addss %xmm2, %xmm4			; SSE-NEXT: addss %xmm2, %xmm4
	▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }			attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }
	attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }			attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }
	attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }			attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }

test/CodeGen/X86/recip-fastmath2.ll

Show All 17 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%div = fdiv fast float 1234.0, %x		%div = fdiv fast float 1234.0, %x
ret float %div		ret float %div
}		}

define float @f32_one_step_2(float %x) #1 {		define float @f32_one_step_2(float %x) #1 {
; SSE-LABEL: f32_one_step_2:		; SSE-LABEL: f32_one_step_2:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: rcpss %xmm0, %xmm2		; SSE-NEXT: rcpss %xmm0, %xmm2
; SSE-NEXT: mulss %xmm2, %xmm0		; SSE-NEXT: mulss %xmm2, %xmm0
; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: subss %xmm0, %xmm1		; SSE-NEXT: subss %xmm0, %xmm1
; SSE-NEXT: mulss %xmm2, %xmm1		; SSE-NEXT: mulss %xmm2, %xmm1
; SSE-NEXT: addss %xmm2, %xmm1		; SSE-NEXT: addss %xmm2, %xmm1
; SSE-NEXT: mulss {{.*}}(%rip), %xmm1		; SSE-NEXT: mulss {{.*}}(%rip), %xmm1
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
Show All 11 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%div = fdiv fast float 3456.0, %x		%div = fdiv fast float 3456.0, %x
ret float %div		ret float %div
}		}

define float @f32_two_step_2(float %x) #2 {		define float @f32_two_step_2(float %x) #2 {
; SSE-LABEL: f32_two_step_2:		; SSE-LABEL: f32_two_step_2:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: rcpss %xmm0, %xmm2		; SSE-NEXT: rcpss %xmm0, %xmm2
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movaps %xmm0, %xmm3
; SSE-NEXT: mulss %xmm2, %xmm3		; SSE-NEXT: mulss %xmm2, %xmm3
; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; SSE-NEXT: movaps %xmm1, %xmm4		; SSE-NEXT: movaps %xmm1, %xmm4
; SSE-NEXT: subss %xmm3, %xmm4		; SSE-NEXT: subss %xmm3, %xmm4
; SSE-NEXT: mulss %xmm2, %xmm4		; SSE-NEXT: mulss %xmm2, %xmm4
; SSE-NEXT: addss %xmm2, %xmm4		; SSE-NEXT: addss %xmm2, %xmm4
▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x		%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x
ret <8 x float> %div		ret <8 x float> %div
}		}

attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }		attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }
attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }		attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }
attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }		attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }
attributes #3 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:0,vec-divf:0" }		attributes #3 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:0,vec-divf:0" }

test/CodeGen/X86/sqrt-fastmath-tune.ll

	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=nehalem \| FileCheck %s --check-prefix=SCALAR-EST --check-prefix=VECTOR-EST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=nehalem \| FileCheck %s --check-prefix=SCALAR-EST --check-prefix=VECTOR-EST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=sandybridge \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=sandybridge \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=broadwell \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=broadwell \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=skylake \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-ACC			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mcpu=skylake \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-ACC

	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mattr=+fast-scalar-fsqrt,-fast-vector-fsqrt \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mattr=+fast-scalar-fsqrt,-fast-vector-fsqrt \| FileCheck %s --check-prefix=SCALAR-ACC --check-prefix=VECTOR-EST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mattr=-fast-scalar-fsqrt,+fast-vector-fsqrt \| FileCheck %s --check-prefix=SCALAR-EST --check-prefix=VECTOR-ACC			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -O2 -mattr=-fast-scalar-fsqrt,+fast-vector-fsqrt \| FileCheck %s --check-prefix=SCALAR-EST --check-prefix=VECTOR-ACC

	declare float @llvm.sqrt.f32(float) #0			declare float @llvm.sqrt.f32(float) #0
	declare <4 x float> @llvm.sqrt.v4f32(<4 x float>) #0			declare <4 x float> @llvm.sqrt.v4f32(<4 x float>) #0
	declare <8 x float> @llvm.sqrt.v8f32(<8 x float>) #0			declare <8 x float> @llvm.sqrt.v8f32(<8 x float>) #0

	define float @foo_x1(float %f) #0 {			define float @foo_x1(float %f) #0 {
	; SCALAR-EST-LABEL: foo_x1:			; SCALAR-EST-LABEL: foo_x1:
	; SCALAR-EST: # BB#0:			; SCALAR-EST: # BB#0:
	; SCALAR-EST-NEXT: rsqrtss %xmm0			; SCALAR-EST-NEXT: xorps %xmm1
				; SCALAR-EST-NEXT: rsqrtss %xmm0, %xmm1
	; SCALAR-EST: retq			; SCALAR-EST: retq
	;			;
	; SCALAR-ACC-LABEL: foo_x1:			; SCALAR-ACC-LABEL: foo_x1:
	; SCALAR-ACC: # BB#0:			; SCALAR-ACC: # BB#0:
	; SCALAR-ACC-NEXT: {{^ *v?sqrtss %xmm0}}			; SCALAR-ACC-NEXT: {{^ *v?sqrtss %xmm0}}
	; SCALAR-ACC-NEXT: retq			; SCALAR-ACC-NEXT: retq
	%call = tail call float @llvm.sqrt.f32(float %f) #1			%call = tail call float @llvm.sqrt.f32(float %f) #1
	ret float %call			ret float %call
	Show All 33 Lines

test/CodeGen/X86/sqrt-fastmath.ll

Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
; AVX-NEXT: retq		; AVX-NEXT: retq
%call = tail call float @__sqrtf_finite(float %f) #2		%call = tail call float @__sqrtf_finite(float %f) #2
ret float %call		ret float %call
}		}

define float @finite_f32_estimate(float %f) #1 {		define float @finite_f32_estimate(float %f) #1 {
; SSE-LABEL: finite_f32_estimate:		; SSE-LABEL: finite_f32_estimate:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: rsqrtss %xmm0, %xmm1		; SSE-NEXT: rsqrtss %xmm0, %xmm1
; SSE-NEXT: movaps %xmm0, %xmm2		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: mulss %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm2
; SSE-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; SSE-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE-NEXT: mulss %xmm2, %xmm3		; SSE-NEXT: mulss %xmm2, %xmm3
; SSE-NEXT: mulss %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm2
; SSE-NEXT: addss {{.*}}(%rip), %xmm2		; SSE-NEXT: addss {{.*}}(%rip), %xmm2
; SSE-NEXT: mulss %xmm3, %xmm2		; SSE-NEXT: mulss %xmm3, %xmm2
Show All 38 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%call = tail call x86_fp80 @__sqrtl_finite(x86_fp80 %ld) #2		%call = tail call x86_fp80 @__sqrtl_finite(x86_fp80 %ld) #2
ret x86_fp80 %call		ret x86_fp80 %call
}		}

define float @f32_no_estimate(float %x) #0 {		define float @f32_no_estimate(float %x) #0 {
; SSE-LABEL: f32_no_estimate:		; SSE-LABEL: f32_no_estimate:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: sqrtss %xmm0, %xmm1		; SSE-NEXT: sqrtss %xmm0, %xmm1
; SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE-NEXT: divss %xmm1, %xmm0		; SSE-NEXT: divss %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: f32_no_estimate:		; AVX-LABEL: f32_no_estimate:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vsqrtss %xmm0, %xmm0, %xmm0		; AVX-NEXT: vsqrtss %xmm0, %xmm0, %xmm0
; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; AVX-NEXT: vdivss %xmm0, %xmm1, %xmm0		; AVX-NEXT: vdivss %xmm0, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%sqrt = tail call float @llvm.sqrt.f32(float %x)		%sqrt = tail call float @llvm.sqrt.f32(float %x)
%div = fdiv fast float 1.0, %sqrt		%div = fdiv fast float 1.0, %sqrt
ret float %div		ret float %div
}		}

define float @f32_estimate(float %x) #1 {		define float @f32_estimate(float %x) #1 {
; SSE-LABEL: f32_estimate:		; SSE-LABEL: f32_estimate:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: rsqrtss %xmm0, %xmm1		; SSE-NEXT: rsqrtss %xmm0, %xmm1
; SSE-NEXT: movaps %xmm1, %xmm2		; SSE-NEXT: movaps %xmm1, %xmm2
; SSE-NEXT: mulss %xmm2, %xmm2		; SSE-NEXT: mulss %xmm2, %xmm2
; SSE-NEXT: mulss %xmm0, %xmm2		; SSE-NEXT: mulss %xmm0, %xmm2
; SSE-NEXT: addss {{.*}}(%rip), %xmm2		; SSE-NEXT: addss {{.*}}(%rip), %xmm2
; SSE-NEXT: mulss {{.*}}(%rip), %xmm1		; SSE-NEXT: mulss {{.*}}(%rip), %xmm1
; SSE-NEXT: mulss %xmm2, %xmm1		; SSE-NEXT: mulss %xmm2, %xmm1
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <8 x float> %div		ret <8 x float> %div
}		}


attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!sqrtf,!vec-sqrtf,!divf,!vec-divf" }		attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!sqrtf,!vec-sqrtf,!divf,!vec-divf" }
attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="sqrt,vec-sqrt" }		attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="sqrt,vec-sqrt" }
attributes #2 = { nounwind readnone }		attributes #2 = { nounwind readnone }

test/CodeGen/X86/sse-scalar-fp-arith.ll

Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%div = fdiv float %2, %1		%div = fdiv float %2, %1
%3 = insertelement <4 x float> %a, float %div, i32 0		%3 = insertelement <4 x float> %a, float %div, i32 0
ret <4 x float> %3		ret <4 x float> %3
}		}

define <4 x float> @test_sqrt_ss(<4 x float> %a) {		define <4 x float> @test_sqrt_ss(<4 x float> %a) {
; SSE2-LABEL: test_sqrt_ss:		; SSE2-LABEL: test_sqrt_ss:
; SSE2: # BB#0:		; SSE2: # BB#0:
		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: sqrtss %xmm0, %xmm1		; SSE2-NEXT: sqrtss %xmm0, %xmm1
; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_sqrt_ss:		; SSE41-LABEL: test_sqrt_ss:
; SSE41: # BB#0:		; SSE41: # BB#0:
		; SSE41-NEXT: xorps %xmm1, %xmm1
; SSE41-NEXT: sqrtss %xmm0, %xmm1		; SSE41-NEXT: sqrtss %xmm0, %xmm1
; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]		; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_sqrt_ss:		; AVX1-LABEL: test_sqrt_ss:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vsqrtss %xmm0, %xmm0, %xmm1		; AVX1-NEXT: vsqrtss %xmm0, %xmm0, %xmm1
; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]		; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%div = fdiv double %2, %1		%div = fdiv double %2, %1
%3 = insertelement <2 x double> %a, double %div, i32 0		%3 = insertelement <2 x double> %a, double %div, i32 0
ret <2 x double> %3		ret <2 x double> %3
}		}

define <2 x double> @test_sqrt_sd(<2 x double> %a) {		define <2 x double> @test_sqrt_sd(<2 x double> %a) {
; SSE2-LABEL: test_sqrt_sd:		; SSE2-LABEL: test_sqrt_sd:
; SSE2: # BB#0:		; SSE2: # BB#0:
		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: sqrtsd %xmm0, %xmm1		; SSE2-NEXT: sqrtsd %xmm0, %xmm1
; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_sqrt_sd:		; SSE41-LABEL: test_sqrt_sd:
; SSE41: # BB#0:		; SSE41: # BB#0:
		; SSE41-NEXT: xorps %xmm1, %xmm1
; SSE41-NEXT: sqrtsd %xmm0, %xmm1		; SSE41-NEXT: sqrtsd %xmm0, %xmm1
; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_sqrt_sd:		; AVX1-LABEL: test_sqrt_sd:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vsqrtsd %xmm0, %xmm0, %xmm1		; AVX1-NEXT: vsqrtsd %xmm0, %xmm0, %xmm1
; AVX1-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; AVX1-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
▲ Show 20 Lines • Show All 995 Lines • Show Last 20 Lines

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 1,252 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res = extractelement <4 x i32> %arg0, i32 0		%res = extractelement <4 x i32> %arg0, i32 0
ret i32 %res		ret i32 %res
}		}

define <2 x double> @test_mm_cvtsi32_sd(<2 x double> %a0, i32 %a1) nounwind {		define <2 x double> @test_mm_cvtsi32_sd(<2 x double> %a0, i32 %a1) nounwind {
; X32-LABEL: test_mm_cvtsi32_sd:		; X32-LABEL: test_mm_cvtsi32_sd:
; X32: # BB#0:		; X32: # BB#0:
; X32-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
		; X32-NEXT: xorps %xmm1, %xmm1
; X32-NEXT: cvtsi2sdl %eax, %xmm1		; X32-NEXT: cvtsi2sdl %eax, %xmm1
; X32-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; X32-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: test_mm_cvtsi32_sd:		; X64-LABEL: test_mm_cvtsi32_sd:
; X64: # BB#0:		; X64: # BB#0:
		; X64-NEXT: xorps %xmm1, %xmm1
; X64-NEXT: cvtsi2sdl %edi, %xmm1		; X64-NEXT: cvtsi2sdl %edi, %xmm1
; X64-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; X64-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; X64-NEXT: retq		; X64-NEXT: retq
%cvt = sitofp i32 %a1 to double		%cvt = sitofp i32 %a1 to double
%res = insertelement <2 x double> %a0, double %cvt, i32 0		%res = insertelement <2 x double> %a0, double %cvt, i32 0
ret <2 x double> %res		ret <2 x double> %res
}		}

▲ Show 20 Lines • Show All 2,598 Lines • ▼ Show 20 Lines
; X64: # BB#0:		; X64: # BB#0:
; X64-NEXT: xorps %xmm1, %xmm0		; X64-NEXT: xorps %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%res = xor <2 x i64> %a0, %a1		%res = xor <2 x i64> %a0, %a1
ret <2 x i64> %res		ret <2 x i64> %res
}		}

!0 = !{i32 1}		!0 = !{i32 1}

test/CodeGen/X86/sse_partial_update.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-macosx -mattr=+sse2 -mcpu=nehalem \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-macosx -mattr=+sse2 -mcpu=nehalem \| FileCheck %s

	; rdar: 12558838			; rdar: 12558838
	; PR14221			; PR14221
	; There is a mismatch between the intrinsic and the actual instruction.			; There is a mismatch between the intrinsic and the actual instruction.
	; The actual instruction has a partial update of dest, while the intrinsic			; The actual instruction has a partial update of dest, while the intrinsic
	; passes through the upper FP values. Here, we make sure the source and			; passes through the upper FP values. Here, we make sure the source and
	; destination of each scalar unary op are the same.			; destination of each scalar unary op are the same.

	define void @rsqrtss(<4 x float> %a) nounwind uwtable ssp {			define void @rsqrtss(<4 x float> %a) nounwind uwtable ssp {
	; CHECK-LABEL: rsqrtss:			; CHECK-LABEL: rsqrtss:
	; CHECK: ## BB#0: ## %entry			; CHECK: ## BB#0: ## %entry
	; CHECK-NEXT: rsqrtss %xmm0, %xmm0			; CHECK-NEXT: rsqrtss %xmm0, %xmm0
				; CHECK-NEXT: xorps %xmm2, %xmm2
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm2			; CHECK-NEXT: cvtss2sd %xmm0, %xmm2
	; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
				; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm1			; CHECK-NEXT: cvtss2sd %xmm0, %xmm1
	; CHECK-NEXT: movaps %xmm2, %xmm0			; CHECK-NEXT: movaps %xmm2, %xmm0
	; CHECK-NEXT: jmp _callee ## TAILCALL			; CHECK-NEXT: jmp _callee ## TAILCALL
	entry:			entry:

	%0 = tail call <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float> %a) nounwind			%0 = tail call <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float> %a) nounwind
	%a.addr.0.extract = extractelement <4 x float> %0, i32 0			%a.addr.0.extract = extractelement <4 x float> %0, i32 0
	%conv = fpext float %a.addr.0.extract to double			%conv = fpext float %a.addr.0.extract to double
	%a.addr.4.extract = extractelement <4 x float> %0, i32 1			%a.addr.4.extract = extractelement <4 x float> %0, i32 1
	%conv3 = fpext float %a.addr.4.extract to double			%conv3 = fpext float %a.addr.4.extract to double
	tail call void @callee(double %conv, double %conv3) nounwind			tail call void @callee(double %conv, double %conv3) nounwind
	ret void			ret void
	}			}
	declare void @callee(double, double)			declare void @callee(double, double)
	declare <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rsqrt.ss(<4 x float>) nounwind readnone

	define void @rcpss(<4 x float> %a) nounwind uwtable ssp {			define void @rcpss(<4 x float> %a) nounwind uwtable ssp {
	; CHECK-LABEL: rcpss:			; CHECK-LABEL: rcpss:
	; CHECK: ## BB#0: ## %entry			; CHECK: ## BB#0: ## %entry
	; CHECK-NEXT: rcpss %xmm0, %xmm0			; CHECK-NEXT: rcpss %xmm0, %xmm0
				; CHECK-NEXT: xorps %xmm2, %xmm2
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm2			; CHECK-NEXT: cvtss2sd %xmm0, %xmm2
	; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
				; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm1			; CHECK-NEXT: cvtss2sd %xmm0, %xmm1
	; CHECK-NEXT: movaps %xmm2, %xmm0			; CHECK-NEXT: movaps %xmm2, %xmm0
	; CHECK-NEXT: jmp _callee ## TAILCALL			; CHECK-NEXT: jmp _callee ## TAILCALL
	entry:			entry:

	%0 = tail call <4 x float> @llvm.x86.sse.rcp.ss(<4 x float> %a) nounwind			%0 = tail call <4 x float> @llvm.x86.sse.rcp.ss(<4 x float> %a) nounwind
	%a.addr.0.extract = extractelement <4 x float> %0, i32 0			%a.addr.0.extract = extractelement <4 x float> %0, i32 0
	%conv = fpext float %a.addr.0.extract to double			%conv = fpext float %a.addr.0.extract to double
	%a.addr.4.extract = extractelement <4 x float> %0, i32 1			%a.addr.4.extract = extractelement <4 x float> %0, i32 1
	%conv3 = fpext float %a.addr.4.extract to double			%conv3 = fpext float %a.addr.4.extract to double
	tail call void @callee(double %conv, double %conv3) nounwind			tail call void @callee(double %conv, double %conv3) nounwind
	ret void			ret void
	}			}
	declare <4 x float> @llvm.x86.sse.rcp.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rcp.ss(<4 x float>) nounwind readnone

	define void @sqrtss(<4 x float> %a) nounwind uwtable ssp {			define void @sqrtss(<4 x float> %a) nounwind uwtable ssp {
	; CHECK-LABEL: sqrtss:			; CHECK-LABEL: sqrtss:
	; CHECK: ## BB#0: ## %entry			; CHECK: ## BB#0: ## %entry
	; CHECK-NEXT: sqrtss %xmm0, %xmm0			; CHECK-NEXT: sqrtss %xmm0, %xmm0
				; CHECK-NEXT: xorps %xmm2, %xmm2
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm2			; CHECK-NEXT: cvtss2sd %xmm0, %xmm2
	; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; CHECK-NEXT: movshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
				; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: cvtss2sd %xmm0, %xmm1			; CHECK-NEXT: cvtss2sd %xmm0, %xmm1
	; CHECK-NEXT: movaps %xmm2, %xmm0			; CHECK-NEXT: movaps %xmm2, %xmm0
	; CHECK-NEXT: jmp _callee ## TAILCALL			; CHECK-NEXT: jmp _callee ## TAILCALL
	entry:			entry:

	%0 = tail call <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float> %a) nounwind			%0 = tail call <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float> %a) nounwind
	%a.addr.0.extract = extractelement <4 x float> %0, i32 0			%a.addr.0.extract = extractelement <4 x float> %0, i32 0
	%conv = fpext float %a.addr.0.extract to double			%conv = fpext float %a.addr.0.extract to double
	%a.addr.4.extract = extractelement <4 x float> %0, i32 1			%a.addr.4.extract = extractelement <4 x float> %0, i32 1
	%conv3 = fpext float %a.addr.4.extract to double			%conv3 = fpext float %a.addr.4.extract to double
	tail call void @callee(double %conv, double %conv3) nounwind			tail call void @callee(double %conv, double %conv3) nounwind
	ret void			ret void
	}			}
	declare <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.sqrt.ss(<4 x float>) nounwind readnone

	define void @sqrtsd(<2 x double> %a) nounwind uwtable ssp {			define void @sqrtsd(<2 x double> %a) nounwind uwtable ssp {
	; CHECK-LABEL: sqrtsd:			; CHECK-LABEL: sqrtsd:
	; CHECK: ## BB#0: ## %entry			; CHECK: ## BB#0: ## %entry
	; CHECK-NEXT: sqrtsd %xmm0, %xmm0			; CHECK-NEXT: sqrtsd %xmm0, %xmm0
				; CHECK-NEXT: xorps %xmm2, %xmm2
	; CHECK-NEXT: cvtsd2ss %xmm0, %xmm2			; CHECK-NEXT: cvtsd2ss %xmm0, %xmm2
	; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
				; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: cvtsd2ss %xmm0, %xmm1			; CHECK-NEXT: cvtsd2ss %xmm0, %xmm1
	; CHECK-NEXT: movaps %xmm2, %xmm0			; CHECK-NEXT: movaps %xmm2, %xmm0
	; CHECK-NEXT: jmp _callee2 ## TAILCALL			; CHECK-NEXT: jmp _callee2 ## TAILCALL
	entry:			entry:

	%0 = tail call <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double> %a) nounwind			%0 = tail call <2 x double> @llvm.x86.sse2.sqrt.sd(<2 x double> %a) nounwind
	%a0 = extractelement <2 x double> %0, i32 0			%a0 = extractelement <2 x double> %0, i32 0
	%conv = fptrunc double %a0 to float			%conv = fptrunc double %a0 to float
	Show All 35 Lines
	; CHECK-NEXT: cvtss2sd (%rdi), %xmm0			; CHECK-NEXT: cvtss2sd (%rdi), %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%ld = load <4 x float>, <4 x float> *%a			%ld = load <4 x float>, <4 x float> *%a
	%x = call <2 x double> @llvm.x86.sse2.cvtss2sd(<2 x double> <double 0x0, double 0x0>, <4 x float> %ld)			%x = call <2 x double> @llvm.x86.sse2.cvtss2sd(<2 x double> <double 0x0, double 0x0>, <4 x float> %ld)
	ret <2 x double> %x			ret <2 x double> %x
	}			}

	declare <2 x double> @llvm.x86.sse2.cvtss2sd(<2 x double>, <4 x float>) nounwind readnone			declare <2 x double> @llvm.x86.sse2.cvtss2sd(<2 x double>, <4 x float>) nounwind readnone

test/CodeGen/X86/uint64-to-float.ll

	Show All 27 Lines
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test:			; X64-LABEL: test:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	; X64-NEXT: testq %rdi, %rdi			; X64-NEXT: testq %rdi, %rdi
	; X64-NEXT: js .LBB0_1			; X64-NEXT: js .LBB0_1
	; X64-NEXT: # BB#2: # %entry			; X64-NEXT: # BB#2: # %entry
				; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: cvtsi2ssq %rdi, %xmm0			; X64-NEXT: cvtsi2ssq %rdi, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	; X64-NEXT: .LBB0_1:			; X64-NEXT: .LBB0_1:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: shrq %rax			; X64-NEXT: shrq %rax
	; X64-NEXT: andl $1, %edi			; X64-NEXT: andl $1, %edi
	; X64-NEXT: orq %rax, %rdi			; X64-NEXT: orq %rax, %rdi
				; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: cvtsi2ssq %rdi, %xmm0			; X64-NEXT: cvtsi2ssq %rdi, %xmm0
	; X64-NEXT: addss %xmm0, %xmm0			; X64-NEXT: addss %xmm0, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%b = uitofp i64 %a to float			%b = uitofp i64 %a to float
	ret float %b			ret float %b
	}			}

test/CodeGen/X86/uint_to_fp.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-apple-darwin8 -mattr=+sse2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i386-apple-darwin8 -mattr=+sse2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-apple-darwin8 -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-apple-darwin8 -mattr=+sse2 \| FileCheck %s --check-prefix=X64
	; rdar://6034396			; rdar://6034396

	define void @test(i32 %x, float* %y) nounwind {			define void @test(i32 %x, float* %y) nounwind {
	; X32-LABEL: test:			; X32-LABEL: test:
	; X32: ## BB#0: ## %entry			; X32: ## BB#0: ## %entry
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: shrl $23, %ecx			; X32-NEXT: shrl $23, %ecx
				; X32-NEXT: xorps %xmm0, %xmm0
	; X32-NEXT: cvtsi2ssl %ecx, %xmm0			; X32-NEXT: cvtsi2ssl %ecx, %xmm0
	; X32-NEXT: movss %xmm0, (%eax)			; X32-NEXT: movss %xmm0, (%eax)
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test:			; X64-LABEL: test:
	; X64: ## BB#0: ## %entry			; X64: ## BB#0: ## %entry
	; X64-NEXT: shrl $23, %edi			; X64-NEXT: shrl $23, %edi
				; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: cvtsi2ssl %edi, %xmm0			; X64-NEXT: cvtsi2ssl %edi, %xmm0
	; X64-NEXT: movss %xmm0, (%rsi)			; X64-NEXT: movss %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	lshr i32 %x, 23			lshr i32 %x, 23
	uitofp i32 %0 to float			uitofp i32 %0 to float
	store float %1, float* %y			store float %1, float* %y
	ret void			ret void
	}			}

test/CodeGen/X86/vec_int_to_fp.ll

Show All 14 Lines
;		;
; Signed Integer to Double		; Signed Integer to Double
;		;

define <2 x double> @sitofp_2i64_to_2f64(<2 x i64> %a) {		define <2 x double> @sitofp_2i64_to_2f64(<2 x i64> %a) {
; SSE-LABEL: sitofp_2i64_to_2f64:		; SSE-LABEL: sitofp_2i64_to_2f64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2sdq %rax, %xmm1		; SSE-NEXT: cvtsi2sdq %rax, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; SSE-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_2i64_to_2f64:		; VEX-LABEL: sitofp_2i64_to_2f64:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; VEX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; VEX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_2i64_to_2f64:		; AVX512F-LABEL: sitofp_2i64_to_2f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_2i64_to_2f64:		; AVX512VL-LABEL: sitofp_2i64_to_2f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: sitofp_2i64_to_2f64:		; AVX512DQ-LABEL: sitofp_2i64_to_2f64:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>		; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%shuf = shufflevector <16 x double> %cvt, <16 x double> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <16 x double> %cvt, <16 x double> undef, <2 x i32> <i32 0, i32 1>
ret <2 x double> %shuf		ret <2 x double> %shuf
}		}

define <4 x double> @sitofp_4i64_to_4f64(<4 x i64> %a) {		define <4 x double> @sitofp_4i64_to_4f64(<4 x i64> %a) {
; SSE-LABEL: sitofp_4i64_to_4f64:		; SSE-LABEL: sitofp_4i64_to_4f64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2sdq %rax, %xmm2		; SSE-NEXT: cvtsi2sdq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm0[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2sdq %rax, %xmm3		; SSE-NEXT: cvtsi2sdq %rax, %xmm3
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: unpcklpd {{.*#+}} xmm3 = xmm3[0],xmm0[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; SSE-NEXT: movapd %xmm2, %xmm0		; SSE-NEXT: movapd %xmm2, %xmm0
; SSE-NEXT: movapd %xmm3, %xmm1		; SSE-NEXT: movapd %xmm3, %xmm1
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_4i64_to_4f64:		; AVX1-LABEL: sitofp_4i64_to_4f64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpextrq $1, %xmm1, %rax		; AVX1-NEXT: vpextrq $1, %xmm1, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX1-NEXT: vmovq %xmm1, %rax		; AVX1-NEXT: vmovq %xmm1, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sitofp_4i64_to_4f64:		; AVX2-LABEL: sitofp_4i64_to_4f64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpextrq $1, %xmm1, %rax		; AVX2-NEXT: vpextrq $1, %xmm1, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX2-NEXT: vmovq %xmm1, %rax		; AVX2-NEXT: vmovq %xmm1, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_4i64_to_4f64:		; AVX512F-LABEL: sitofp_4i64_to_4f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_4i64_to_4f64:		; AVX512VL-LABEL: sitofp_4i64_to_4f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; VEX-NEXT: vsubpd %xmm3, %xmm0, %xmm0		; VEX-NEXT: vsubpd %xmm3, %xmm0, %xmm0
; VEX-NEXT: vhaddpd %xmm0, %xmm2, %xmm0		; VEX-NEXT: vhaddpd %xmm0, %xmm2, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_2i64_to_2f64:		; AVX512F-LABEL: uitofp_2i64_to_2f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_2i64_to_2f64:		; AVX512VL-LABEL: uitofp_2i64_to_2f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: uitofp_2i64_to_2f64:		; AVX512DQ-LABEL: uitofp_2i64_to_2f64:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>		; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %ZMM0<def>
▲ Show 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
; AVX2-NEXT: vhaddpd %xmm0, %xmm3, %xmm0		; AVX2-NEXT: vhaddpd %xmm0, %xmm3, %xmm0
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_4i64_to_4f64:		; AVX512F-LABEL: uitofp_4i64_to_4f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_4i64_to_4f64:		; AVX512VL-LABEL: uitofp_4i64_to_4f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
;		;
; Signed Integer to Float		; Signed Integer to Float
;		;

define <4 x float> @sitofp_2i64_to_4f32(<2 x i64> %a) {		define <4 x float> @sitofp_2i64_to_4f32(<2 x i64> %a) {
; SSE-LABEL: sitofp_2i64_to_4f32:		; SSE-LABEL: sitofp_2i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_2i64_to_4f32:		; VEX-LABEL: sitofp_2i64_to_4f32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_2i64_to_4f32:		; AVX512F-LABEL: sitofp_2i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_2i64_to_4f32:		; AVX512VL-LABEL: sitofp_2i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: sitofp_2i64_to_4f32:		; AVX512DQ-LABEL: sitofp_2i64_to_4f32:
Show All 24 Lines
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero		; SSE-NEXT: movq {{.*#+}} xmm0 = xmm0[0],zero
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_2i64_to_4f32_zero:		; VEX-LABEL: sitofp_2i64_to_4f32_zero:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_2i64_to_4f32_zero:		; AVX512F-LABEL: sitofp_2i64_to_4f32_zero:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_2i64_to_4f32_zero:		; AVX512VL-LABEL: sitofp_2i64_to_4f32_zero:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: sitofp_2i64_to_4f32_zero:		; AVX512DQ-LABEL: sitofp_2i64_to_4f32_zero:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
Show All 9 Lines	; AVX512VLDQ-NEXT: retq
%cvt = sitofp <2 x i64> %a to <2 x float>		%cvt = sitofp <2 x i64> %a to <2 x float>
%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%ext = shufflevector <2 x float> %cvt, <2 x float> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x float> %ext		ret <4 x float> %ext
}		}

define <4 x float> @sitofp_4i64_to_4f32_undef(<2 x i64> %a) {		define <4 x float> @sitofp_4i64_to_4f32_undef(<2 x i64> %a) {
; SSE-LABEL: sitofp_4i64_to_4f32_undef:		; SSE-LABEL: sitofp_4i64_to_4f32_undef:
; SSE: # BB#0:		; SSE: # BB#0:
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_4i64_to_4f32_undef:		; VEX-LABEL: sitofp_4i64_to_4f32_undef:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_4i64_to_4f32_undef:		; AVX512F-LABEL: sitofp_4i64_to_4f32_undef:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_4i64_to_4f32_undef:		; AVX512VL-LABEL: sitofp_4i64_to_4f32_undef:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: sitofp_4i64_to_4f32_undef:		; AVX512DQ-LABEL: sitofp_4i64_to_4f32_undef:
▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%shuf = shufflevector <16 x float> %cvt, <16 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%shuf = shufflevector <16 x float> %cvt, <16 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x float> %shuf		ret <4 x float> %shuf
}		}

define <4 x float> @sitofp_4i64_to_4f32(<4 x i64> %a) {		define <4 x float> @sitofp_4i64_to_4f32(<4 x i64> %a) {
; SSE-LABEL: sitofp_4i64_to_4f32:		; SSE-LABEL: sitofp_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
; SSE-NEXT: movaps %xmm2, %xmm0		; SSE-NEXT: movaps %xmm2, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_4i64_to_4f32:		; AVX1-LABEL: sitofp_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sitofp_4i64_to_4f32:		; AVX2-LABEL: sitofp_4i64_to_4f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_4i64_to_4f32:		; AVX512F-LABEL: sitofp_4i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_4i64_to_4f32:		; AVX512VL-LABEL: sitofp_4i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: uitofp_2i64_to_4f32:		; VEX-LABEL: uitofp_2i64_to_4f32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB39_1		; VEX-NEXT: js .LBB39_1
; VEX-NEXT: # BB#2:		; VEX-NEXT: # BB#2:
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: jmp .LBB39_3		; VEX-NEXT: jmp .LBB39_3
; VEX-NEXT: .LBB39_1:		; VEX-NEXT: .LBB39_1:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1		; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
; VEX-NEXT: .LBB39_3:		; VEX-NEXT: .LBB39_3:
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB39_4		; VEX-NEXT: js .LBB39_4
; VEX-NEXT: # BB#5:		; VEX-NEXT: # BB#5:
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: jmp .LBB39_6		; VEX-NEXT: jmp .LBB39_6
; VEX-NEXT: .LBB39_4:		; VEX-NEXT: .LBB39_4:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0		; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
; VEX-NEXT: .LBB39_6:		; VEX-NEXT: .LBB39_6:
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB39_8		; VEX-NEXT: js .LBB39_8
; VEX-NEXT: # BB#7:		; VEX-NEXT: # BB#7:
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: .LBB39_8:		; VEX-NEXT: .LBB39_8:
; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_2i64_to_4f32:		; AVX512F-LABEL: uitofp_2i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_2i64_to_4f32:		; AVX512VL-LABEL: uitofp_2i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: uitofp_2i64_to_4f32:		; AVX512DQ-LABEL: uitofp_2i64_to_4f32:
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: uitofp_2i64_to_2f32:		; VEX-LABEL: uitofp_2i64_to_2f32:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB40_1		; VEX-NEXT: js .LBB40_1
; VEX-NEXT: # BB#2:		; VEX-NEXT: # BB#2:
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: jmp .LBB40_3		; VEX-NEXT: jmp .LBB40_3
; VEX-NEXT: .LBB40_1:		; VEX-NEXT: .LBB40_1:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1		; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
; VEX-NEXT: .LBB40_3:		; VEX-NEXT: .LBB40_3:
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB40_4		; VEX-NEXT: js .LBB40_4
; VEX-NEXT: # BB#5:		; VEX-NEXT: # BB#5:
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
; VEX-NEXT: retq		; VEX-NEXT: retq
; VEX-NEXT: .LBB40_4:		; VEX-NEXT: .LBB40_4:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0		; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_2i64_to_2f32:		; AVX512F-LABEL: uitofp_2i64_to_2f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_2i64_to_2f32:		; AVX512VL-LABEL: uitofp_2i64_to_2f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; AVX512VL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: uitofp_2i64_to_2f32:		; AVX512DQ-LABEL: uitofp_2i64_to_2f32:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: uitofp_4i64_to_4f32_undef:		; VEX-LABEL: uitofp_4i64_to_4f32_undef:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB41_1		; VEX-NEXT: js .LBB41_1
; VEX-NEXT: # BB#2:		; VEX-NEXT: # BB#2:
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: jmp .LBB41_3		; VEX-NEXT: jmp .LBB41_3
; VEX-NEXT: .LBB41_1:		; VEX-NEXT: .LBB41_1:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1		; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
; VEX-NEXT: .LBB41_3:		; VEX-NEXT: .LBB41_3:
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB41_4		; VEX-NEXT: js .LBB41_4
; VEX-NEXT: # BB#5:		; VEX-NEXT: # BB#5:
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: jmp .LBB41_6		; VEX-NEXT: jmp .LBB41_6
; VEX-NEXT: .LBB41_4:		; VEX-NEXT: .LBB41_4:
; VEX-NEXT: movq %rax, %rcx		; VEX-NEXT: movq %rax, %rcx
; VEX-NEXT: shrq %rcx		; VEX-NEXT: shrq %rcx
; VEX-NEXT: andl $1, %eax		; VEX-NEXT: andl $1, %eax
; VEX-NEXT: orq %rcx, %rax		; VEX-NEXT: orq %rcx, %rax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0		; VEX-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; VEX-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0		; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
; VEX-NEXT: .LBB41_6:		; VEX-NEXT: .LBB41_6:
; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; VEX-NEXT: testq %rax, %rax		; VEX-NEXT: testq %rax, %rax
; VEX-NEXT: js .LBB41_8		; VEX-NEXT: js .LBB41_8
; VEX-NEXT: # BB#7:		; VEX-NEXT: # BB#7:
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; VEX-NEXT: .LBB41_8:		; VEX-NEXT: .LBB41_8:
; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:		; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_4i64_to_4f32_undef:		; AVX512VL-LABEL: uitofp_4i64_to_4f32_undef:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: uitofp_4i64_to_4f32_undef:		; AVX512DQ-LABEL: uitofp_4i64_to_4f32_undef:
▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines

define <4 x float> @uitofp_4i64_to_4f32(<4 x i64> %a) {		define <4 x float> @uitofp_4i64_to_4f32(<4 x i64> %a) {
; SSE-LABEL: uitofp_4i64_to_4f32:		; SSE-LABEL: uitofp_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_1		; SSE-NEXT: js .LBB47_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
		; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: jmp .LBB47_3		; SSE-NEXT: jmp .LBB47_3
; SSE-NEXT: .LBB47_1:		; SSE-NEXT: .LBB47_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: addss %xmm3, %xmm3		; SSE-NEXT: addss %xmm3, %xmm3
; SSE-NEXT: .LBB47_3:		; SSE-NEXT: .LBB47_3:
; SSE-NEXT: movd %xmm0, %rax		; SSE-NEXT: movd %xmm0, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_4		; SSE-NEXT: js .LBB47_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: jmp .LBB47_6		; SSE-NEXT: jmp .LBB47_6
; SSE-NEXT: .LBB47_4:		; SSE-NEXT: .LBB47_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: addss %xmm2, %xmm2		; SSE-NEXT: addss %xmm2, %xmm2
; SSE-NEXT: .LBB47_6:		; SSE-NEXT: .LBB47_6:
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB47_7		; SSE-NEXT: js .LBB47_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
Show All 33 Lines
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: uitofp_4i64_to_4f32:		; AVX1-LABEL: uitofp_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB47_1		; AVX1-NEXT: js .LBB47_1
; AVX1-NEXT: # BB#2:		; AVX1-NEXT: # BB#2:
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: jmp .LBB47_3		; AVX1-NEXT: jmp .LBB47_3
; AVX1-NEXT: .LBB47_1:		; AVX1-NEXT: .LBB47_1:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX1-NEXT: .LBB47_3:		; AVX1-NEXT: .LBB47_3:
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB47_4		; AVX1-NEXT: js .LBB47_4
; AVX1-NEXT: # BB#5:		; AVX1-NEXT: # BB#5:
		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB47_6		; AVX1-NEXT: jmp .LBB47_6
; AVX1-NEXT: .LBB47_4:		; AVX1-NEXT: .LBB47_4:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB47_6:		; AVX1-NEXT: .LBB47_6:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB47_7		; AVX1-NEXT: js .LBB47_7
; AVX1-NEXT: # BB#8:		; AVX1-NEXT: # BB#8:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB47_9		; AVX1-NEXT: jmp .LBB47_9
; AVX1-NEXT: .LBB47_7:		; AVX1-NEXT: .LBB47_7:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB47_9:		; AVX1-NEXT: .LBB47_9:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB47_10		; AVX1-NEXT: js .LBB47_10
; AVX1-NEXT: # BB#11:		; AVX1-NEXT: # BB#11:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
; AVX1-NEXT: .LBB47_10:		; AVX1-NEXT: .LBB47_10:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: uitofp_4i64_to_4f32:		; AVX2-LABEL: uitofp_4i64_to_4f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB47_1		; AVX2-NEXT: js .LBB47_1
; AVX2-NEXT: # BB#2:		; AVX2-NEXT: # BB#2:
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: jmp .LBB47_3		; AVX2-NEXT: jmp .LBB47_3
; AVX2-NEXT: .LBB47_1:		; AVX2-NEXT: .LBB47_1:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX2-NEXT: .LBB47_3:		; AVX2-NEXT: .LBB47_3:
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB47_4		; AVX2-NEXT: js .LBB47_4
; AVX2-NEXT: # BB#5:		; AVX2-NEXT: # BB#5:
		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB47_6		; AVX2-NEXT: jmp .LBB47_6
; AVX2-NEXT: .LBB47_4:		; AVX2-NEXT: .LBB47_4:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB47_6:		; AVX2-NEXT: .LBB47_6:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB47_7		; AVX2-NEXT: js .LBB47_7
; AVX2-NEXT: # BB#8:		; AVX2-NEXT: # BB#8:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB47_9		; AVX2-NEXT: jmp .LBB47_9
; AVX2-NEXT: .LBB47_7:		; AVX2-NEXT: .LBB47_7:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB47_9:		; AVX2-NEXT: .LBB47_9:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB47_10		; AVX2-NEXT: js .LBB47_10
; AVX2-NEXT: # BB#11:		; AVX2-NEXT: # BB#11:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
; AVX2-NEXT: .LBB47_10:		; AVX2-NEXT: .LBB47_10:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0		; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_4i64_to_4f32:		; AVX512F-LABEL: uitofp_4i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_4i64_to_4f32:		; AVX512VL-LABEL: uitofp_4i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
; Load Signed Integer to Double		; Load Signed Integer to Double
;		;

define <2 x double> @sitofp_load_2i64_to_2f64(<2 x i64> *%a) {		define <2 x double> @sitofp_load_2i64_to_2f64(<2 x i64> *%a) {
; SSE-LABEL: sitofp_load_2i64_to_2f64:		; SSE-LABEL: sitofp_load_2i64_to_2f64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2sdq %rax, %xmm1		; SSE-NEXT: cvtsi2sdq %rax, %xmm1
; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: sitofp_load_2i64_to_2f64:		; VEX-LABEL: sitofp_load_2i64_to_2f64:
; VEX: # BB#0:		; VEX: # BB#0:
; VEX-NEXT: vmovdqa (%rdi), %xmm0		; VEX-NEXT: vmovdqa (%rdi), %xmm0
; VEX-NEXT: vpextrq $1, %xmm0, %rax		; VEX-NEXT: vpextrq $1, %xmm0, %rax
; VEX-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; VEX-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; VEX-NEXT: vmovq %xmm0, %rax		; VEX-NEXT: vmovq %xmm0, %rax
; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; VEX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; VEX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_load_2i64_to_2f64:		; AVX512F-LABEL: sitofp_load_2i64_to_2f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %xmm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_load_2i64_to_2f64:		; AVX512VL-LABEL: sitofp_load_2i64_to_2f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0		; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: sitofp_load_2i64_to_2f64:		; AVX512DQ-LABEL: sitofp_load_2i64_to_2f64:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: vmovaps (%rdi), %xmm0		; AVX512DQ-NEXT: vmovaps (%rdi), %xmm0
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
}		}

define <4 x double> @sitofp_load_4i64_to_4f64(<4 x i64> *%a) {		define <4 x double> @sitofp_load_4i64_to_4f64(<4 x i64> *%a) {
; SSE-LABEL: sitofp_load_4i64_to_4f64:		; SSE-LABEL: sitofp_load_4i64_to_4f64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm2		; SSE-NEXT: movdqa 16(%rdi), %xmm2
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2sdq %rax, %xmm1		; SSE-NEXT: cvtsi2sdq %rax, %xmm1
; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2sdq %rax, %xmm1		; SSE-NEXT: cvtsi2sdq %rax, %xmm1
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2sdq %rax, %xmm2		; SSE-NEXT: cvtsi2sdq %rax, %xmm2
; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_load_4i64_to_4f64:		; AVX1-LABEL: sitofp_load_4i64_to_4f64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovaps (%rdi), %ymm0		; AVX1-NEXT: vmovaps (%rdi), %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpextrq $1, %xmm1, %rax		; AVX1-NEXT: vpextrq $1, %xmm1, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX1-NEXT: vmovq %xmm1, %rax		; AVX1-NEXT: vmovq %xmm1, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sitofp_load_4i64_to_4f64:		; AVX2-LABEL: sitofp_load_4i64_to_4f64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpextrq $1, %xmm1, %rax		; AVX2-NEXT: vpextrq $1, %xmm1, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX2-NEXT: vmovq %xmm1, %rax		; AVX2-NEXT: vmovq %xmm1, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_load_4i64_to_4f64:		; AVX512F-LABEL: sitofp_load_4i64_to_4f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_load_4i64_to_4f64:		; AVX512VL-LABEL: sitofp_load_4i64_to_4f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
; VEX-NEXT: vsubpd %xmm3, %xmm0, %xmm0		; VEX-NEXT: vsubpd %xmm3, %xmm0, %xmm0
; VEX-NEXT: vhaddpd %xmm0, %xmm2, %xmm0		; VEX-NEXT: vhaddpd %xmm0, %xmm2, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_load_2i64_to_2f64:		; AVX512F-LABEL: uitofp_load_2i64_to_2f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %xmm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_load_2i64_to_2f64:		; AVX512VL-LABEL: uitofp_load_2i64_to_2f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0		; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512DQ-LABEL: uitofp_load_2i64_to_2f64:		; AVX512DQ-LABEL: uitofp_load_2i64_to_2f64:
; AVX512DQ: # BB#0:		; AVX512DQ: # BB#0:
; AVX512DQ-NEXT: vmovaps (%rdi), %xmm0		; AVX512DQ-NEXT: vmovaps (%rdi), %xmm0
▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_load_4i64_to_4f64:		; AVX512F-LABEL: uitofp_load_4i64_to_4f64:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_load_4i64_to_4f64:		; AVX512VL-LABEL: uitofp_load_4i64_to_4f64:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]		; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
;		;

define <4 x float> @sitofp_load_4i64_to_4f32(<4 x i64> *%a) {		define <4 x float> @sitofp_load_4i64_to_4f32(<4 x i64> *%a) {
; SSE-LABEL: sitofp_load_4i64_to_4f32:		; SSE-LABEL: sitofp_load_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm2		; SSE-NEXT: movdqa 16(%rdi), %xmm2
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
		; SSE-NEXT: xorps %xmm3, %xmm3
; SSE-NEXT: cvtsi2ssq %rax, %xmm3		; SSE-NEXT: cvtsi2ssq %rax, %xmm3
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsi2ssq %rax, %xmm1		; SSE-NEXT: cvtsi2ssq %rax, %xmm1
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_load_4i64_to_4f32:		; AVX1-LABEL: sitofp_load_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sitofp_load_4i64_to_4f32:		; AVX2-LABEL: sitofp_load_4i64_to_4f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_load_4i64_to_4f32:		; AVX512F-LABEL: sitofp_load_4i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_load_4i64_to_4f32:		; AVX512VL-LABEL: sitofp_load_4i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
define <8 x float> @sitofp_load_8i64_to_8f32(<8 x i64> *%a) {		define <8 x float> @sitofp_load_8i64_to_8f32(<8 x i64> *%a) {
; SSE-LABEL: sitofp_load_8i64_to_8f32:		; SSE-LABEL: sitofp_load_8i64_to_8f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm2		; SSE-NEXT: movdqa 16(%rdi), %xmm2
; SSE-NEXT: movdqa 32(%rdi), %xmm3		; SSE-NEXT: movdqa 32(%rdi), %xmm3
; SSE-NEXT: movdqa 48(%rdi), %xmm4		; SSE-NEXT: movdqa 48(%rdi), %xmm4
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
		; SSE-NEXT: xorps %xmm5, %xmm5
; SSE-NEXT: cvtsi2ssq %rax, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm5
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1]
; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
; SSE-NEXT: xorps %xmm2, %xmm2		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
Show All 20 Lines
; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]		; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sitofp_load_8i64_to_8f32:		; AVX1-LABEL: sitofp_load_8i64_to_8f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vmovdqa 32(%rdi), %ymm1		; AVX1-NEXT: vmovdqa 32(%rdi), %ymm1
; AVX1-NEXT: vpextrq $1, %xmm1, %rax		; AVX1-NEXT: vpextrq $1, %xmm1, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX1-NEXT: vmovq %xmm1, %rax		; AVX1-NEXT: vmovq %xmm1, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vmovq %xmm1, %rax		; AVX1-NEXT: vmovq %xmm1, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
; AVX1-NEXT: vpextrq $1, %xmm1, %rax		; AVX1-NEXT: vpextrq $1, %xmm1, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
Show All 12 Lines
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: sitofp_load_8i64_to_8f32:		; AVX2-LABEL: sitofp_load_8i64_to_8f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1		; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1
; AVX2-NEXT: vpextrq $1, %xmm1, %rax		; AVX2-NEXT: vpextrq $1, %xmm1, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX2-NEXT: vmovq %xmm1, %rax		; AVX2-NEXT: vmovq %xmm1, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
; AVX2-NEXT: vmovq %xmm1, %rax		; AVX2-NEXT: vmovq %xmm1, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
; AVX2-NEXT: vpextrq $1, %xmm1, %rax		; AVX2-NEXT: vpextrq $1, %xmm1, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
Show All 12 Lines
; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: sitofp_load_8i64_to_8f32:		; AVX512F-LABEL: sitofp_load_8i64_to_8f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2		; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2
; AVX512F-NEXT: vmovq %xmm2, %rax		; AVX512F-NEXT: vmovq %xmm2, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm2, %rax		; AVX512F-NEXT: vpextrq $1, %xmm2, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0		; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0		; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: sitofp_load_8i64_to_8f32:		; AVX512VL-LABEL: sitofp_load_8i64_to_8f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2		; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2
; AVX512VL-NEXT: vmovq %xmm2, %rax		; AVX512VL-NEXT: vmovq %xmm2, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3		; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
; SSE-LABEL: uitofp_load_4i64_to_4f32:		; SSE-LABEL: uitofp_load_4i64_to_4f32:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm3		; SSE-NEXT: movdqa 16(%rdi), %xmm3
; SSE-NEXT: movd %xmm3, %rax		; SSE-NEXT: movd %xmm3, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_1		; SSE-NEXT: js .LBB76_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: jmp .LBB76_3		; SSE-NEXT: jmp .LBB76_3
; SSE-NEXT: .LBB76_1:		; SSE-NEXT: .LBB76_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: cvtsi2ssq %rax, %xmm2		; SSE-NEXT: cvtsi2ssq %rax, %xmm2
; SSE-NEXT: addss %xmm2, %xmm2		; SSE-NEXT: addss %xmm2, %xmm2
; SSE-NEXT: .LBB76_3:		; SSE-NEXT: .LBB76_3:
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_4		; SSE-NEXT: js .LBB76_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: jmp .LBB76_6		; SSE-NEXT: jmp .LBB76_6
; SSE-NEXT: .LBB76_4:		; SSE-NEXT: .LBB76_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB76_6:		; SSE-NEXT: .LBB76_6:
; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
; SSE-NEXT: movd %xmm3, %rax		; SSE-NEXT: movd %xmm3, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB76_7		; SSE-NEXT: js .LBB76_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
Show All 33 Lines
;		;
; AVX1-LABEL: uitofp_load_4i64_to_4f32:		; AVX1-LABEL: uitofp_load_4i64_to_4f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB76_1		; AVX1-NEXT: js .LBB76_1
; AVX1-NEXT: # BB#2:		; AVX1-NEXT: # BB#2:
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: jmp .LBB76_3		; AVX1-NEXT: jmp .LBB76_3
; AVX1-NEXT: .LBB76_1:		; AVX1-NEXT: .LBB76_1:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX1-NEXT: .LBB76_3:		; AVX1-NEXT: .LBB76_3:
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB76_4		; AVX1-NEXT: js .LBB76_4
; AVX1-NEXT: # BB#5:		; AVX1-NEXT: # BB#5:
		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB76_6		; AVX1-NEXT: jmp .LBB76_6
; AVX1-NEXT: .LBB76_4:		; AVX1-NEXT: .LBB76_4:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB76_6:		; AVX1-NEXT: .LBB76_6:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB76_7		; AVX1-NEXT: js .LBB76_7
; AVX1-NEXT: # BB#8:		; AVX1-NEXT: # BB#8:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB76_9		; AVX1-NEXT: jmp .LBB76_9
; AVX1-NEXT: .LBB76_7:		; AVX1-NEXT: .LBB76_7:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB76_9:		; AVX1-NEXT: .LBB76_9:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB76_10		; AVX1-NEXT: js .LBB76_10
; AVX1-NEXT: # BB#11:		; AVX1-NEXT: # BB#11:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
; AVX1-NEXT: .LBB76_10:		; AVX1-NEXT: .LBB76_10:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: uitofp_load_4i64_to_4f32:		; AVX2-LABEL: uitofp_load_4i64_to_4f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB76_1		; AVX2-NEXT: js .LBB76_1
; AVX2-NEXT: # BB#2:		; AVX2-NEXT: # BB#2:
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: jmp .LBB76_3		; AVX2-NEXT: jmp .LBB76_3
; AVX2-NEXT: .LBB76_1:		; AVX2-NEXT: .LBB76_1:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX2-NEXT: .LBB76_3:		; AVX2-NEXT: .LBB76_3:
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB76_4		; AVX2-NEXT: js .LBB76_4
; AVX2-NEXT: # BB#5:		; AVX2-NEXT: # BB#5:
		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB76_6		; AVX2-NEXT: jmp .LBB76_6
; AVX2-NEXT: .LBB76_4:		; AVX2-NEXT: .LBB76_4:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB76_6:		; AVX2-NEXT: .LBB76_6:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB76_7		; AVX2-NEXT: js .LBB76_7
; AVX2-NEXT: # BB#8:		; AVX2-NEXT: # BB#8:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB76_9		; AVX2-NEXT: jmp .LBB76_9
; AVX2-NEXT: .LBB76_7:		; AVX2-NEXT: .LBB76_7:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB76_9:		; AVX2-NEXT: .LBB76_9:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB76_10		; AVX2-NEXT: js .LBB76_10
; AVX2-NEXT: # BB#11:		; AVX2-NEXT: # BB#11:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
; AVX2-NEXT: .LBB76_10:		; AVX2-NEXT: .LBB76_10:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0		; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_load_4i64_to_4f32:		; AVX512F-LABEL: uitofp_load_4i64_to_4f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512F-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0		; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_load_4i64_to_4f32:		; AVX512VL-LABEL: uitofp_load_4i64_to_4f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1		; AVX512VL-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0		; AVX512VL-NEXT: vextracti32x4 $1, %ymm0, %xmm0
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
; SSE-NEXT: movdqa (%rdi), %xmm1		; SSE-NEXT: movdqa (%rdi), %xmm1
; SSE-NEXT: movdqa 16(%rdi), %xmm5		; SSE-NEXT: movdqa 16(%rdi), %xmm5
; SSE-NEXT: movdqa 32(%rdi), %xmm2		; SSE-NEXT: movdqa 32(%rdi), %xmm2
; SSE-NEXT: movdqa 48(%rdi), %xmm3		; SSE-NEXT: movdqa 48(%rdi), %xmm3
; SSE-NEXT: movd %xmm5, %rax		; SSE-NEXT: movd %xmm5, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_1		; SSE-NEXT: js .LBB80_1
; SSE-NEXT: # BB#2:		; SSE-NEXT: # BB#2:
		; SSE-NEXT: xorps %xmm4, %xmm4
; SSE-NEXT: cvtsi2ssq %rax, %xmm4		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
; SSE-NEXT: jmp .LBB80_3		; SSE-NEXT: jmp .LBB80_3
; SSE-NEXT: .LBB80_1:		; SSE-NEXT: .LBB80_1:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm4, %xmm4
; SSE-NEXT: cvtsi2ssq %rax, %xmm4		; SSE-NEXT: cvtsi2ssq %rax, %xmm4
; SSE-NEXT: addss %xmm4, %xmm4		; SSE-NEXT: addss %xmm4, %xmm4
; SSE-NEXT: .LBB80_3:		; SSE-NEXT: .LBB80_3:
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_4		; SSE-NEXT: js .LBB80_4
; SSE-NEXT: # BB#5:		; SSE-NEXT: # BB#5:
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: jmp .LBB80_6		; SSE-NEXT: jmp .LBB80_6
; SSE-NEXT: .LBB80_4:		; SSE-NEXT: .LBB80_4:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: addss %xmm0, %xmm0		; SSE-NEXT: addss %xmm0, %xmm0
; SSE-NEXT: .LBB80_6:		; SSE-NEXT: .LBB80_6:
; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm5 = xmm5[2,3,0,1]
; SSE-NEXT: movd %xmm5, %rax		; SSE-NEXT: movd %xmm5, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_7		; SSE-NEXT: js .LBB80_7
; SSE-NEXT: # BB#8:		; SSE-NEXT: # BB#8:
		; SSE-NEXT: xorps %xmm6, %xmm6
; SSE-NEXT: cvtsi2ssq %rax, %xmm6		; SSE-NEXT: cvtsi2ssq %rax, %xmm6
; SSE-NEXT: jmp .LBB80_9		; SSE-NEXT: jmp .LBB80_9
; SSE-NEXT: .LBB80_7:		; SSE-NEXT: .LBB80_7:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm6, %xmm6
; SSE-NEXT: cvtsi2ssq %rax, %xmm6		; SSE-NEXT: cvtsi2ssq %rax, %xmm6
; SSE-NEXT: addss %xmm6, %xmm6		; SSE-NEXT: addss %xmm6, %xmm6
; SSE-NEXT: .LBB80_9:		; SSE-NEXT: .LBB80_9:
; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE-NEXT: movd %xmm1, %rax		; SSE-NEXT: movd %xmm1, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_10		; SSE-NEXT: js .LBB80_10
; SSE-NEXT: # BB#11:		; SSE-NEXT: # BB#11:
; SSE-NEXT: xorps %xmm5, %xmm5		; SSE-NEXT: xorps %xmm5, %xmm5
; SSE-NEXT: cvtsi2ssq %rax, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm5
; SSE-NEXT: jmp .LBB80_12		; SSE-NEXT: jmp .LBB80_12
; SSE-NEXT: .LBB80_10:		; SSE-NEXT: .LBB80_10:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
; SSE-NEXT: xorps %xmm5, %xmm5		; SSE-NEXT: xorps %xmm5, %xmm5
; SSE-NEXT: cvtsi2ssq %rax, %xmm5		; SSE-NEXT: cvtsi2ssq %rax, %xmm5
; SSE-NEXT: addss %xmm5, %xmm5		; SSE-NEXT: addss %xmm5, %xmm5
; SSE-NEXT: .LBB80_12:		; SSE-NEXT: .LBB80_12:
; SSE-NEXT: movd %xmm3, %rax		; SSE-NEXT: movd %xmm3, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_13		; SSE-NEXT: js .LBB80_13
; SSE-NEXT: # BB#14:		; SSE-NEXT: # BB#14:
		; SSE-NEXT: xorps %xmm7, %xmm7
; SSE-NEXT: cvtsi2ssq %rax, %xmm7		; SSE-NEXT: cvtsi2ssq %rax, %xmm7
; SSE-NEXT: jmp .LBB80_15		; SSE-NEXT: jmp .LBB80_15
; SSE-NEXT: .LBB80_13:		; SSE-NEXT: .LBB80_13:
; SSE-NEXT: movq %rax, %rcx		; SSE-NEXT: movq %rax, %rcx
; SSE-NEXT: shrq %rcx		; SSE-NEXT: shrq %rcx
; SSE-NEXT: andl $1, %eax		; SSE-NEXT: andl $1, %eax
; SSE-NEXT: orq %rcx, %rax		; SSE-NEXT: orq %rcx, %rax
		; SSE-NEXT: xorps %xmm7, %xmm7
; SSE-NEXT: cvtsi2ssq %rax, %xmm7		; SSE-NEXT: cvtsi2ssq %rax, %xmm7
; SSE-NEXT: addss %xmm7, %xmm7		; SSE-NEXT: addss %xmm7, %xmm7
; SSE-NEXT: .LBB80_15:		; SSE-NEXT: .LBB80_15:
; SSE-NEXT: movd %xmm2, %rax		; SSE-NEXT: movd %xmm2, %rax
; SSE-NEXT: testq %rax, %rax		; SSE-NEXT: testq %rax, %rax
; SSE-NEXT: js .LBB80_16		; SSE-NEXT: js .LBB80_16
; SSE-NEXT: # BB#17:		; SSE-NEXT: # BB#17:
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
; AVX1-LABEL: uitofp_load_8i64_to_8f32:		; AVX1-LABEL: uitofp_load_8i64_to_8f32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovdqa (%rdi), %ymm0
; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2		; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2
; AVX1-NEXT: vpextrq $1, %xmm2, %rax		; AVX1-NEXT: vpextrq $1, %xmm2, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_1		; AVX1-NEXT: js .LBB80_1
; AVX1-NEXT: # BB#2:		; AVX1-NEXT: # BB#2:
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: jmp .LBB80_3		; AVX1-NEXT: jmp .LBB80_3
; AVX1-NEXT: .LBB80_1:		; AVX1-NEXT: .LBB80_1:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX1-NEXT: .LBB80_3:		; AVX1-NEXT: .LBB80_3:
; AVX1-NEXT: vmovq %xmm2, %rax		; AVX1-NEXT: vmovq %xmm2, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_4		; AVX1-NEXT: js .LBB80_4
; AVX1-NEXT: # BB#5:		; AVX1-NEXT: # BB#5:
		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX1-NEXT: jmp .LBB80_6		; AVX1-NEXT: jmp .LBB80_6
; AVX1-NEXT: .LBB80_4:		; AVX1-NEXT: .LBB80_4:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3		; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3
; AVX1-NEXT: .LBB80_6:		; AVX1-NEXT: .LBB80_6:
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
; AVX1-NEXT: vmovq %xmm2, %rax		; AVX1-NEXT: vmovq %xmm2, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_7		; AVX1-NEXT: js .LBB80_7
; AVX1-NEXT: # BB#8:		; AVX1-NEXT: # BB#8:
		; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
; AVX1-NEXT: jmp .LBB80_9		; AVX1-NEXT: jmp .LBB80_9
; AVX1-NEXT: .LBB80_7:		; AVX1-NEXT: .LBB80_7:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm4, %xmm4, %xmm4
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
; AVX1-NEXT: vaddss %xmm4, %xmm4, %xmm4		; AVX1-NEXT: vaddss %xmm4, %xmm4, %xmm4
; AVX1-NEXT: .LBB80_9:		; AVX1-NEXT: .LBB80_9:
; AVX1-NEXT: vpextrq $1, %xmm2, %rax		; AVX1-NEXT: vpextrq $1, %xmm2, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_10		; AVX1-NEXT: js .LBB80_10
; AVX1-NEXT: # BB#11:		; AVX1-NEXT: # BB#11:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB80_12		; AVX1-NEXT: jmp .LBB80_12
; AVX1-NEXT: .LBB80_10:		; AVX1-NEXT: .LBB80_10:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB80_12:		; AVX1-NEXT: .LBB80_12:
; AVX1-NEXT: vpextrq $1, %xmm0, %rax		; AVX1-NEXT: vpextrq $1, %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_13		; AVX1-NEXT: js .LBB80_13
; AVX1-NEXT: # BB#14:		; AVX1-NEXT: # BB#14:
		; AVX1-NEXT: vxorps %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
; AVX1-NEXT: jmp .LBB80_15		; AVX1-NEXT: jmp .LBB80_15
; AVX1-NEXT: .LBB80_13:		; AVX1-NEXT: .LBB80_13:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
		; AVX1-NEXT: vxorps %xmm5, %xmm5, %xmm5
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
; AVX1-NEXT: vaddss %xmm5, %xmm5, %xmm5		; AVX1-NEXT: vaddss %xmm5, %xmm5, %xmm5
; AVX1-NEXT: .LBB80_15:		; AVX1-NEXT: .LBB80_15:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_16		; AVX1-NEXT: js .LBB80_16
; AVX1-NEXT: # BB#17:		; AVX1-NEXT: # BB#17:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX1-NEXT: jmp .LBB80_18		; AVX1-NEXT: jmp .LBB80_18
; AVX1-NEXT: .LBB80_16:		; AVX1-NEXT: .LBB80_16:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3		; AVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3		; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3
; AVX1-NEXT: .LBB80_18:		; AVX1-NEXT: .LBB80_18:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
; AVX1-NEXT: vmovq %xmm4, %rax		; AVX1-NEXT: vmovq %xmm4, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_19		; AVX1-NEXT: js .LBB80_19
; AVX1-NEXT: # BB#20:		; AVX1-NEXT: # BB#20:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm5		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm5
; AVX1-NEXT: jmp .LBB80_21		; AVX1-NEXT: jmp .LBB80_21
; AVX1-NEXT: .LBB80_19:		; AVX1-NEXT: .LBB80_19:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0		; AVX1-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm5		; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm5
; AVX1-NEXT: .LBB80_21:		; AVX1-NEXT: .LBB80_21:
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]
; AVX1-NEXT: vpextrq $1, %xmm4, %rax		; AVX1-NEXT: vpextrq $1, %xmm4, %rax
; AVX1-NEXT: testq %rax, %rax		; AVX1-NEXT: testq %rax, %rax
; AVX1-NEXT: js .LBB80_22		; AVX1-NEXT: js .LBB80_22
; AVX1-NEXT: # BB#23:		; AVX1-NEXT: # BB#23:
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: jmp .LBB80_24		; AVX1-NEXT: jmp .LBB80_24
; AVX1-NEXT: .LBB80_22:		; AVX1-NEXT: .LBB80_22:
; AVX1-NEXT: movq %rax, %rcx		; AVX1-NEXT: movq %rax, %rcx
; AVX1-NEXT: shrq %rcx		; AVX1-NEXT: shrq %rcx
; AVX1-NEXT: andl $1, %eax		; AVX1-NEXT: andl $1, %eax
; AVX1-NEXT: orq %rcx, %rax		; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2		; AVX1-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: .LBB80_24:		; AVX1-NEXT: .LBB80_24:
; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: uitofp_load_8i64_to_8f32:		; AVX2-LABEL: uitofp_load_8i64_to_8f32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vmovdqa 32(%rdi), %ymm2		; AVX2-NEXT: vmovdqa 32(%rdi), %ymm2
; AVX2-NEXT: vpextrq $1, %xmm2, %rax		; AVX2-NEXT: vpextrq $1, %xmm2, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_1		; AVX2-NEXT: js .LBB80_1
; AVX2-NEXT: # BB#2:		; AVX2-NEXT: # BB#2:
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: jmp .LBB80_3		; AVX2-NEXT: jmp .LBB80_3
; AVX2-NEXT: .LBB80_1:		; AVX2-NEXT: .LBB80_1:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
; AVX2-NEXT: .LBB80_3:		; AVX2-NEXT: .LBB80_3:
; AVX2-NEXT: vmovq %xmm2, %rax		; AVX2-NEXT: vmovq %xmm2, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_4		; AVX2-NEXT: js .LBB80_4
; AVX2-NEXT: # BB#5:		; AVX2-NEXT: # BB#5:
		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX2-NEXT: jmp .LBB80_6		; AVX2-NEXT: jmp .LBB80_6
; AVX2-NEXT: .LBB80_4:		; AVX2-NEXT: .LBB80_4:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3		; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3
; AVX2-NEXT: .LBB80_6:		; AVX2-NEXT: .LBB80_6:
; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm2		; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm2
; AVX2-NEXT: vmovq %xmm2, %rax		; AVX2-NEXT: vmovq %xmm2, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_7		; AVX2-NEXT: js .LBB80_7
; AVX2-NEXT: # BB#8:		; AVX2-NEXT: # BB#8:
		; AVX2-NEXT: vxorps %xmm4, %xmm4, %xmm4
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
; AVX2-NEXT: jmp .LBB80_9		; AVX2-NEXT: jmp .LBB80_9
; AVX2-NEXT: .LBB80_7:		; AVX2-NEXT: .LBB80_7:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm4, %xmm4, %xmm4
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
; AVX2-NEXT: vaddss %xmm4, %xmm4, %xmm4		; AVX2-NEXT: vaddss %xmm4, %xmm4, %xmm4
; AVX2-NEXT: .LBB80_9:		; AVX2-NEXT: .LBB80_9:
; AVX2-NEXT: vpextrq $1, %xmm2, %rax		; AVX2-NEXT: vpextrq $1, %xmm2, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_10		; AVX2-NEXT: js .LBB80_10
; AVX2-NEXT: # BB#11:		; AVX2-NEXT: # BB#11:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB80_12		; AVX2-NEXT: jmp .LBB80_12
; AVX2-NEXT: .LBB80_10:		; AVX2-NEXT: .LBB80_10:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB80_12:		; AVX2-NEXT: .LBB80_12:
; AVX2-NEXT: vpextrq $1, %xmm0, %rax		; AVX2-NEXT: vpextrq $1, %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_13		; AVX2-NEXT: js .LBB80_13
; AVX2-NEXT: # BB#14:		; AVX2-NEXT: # BB#14:
		; AVX2-NEXT: vxorps %xmm5, %xmm5, %xmm5
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
; AVX2-NEXT: jmp .LBB80_15		; AVX2-NEXT: jmp .LBB80_15
; AVX2-NEXT: .LBB80_13:		; AVX2-NEXT: .LBB80_13:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
		; AVX2-NEXT: vxorps %xmm5, %xmm5, %xmm5
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
; AVX2-NEXT: vaddss %xmm5, %xmm5, %xmm5		; AVX2-NEXT: vaddss %xmm5, %xmm5, %xmm5
; AVX2-NEXT: .LBB80_15:		; AVX2-NEXT: .LBB80_15:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_16		; AVX2-NEXT: js .LBB80_16
; AVX2-NEXT: # BB#17:		; AVX2-NEXT: # BB#17:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX2-NEXT: jmp .LBB80_18		; AVX2-NEXT: jmp .LBB80_18
; AVX2-NEXT: .LBB80_16:		; AVX2-NEXT: .LBB80_16:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3		; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3		; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3
; AVX2-NEXT: .LBB80_18:		; AVX2-NEXT: .LBB80_18:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4
; AVX2-NEXT: vmovq %xmm4, %rax		; AVX2-NEXT: vmovq %xmm4, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_19		; AVX2-NEXT: js .LBB80_19
; AVX2-NEXT: # BB#20:		; AVX2-NEXT: # BB#20:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm5		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm5
; AVX2-NEXT: jmp .LBB80_21		; AVX2-NEXT: jmp .LBB80_21
; AVX2-NEXT: .LBB80_19:		; AVX2-NEXT: .LBB80_19:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0		; AVX2-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm0, %xmm0
; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm5		; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm5
; AVX2-NEXT: .LBB80_21:		; AVX2-NEXT: .LBB80_21:
; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]
; AVX2-NEXT: vpextrq $1, %xmm4, %rax		; AVX2-NEXT: vpextrq $1, %xmm4, %rax
; AVX2-NEXT: testq %rax, %rax		; AVX2-NEXT: testq %rax, %rax
; AVX2-NEXT: js .LBB80_22		; AVX2-NEXT: js .LBB80_22
; AVX2-NEXT: # BB#23:		; AVX2-NEXT: # BB#23:
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: jmp .LBB80_24		; AVX2-NEXT: jmp .LBB80_24
; AVX2-NEXT: .LBB80_22:		; AVX2-NEXT: .LBB80_22:
; AVX2-NEXT: movq %rax, %rcx		; AVX2-NEXT: movq %rax, %rcx
; AVX2-NEXT: shrq %rcx		; AVX2-NEXT: shrq %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: orq %rcx, %rax		; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2		; AVX2-NEXT: vxorps %xmm2, %xmm2, %xmm2
		; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: .LBB80_24:		; AVX2-NEXT: .LBB80_24:
; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX2-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_load_8i64_to_8f32:		; AVX512F-LABEL: uitofp_load_8i64_to_8f32:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1
; AVX512F-NEXT: vpextrq $1, %xmm1, %rax		; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512F-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vmovq %xmm1, %rax		; AVX512F-NEXT: vmovq %xmm1, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm1
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2		; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2
; AVX512F-NEXT: vmovq %xmm2, %rax		; AVX512F-NEXT: vmovq %xmm2, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm3		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; AVX512F-NEXT: vpextrq $1, %xmm2, %rax		; AVX512F-NEXT: vpextrq $1, %xmm2, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0		; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0
; AVX512F-NEXT: vmovq %xmm0, %rax		; AVX512F-NEXT: vmovq %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
; AVX512F-NEXT: vpextrq $1, %xmm0, %rax		; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm0		; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm0
; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]		; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]
; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: uitofp_load_8i64_to_8f32:		; AVX512VL-LABEL: uitofp_load_8i64_to_8f32:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0		; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0
; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1		; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1
; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2		; AVX512VL-NEXT: vxorps %xmm4, %xmm4, %xmm4
		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vmovq %xmm1, %rax		; AVX512VL-NEXT: vmovq %xmm1, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm1
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2		; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2
; AVX512VL-NEXT: vmovq %xmm2, %rax		; AVX512VL-NEXT: vmovq %xmm2, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm3		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]		; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax		; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2
; AVX512VL-NEXT: vmovq %xmm0, %rax		; AVX512VL-NEXT: vmovq %xmm0, %rax
; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3		; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
▲ Show 20 Lines • Show All 233 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-sqrt.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=CHECK			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=CHECK

	; Function Attrs: nounwind readonly uwtable			; Function Attrs: nounwind readonly uwtable
	define <2 x double> @sqrtd2(double* nocapture readonly %v) local_unnamed_addr #0 {			define <2 x double> @sqrtd2(double* nocapture readonly %v) local_unnamed_addr #0 {
	; CHECK-LABEL: sqrtd2:			; CHECK-LABEL: sqrtd2:
	; CHECK: vsqrtsd (%rdi), %xmm0, %xmm0			; CHECK: vsqrtsd (%rdi), %xmm1, %xmm0
	; CHECK-NEXT: vsqrtsd 8(%rdi), %xmm1, %xmm1			; CHECK-NEXT: vsqrtsd 8(%rdi), %xmm1, %xmm1
	; CHECK-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; CHECK-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = load double, double* %v, align 8			%0 = load double, double* %v, align 8
	%call = tail call double @sqrt(double %0) #2			%call = tail call double @sqrt(double %0) #2
	%arrayidx1 = getelementptr inbounds double, double* %v, i64 1			%arrayidx1 = getelementptr inbounds double, double* %v, i64 1
	%1 = load double, double* %arrayidx1, align 8			%1 = load double, double* %arrayidx1, align 8
	%call2 = tail call double @sqrt(double %1) #2			%call2 = tail call double @sqrt(double %1) #2
	%vecinit.i = insertelement <2 x double> undef, double %call, i32 0			%vecinit.i = insertelement <2 x double> undef, double %call, i32 0
	%vecinit1.i = insertelement <2 x double> %vecinit.i, double %call2, i32 1			%vecinit1.i = insertelement <2 x double> %vecinit.i, double %call2, i32 1
	ret <2 x double> %vecinit1.i			ret <2 x double> %vecinit1.i
	}			}

	; Function Attrs: nounwind readnone			; Function Attrs: nounwind readnone
	declare double @sqrt(double) local_unnamed_addr #1			declare double @sqrt(double) local_unnamed_addr #1

	; Function Attrs: nounwind readonly uwtable			; Function Attrs: nounwind readonly uwtable
	define <4 x float> @sqrtf4(float* nocapture readonly %v) local_unnamed_addr #0 {			define <4 x float> @sqrtf4(float* nocapture readonly %v) local_unnamed_addr #0 {
	; CHECK-LABEL: sqrtf4:			; CHECK-LABEL: sqrtf4:
	; CHECK: vsqrtss (%rdi), %xmm0, %xmm0			; CHECK: vsqrtss (%rdi), %xmm3, %xmm0
	; CHECK-NEXT: vsqrtss 4(%rdi), %xmm1, %xmm1			; CHECK-NEXT: vsqrtss 4(%rdi), %xmm3, %xmm1
	; CHECK-NEXT: vsqrtss 8(%rdi), %xmm2, %xmm2			; CHECK-NEXT: vsqrtss 8(%rdi), %xmm3, %xmm2
	; CHECK-NEXT: vsqrtss 12(%rdi), %xmm3, %xmm3			; CHECK-NEXT: vsqrtss 12(%rdi), %xmm3, %xmm3
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
	; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]			; CHECK-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm3[0]
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = load float, float* %v, align 4			%0 = load float, float* %v, align 4
	%call = tail call float @sqrtf(float %0) #2			%call = tail call float @sqrtf(float %0) #2
	Show All 22 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[ExecutionDepsFix] Kill clearance at function entry/callsNeeds ReviewPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 85019

lib/CodeGen/ExecutionDepsFix.cpp

test/CodeGen/X86/avx-cvt.ll

test/CodeGen/X86/avx512-cvt.ll

test/CodeGen/X86/break-false-dep.ll

test/CodeGen/X86/combine-fcopysign.ll

test/CodeGen/X86/fold-load-unops.ll

test/CodeGen/X86/half.ll

test/CodeGen/X86/i64-to-float.ll

test/CodeGen/X86/isint.ll

test/CodeGen/X86/recip-fastmath.ll

test/CodeGen/X86/recip-fastmath2.ll

test/CodeGen/X86/sqrt-fastmath-tune.ll

test/CodeGen/X86/sqrt-fastmath.ll

test/CodeGen/X86/sse-scalar-fp-arith.ll

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

test/CodeGen/X86/sse_partial_update.ll

test/CodeGen/X86/uint64-to-float.ll

test/CodeGen/X86/uint_to_fp.ll

test/CodeGen/X86/vec_int_to_fp.ll

test/CodeGen/X86/vector-sqrt.ll

[ExecutionDepsFix] Kill clearance at function entry/calls
Needs ReviewPublic