This is an archive of the discontinued LLVM Phabricator instance.

[x86] use instruction-level fast-math-flags to drive MachineCombiner
ClosedPublic

Authored by spatel on Feb 19 2020, 10:32 AM.

Download Raw Diff

Details

Reviewers

mcberg2017
craig.topper
wristow
RKSimon

Commits

rG90fd859f51d7: [x86] use instruction-level fast-math-flags to drive MachineCombiner

Summary

The code changes here are hopefully straightforward:

Use SDAG node-level flags to decide if FP ops can be reassociated (use both "reassoc" and "nsz" to be consistent with IR transforms; we probably don't need "nsz", but that's a safer interpretation of the FMF).
Check that both nodes allow reassociation to change instructions. This is a stronger requirement than we've usually implemented in IR/DAG, but this is needed to solve the motivating bug (see below), and it seems unlikely to impede optimization at this late stage.
Intersect/propagate MachineIR flags to enable further reassociation in MachineCombiner.

We managed to make MachineCombiner flexible enough that no changes are needed to that pass itself. So this patch should only affect x86 (assuming no other targets have implemented the hooks using MachineIR flags yet).

The motivating example in PR43609 is another case of fast-math transforms interacting badly with special FP ops created by lowering:
https://bugs.llvm.org/show_bug.cgi?id=43609
The special fadd ops used for converting int to FP assume that they will not be altered, so those are created without FMF.

However, the MachineCombiner pass was being enabled for FP ops using the global/function-level TargetOption for "UnsafeFPMath". We managed to run instruction/node-level FMF all the way down to MachineIR sometime in the last 1-2 years though, so we can do better now.

The test diffs require some explanation:

llvm/test/CodeGen/X86/fmf-flags.ll - no target option for unsafe math was specified here, so MachineCombiner kicks in where it did not previously; to make it behave consistently, we need to specify a CPU schedule model, so use the default model, and there are no code diffs.
llvm/test/CodeGen/X86/machine-combiner.ll - replace the target option for unsafe math with the equivalent IR-level flags, and there are no code diffs; we can't remove the NaN/nsz options because those are still used to drive x86 fmin/fmax codegen (special SDAG opcodes).
llvm/test/CodeGen/X86/pow.ll - similar to #1
llvm/test/CodeGen/X86/sqrt-fastmath.ll - similar to #1/#3, but MachineCombiner does some reassociation of the estimate sequence ops; presumably these are perf wins based on latency/throughput (and we get some reduction of move instructions too); I'm not sure how it affects numerical accuracy, but the test reflects reality better now because we would expect MachineCombiner to be enabled if the IR was generated via something like "-ffast-math" with clang.
llvm/test/CodeGen/X86/vec_int_to_fp.ll - this is the test added to model PR43609; the fadds are not reassociated now, so we should get the expected results.
llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll - similar to #1
llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll - similar to #1

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

spatel created this revision.Feb 19 2020, 10:32 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 19 2020, 10:32 AM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

Ping.

All in all LGTM, will check back in bit to see what others have to say.

llvm/lib/Target/X86/X86InstrInfo.cpp
7661	The reassociate pass uses nsz too, and as a convention this seems fine.
7850	I like this as for us in the case when we have divergent FMF environments brought together via inlining, this preserves the bounds of expression interfacing, where neither model would incur on the other. Perhaps we should have a way to zap the int/float flags as a utility so that we can keep contexts separate in MachineInstr.h.

LGTM

This revision is now accepted and ready to land.Feb 26 2020, 7:09 PM

LGTM

Closed by commit rG90fd859f51d7: [x86] use instruction-level fast-math-flags to drive MachineCombiner (authored by spatel). · Explain WhyFeb 27 2020, 1:05 PM

This revision was automatically updated to reflect the committed changes.

craig.topper mentioned this in D135264: [MachineCombiner][RISCV] Enable MachineCombiner for RISCV.Oct 7 2022, 10:35 AM

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

TargetInstrInfo.cpp

9 lines

Target/

X86/

X86InstrInfo.cpp

17 lines

test/

CodeGen/

X86/

2 lines

158 lines

2 lines

155 lines

48 lines

vector-reduce-fadd-fast.ll

14 lines

vector-reduce-fmul-fast.ll

12 lines

Diff 247081

llvm/lib/CodeGen/TargetInstrInfo.cpp

Show First 20 Lines • Show All 693 Lines • ▼ Show 20 Lines	bool TargetInstrInfo::hasReassociableSibling(const MachineInstr &Inst,

// If only one operand has the same opcode and it's the second source operand,		// If only one operand has the same opcode and it's the second source operand,
// the operands must be commuted.		// the operands must be commuted.
Commuted = MI1->getOpcode() != AssocOpcode && MI2->getOpcode() == AssocOpcode;		Commuted = MI1->getOpcode() != AssocOpcode && MI2->getOpcode() == AssocOpcode;
if (Commuted)		if (Commuted)
std::swap(MI1, MI2);		std::swap(MI1, MI2);

// 1. The previous instruction must be the same type as Inst.		// 1. The previous instruction must be the same type as Inst.
// 2. The previous instruction must have virtual register definitions for its		// 2. The previous instruction must also be associative/commutative (this can
		// be different even for instructions with the same opcode if traits like
		// fast-math-flags are included).
		// 3. The previous instruction must have virtual register definitions for its
// operands in the same basic block as Inst.		// operands in the same basic block as Inst.
// 3. The previous instruction's result must only be used by Inst.		// 4. The previous instruction's result must only be used by Inst.
return MI1->getOpcode() == AssocOpcode &&		return MI1->getOpcode() == AssocOpcode && isAssociativeAndCommutative(*MI1) &&
hasReassociableOperands(*MI1, MBB) &&		hasReassociableOperands(*MI1, MBB) &&
MRI.hasOneNonDBGUse(MI1->getOperand(0).getReg());		MRI.hasOneNonDBGUse(MI1->getOperand(0).getReg());
}		}

// 1. The operation must be associative and commutative.		// 1. The operation must be associative and commutative.
// 2. The instruction must have virtual register definitions for its		// 2. The instruction must have virtual register definitions for its
// operands in the same basic block.		// operands in the same basic block.
// 3. The instruction must have a reassociable sibling.		// 3. The instruction must have a reassociable sibling.
▲ Show 20 Lines • Show All 604 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,651 Lines • ▼ Show 20 Lines	bool X86InstrInfo::isAssociativeAndCommutative(const MachineInstr &Inst) const {
case X86::VMULPDZ256rr:		case X86::VMULPDZ256rr:
case X86::VMULPSZ256rr:		case X86::VMULPSZ256rr:
case X86::VMULPDZrr:		case X86::VMULPDZrr:
case X86::VMULPSZrr:		case X86::VMULPSZrr:
case X86::VMULSDrr:		case X86::VMULSDrr:
case X86::VMULSSrr:		case X86::VMULSSrr:
case X86::VMULSDZrr:		case X86::VMULSDZrr:
case X86::VMULSSZrr:		case X86::VMULSSZrr:
return Inst.getParent()->getParent()->getTarget().Options.UnsafeFPMath;		return Inst.getFlag(MachineInstr::MIFlag::FmReassoc) &&
		Inst.getFlag(MachineInstr::MIFlag::FmNsz);
		mcberg2017Unsubmitted Not Done Reply Inline Actions The reassociate pass uses nsz too, and as a convention this seems fine. mcberg2017: The reassociate pass uses nsz too, and as a convention this seems fine.
default:		default:
return false;		return false;
}		}
}		}

/// If \p DescribedReg overlaps with the MOVrr instruction's destination		/// If \p DescribedReg overlaps with the MOVrr instruction's destination
/// register then, if possible, describe the value in terms of the source		/// register then, if possible, describe the value in terms of the source
/// register.		/// register.
▲ Show 20 Lines • Show All 169 Lines • ▼ Show 20 Lines
}		}

/// This is an architecture-specific helper function of reassociateOps.		/// This is an architecture-specific helper function of reassociateOps.
/// Set special operand attributes for new instructions after reassociation.		/// Set special operand attributes for new instructions after reassociation.
void X86InstrInfo::setSpecialOperandAttr(MachineInstr &OldMI1,		void X86InstrInfo::setSpecialOperandAttr(MachineInstr &OldMI1,
MachineInstr &OldMI2,		MachineInstr &OldMI2,
MachineInstr &NewMI1,		MachineInstr &NewMI1,
MachineInstr &NewMI2) const {		MachineInstr &NewMI2) const {
		// Propagate FP flags from the original instructions.
		// But clear poison-generating flags because those may not be valid now.
		// TODO: There should be a helper function for copying only fast-math-flags.
		uint16_t IntersectedFlags = OldMI1.getFlags() & OldMI2.getFlags();
		mcberg2017Unsubmitted Not Done Reply Inline Actions I like this as for us in the case when we have divergent FMF environments brought together via inlining, this preserves the bounds of expression interfacing, where neither model would incur on the other. Perhaps we should have a way to zap the int/float flags as a utility so that we can keep contexts separate in MachineInstr.h. mcberg2017: I like this as for us in the case when we have divergent FMF environments brought together via…
		NewMI1.setFlags(IntersectedFlags);
		NewMI1.clearFlag(MachineInstr::MIFlag::NoSWrap);
		NewMI1.clearFlag(MachineInstr::MIFlag::NoUWrap);
		NewMI1.clearFlag(MachineInstr::MIFlag::IsExact);

		NewMI2.setFlags(IntersectedFlags);
		NewMI2.clearFlag(MachineInstr::MIFlag::NoSWrap);
		NewMI2.clearFlag(MachineInstr::MIFlag::NoUWrap);
		NewMI2.clearFlag(MachineInstr::MIFlag::IsExact);

// Integer instructions may define an implicit EFLAGS dest register operand.		// Integer instructions may define an implicit EFLAGS dest register operand.
MachineOperand *OldFlagDef1 = OldMI1.findRegisterDefOperand(X86::EFLAGS);		MachineOperand *OldFlagDef1 = OldMI1.findRegisterDefOperand(X86::EFLAGS);
MachineOperand *OldFlagDef2 = OldMI2.findRegisterDefOperand(X86::EFLAGS);		MachineOperand *OldFlagDef2 = OldMI2.findRegisterDefOperand(X86::EFLAGS);

assert(!OldFlagDef1 == !OldFlagDef2 &&		assert(!OldFlagDef1 == !OldFlagDef2 &&
"Unexpected instruction type for reassociation");		"Unexpected instruction type for reassociation");

if (!OldFlagDef1 \|\| !OldFlagDef2)		if (!OldFlagDef1 \|\| !OldFlagDef2)
▲ Show 20 Lines • Show All 464 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fmf-flags.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s -check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 \| FileCheck %s -check-prefix=X64
	; RUN: llc < %s -mtriple=i686-unknown \| FileCheck %s -check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown \| FileCheck %s -check-prefix=X86

	declare float @llvm.sqrt.f32(float %x);			declare float @llvm.sqrt.f32(float %x);

	define float @fast_recip_sqrt(float %x) {			define float @fast_recip_sqrt(float %x) {
	; X64-LABEL: fast_recip_sqrt:			; X64-LABEL: fast_recip_sqrt:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: rsqrtss %xmm0, %xmm1			; X64-NEXT: rsqrtss %xmm0, %xmm1
	▲ Show 20 Lines • Show All 132 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/machine-combiner.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=sse -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefix=SSE			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=sse -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefix=SSE
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefixes=AVX,AVX1			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx512vl -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefixes=AVX,AVX512			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx512vl -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-verify-pattern-order=true < %s \| FileCheck %s --check-prefixes=AVX,AVX512

	; Incremental updates of the instruction depths should be enough for this test			; Incremental updates of the instruction depths should be enough for this test
	; case.			; case.
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=sse -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefix=SSE			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -mattr=sse -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefix=SSE
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefixes=AVX,AVX1			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -mattr=avx -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=avx512vl -enable-unsafe-fp-math -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefixes=AVX,AVX512			; RUN: llc -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -enable-no-nans-fp-math -enable-no-signed-zeros-fp-math -mattr=avx512vl -machine-combiner-inc-threshold=0 < %s \| FileCheck %s --check-prefixes=AVX,AVX512

	; Verify that the first two adds are independent regardless of how the inputs are			; Verify that the first two adds are independent regardless of how the inputs are
	; commuted. The destination registers are used as source registers for the third add.			; commuted. The destination registers are used as source registers for the third add.

	define float @reassociate_adds1(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_adds1(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_adds1:			; SSE-LABEL: reassociate_adds1:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addss %xmm1, %xmm0			; SSE-NEXT: addss %xmm1, %xmm0
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds1:			; AVX-LABEL: reassociate_adds1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd float %x0, %x1			%t0 = fadd reassoc nsz float %x0, %x1
	%t1 = fadd float %t0, %x2			%t1 = fadd reassoc nsz float %t0, %x2
	%t2 = fadd float %t1, %x3			%t2 = fadd reassoc nsz float %t1, %x3
	ret float %t2			ret float %t2
	}			}

	define float @reassociate_adds2(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_adds2(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_adds2:			; SSE-LABEL: reassociate_adds2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addss %xmm1, %xmm0			; SSE-NEXT: addss %xmm1, %xmm0
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds2:			; AVX-LABEL: reassociate_adds2:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd float %x0, %x1			%t0 = fadd reassoc nsz float %x0, %x1
	%t1 = fadd float %x2, %t0			%t1 = fadd reassoc nsz float %x2, %t0
	%t2 = fadd float %t1, %x3			%t2 = fadd reassoc nsz float %t1, %x3
	ret float %t2			ret float %t2
	}			}

	define float @reassociate_adds3(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_adds3(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_adds3:			; SSE-LABEL: reassociate_adds3:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addss %xmm1, %xmm0			; SSE-NEXT: addss %xmm1, %xmm0
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds3:			; AVX-LABEL: reassociate_adds3:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd float %x0, %x1			%t0 = fadd reassoc nsz float %x0, %x1
	%t1 = fadd float %t0, %x2			%t1 = fadd reassoc nsz float %t0, %x2
	%t2 = fadd float %x3, %t1			%t2 = fadd reassoc nsz float %x3, %t1
	ret float %t2			ret float %t2
	}			}

	define float @reassociate_adds4(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_adds4(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_adds4:			; SSE-LABEL: reassociate_adds4:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addss %xmm1, %xmm0			; SSE-NEXT: addss %xmm1, %xmm0
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds4:			; AVX-LABEL: reassociate_adds4:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd float %x0, %x1			%t0 = fadd reassoc nsz float %x0, %x1
	%t1 = fadd float %x2, %t0			%t1 = fadd reassoc nsz float %x2, %t0
	%t2 = fadd float %x3, %t1			%t2 = fadd reassoc nsz float %x3, %t1
	ret float %t2			ret float %t2
	}			}

	; Verify that we reassociate some of these ops. The optimal balanced tree of adds is not			; Verify that we reassociate some of these ops. The optimal balanced tree of adds is not
	; produced because that would cost more compile time.			; produced because that would cost more compile time.

	define float @reassociate_adds5(float %x0, float %x1, float %x2, float %x3, float %x4, float %x5, float %x6, float %x7) {			define float @reassociate_adds5(float %x0, float %x1, float %x2, float %x3, float %x4, float %x5, float %x6, float %x7) {
	; SSE-LABEL: reassociate_adds5:			; SSE-LABEL: reassociate_adds5:
	Show All 12 Lines
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm5, %xmm4, %xmm1			; AVX-NEXT: vaddss %xmm5, %xmm4, %xmm1
	; AVX-NEXT: vaddss %xmm6, %xmm1, %xmm1			; AVX-NEXT: vaddss %xmm6, %xmm1, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm7, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm7, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd float %x0, %x1			%t0 = fadd reassoc nsz float %x0, %x1
	%t1 = fadd float %t0, %x2			%t1 = fadd reassoc nsz float %t0, %x2
	%t2 = fadd float %t1, %x3			%t2 = fadd reassoc nsz float %t1, %x3
	%t3 = fadd float %t2, %x4			%t3 = fadd reassoc nsz float %t2, %x4
	%t4 = fadd float %t3, %x5			%t4 = fadd reassoc nsz float %t3, %x5
	%t5 = fadd float %t4, %x6			%t5 = fadd reassoc nsz float %t4, %x6
	%t6 = fadd float %t5, %x7			%t6 = fadd reassoc nsz float %t5, %x7
	ret float %t6			ret float %t6
	}			}

	; Verify that we only need two associative operations to reassociate the operands.			; Verify that we only need two associative operations to reassociate the operands.
	; Also, we should reassociate such that the result of the high latency division			; Also, we should reassociate such that the result of the high latency division
	; is used by the final 'add' rather than reassociating the %x3 operand with the			; is used by the final 'add' rather than reassociating the %x3 operand with the
	; division. The latter reassociation would not improve anything.			; division. The latter reassociation would not improve anything.

	define float @reassociate_adds6(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_adds6(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_adds6:			; SSE-LABEL: reassociate_adds6:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: divss %xmm1, %xmm0			; SSE-NEXT: divss %xmm1, %xmm0
	; SSE-NEXT: addss %xmm3, %xmm2			; SSE-NEXT: addss %xmm3, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm0			; SSE-NEXT: addss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds6:			; AVX-LABEL: reassociate_adds6:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fdiv float %x0, %x1			%t0 = fdiv reassoc nsz float %x0, %x1
	%t1 = fadd float %x2, %t0			%t1 = fadd reassoc nsz float %x2, %t0
	%t2 = fadd float %x3, %t1			%t2 = fadd reassoc nsz float %x3, %t1
	ret float %t2			ret float %t2
	}			}

	; Verify that SSE and AVX scalar single-precision multiplies are reassociated.			; Verify that SSE and AVX scalar single-precision multiplies are reassociated.

	define float @reassociate_muls1(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_muls1(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_muls1:			; SSE-LABEL: reassociate_muls1:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: divss %xmm1, %xmm0			; SSE-NEXT: divss %xmm1, %xmm0
	; SSE-NEXT: mulss %xmm3, %xmm2			; SSE-NEXT: mulss %xmm3, %xmm2
	; SSE-NEXT: mulss %xmm2, %xmm0			; SSE-NEXT: mulss %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls1:			; AVX-LABEL: reassociate_muls1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm1			; AVX-NEXT: vmulss %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fdiv float %x0, %x1			%t0 = fdiv reassoc nsz float %x0, %x1
	%t1 = fmul float %x2, %t0			%t1 = fmul reassoc nsz float %x2, %t0
	%t2 = fmul float %x3, %t1			%t2 = fmul reassoc nsz float %x3, %t1
	ret float %t2			ret float %t2
	}			}

	; Verify that SSE and AVX scalar double-precision adds are reassociated.			; Verify that SSE and AVX scalar double-precision adds are reassociated.

	define double @reassociate_adds_double(double %x0, double %x1, double %x2, double %x3) {			define double @reassociate_adds_double(double %x0, double %x1, double %x2, double %x3) {
	; SSE-LABEL: reassociate_adds_double:			; SSE-LABEL: reassociate_adds_double:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: divsd %xmm1, %xmm0			; SSE-NEXT: divsd %xmm1, %xmm0
	; SSE-NEXT: addsd %xmm3, %xmm2			; SSE-NEXT: addsd %xmm3, %xmm2
	; SSE-NEXT: addsd %xmm2, %xmm0			; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_adds_double:			; AVX-LABEL: reassociate_adds_double:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vdivsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vdivsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vaddsd %xmm3, %xmm2, %xmm1			; AVX-NEXT: vaddsd %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fdiv double %x0, %x1			%t0 = fdiv reassoc nsz double %x0, %x1
	%t1 = fadd double %x2, %t0			%t1 = fadd reassoc nsz double %x2, %t0
	%t2 = fadd double %x3, %t1			%t2 = fadd reassoc nsz double %x3, %t1
	ret double %t2			ret double %t2
	}			}

	; Verify that SSE and AVX scalar double-precision multiplies are reassociated.			; Verify that SSE and AVX scalar double-precision multiplies are reassociated.

	define double @reassociate_muls_double(double %x0, double %x1, double %x2, double %x3) {			define double @reassociate_muls_double(double %x0, double %x1, double %x2, double %x3) {
	; SSE-LABEL: reassociate_muls_double:			; SSE-LABEL: reassociate_muls_double:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: divsd %xmm1, %xmm0			; SSE-NEXT: divsd %xmm1, %xmm0
	; SSE-NEXT: mulsd %xmm3, %xmm2			; SSE-NEXT: mulsd %xmm3, %xmm2
	; SSE-NEXT: mulsd %xmm2, %xmm0			; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls_double:			; AVX-LABEL: reassociate_muls_double:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vdivsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vdivsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulsd %xmm3, %xmm2, %xmm1			; AVX-NEXT: vmulsd %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fdiv double %x0, %x1			%t0 = fdiv reassoc nsz double %x0, %x1
	%t1 = fmul double %x2, %t0			%t1 = fmul reassoc nsz double %x2, %t0
	%t2 = fmul double %x3, %t1			%t2 = fmul reassoc nsz double %x3, %t1
	ret double %t2			ret double %t2
	}			}

	; Verify that SSE and AVX 128-bit vector single-precision adds are reassociated.			; Verify that SSE and AVX 128-bit vector single-precision adds are reassociated.

	define <4 x float> @reassociate_adds_v4f32(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, <4 x float> %x3) {			define <4 x float> @reassociate_adds_v4f32(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, <4 x float> %x3) {
	; SSE-LABEL: reassociate_adds_v4f32:			; SSE-LABEL: reassociate_adds_v4f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 9 Lines
	; AVX1-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v4f32:			; AVX512-LABEL: reassociate_adds_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213ps {{.#+}} xmm0 = (xmm1 xmm0) + xmm2			; AVX512-NEXT: vfmadd213ps {{.#+}} xmm0 = (xmm1 xmm0) + xmm2
	; AVX512-NEXT: vaddps %xmm0, %xmm3, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm3, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <4 x float> %x0, %x1			%t0 = fmul reassoc nsz <4 x float> %x0, %x1
	%t1 = fadd <4 x float> %x2, %t0			%t1 = fadd reassoc nsz <4 x float> %x2, %t0
	%t2 = fadd <4 x float> %x3, %t1			%t2 = fadd reassoc nsz <4 x float> %x3, %t1
	ret <4 x float> %t2			ret <4 x float> %t2
	}			}

	; Verify that SSE and AVX 128-bit vector double-precision adds are reassociated.			; Verify that SSE and AVX 128-bit vector double-precision adds are reassociated.

	define <2 x double> @reassociate_adds_v2f64(<2 x double> %x0, <2 x double> %x1, <2 x double> %x2, <2 x double> %x3) {			define <2 x double> @reassociate_adds_v2f64(<2 x double> %x0, <2 x double> %x1, <2 x double> %x2, <2 x double> %x3) {
	; SSE-LABEL: reassociate_adds_v2f64:			; SSE-LABEL: reassociate_adds_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 9 Lines
	; AVX1-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v2f64:			; AVX512-LABEL: reassociate_adds_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213pd {{.#+}} xmm0 = (xmm1 xmm0) + xmm2			; AVX512-NEXT: vfmadd213pd {{.#+}} xmm0 = (xmm1 xmm0) + xmm2
	; AVX512-NEXT: vaddpd %xmm0, %xmm3, %xmm0			; AVX512-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <2 x double> %x0, %x1			%t0 = fmul reassoc nsz <2 x double> %x0, %x1
	%t1 = fadd <2 x double> %x2, %t0			%t1 = fadd reassoc nsz <2 x double> %x2, %t0
	%t2 = fadd <2 x double> %x3, %t1			%t2 = fadd reassoc nsz <2 x double> %x3, %t1
	ret <2 x double> %t2			ret <2 x double> %t2
	}			}

	; Verify that SSE and AVX 128-bit vector single-precision multiplies are reassociated.			; Verify that SSE and AVX 128-bit vector single-precision multiplies are reassociated.

	define <4 x float> @reassociate_muls_v4f32(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, <4 x float> %x3) {			define <4 x float> @reassociate_muls_v4f32(<4 x float> %x0, <4 x float> %x1, <4 x float> %x2, <4 x float> %x3) {
	; SSE-LABEL: reassociate_muls_v4f32:			; SSE-LABEL: reassociate_muls_v4f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addps %xmm1, %xmm0			; SSE-NEXT: addps %xmm1, %xmm0
	; SSE-NEXT: mulps %xmm3, %xmm2			; SSE-NEXT: mulps %xmm3, %xmm2
	; SSE-NEXT: mulps %xmm2, %xmm0			; SSE-NEXT: mulps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls_v4f32:			; AVX-LABEL: reassociate_muls_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulps %xmm3, %xmm2, %xmm1			; AVX-NEXT: vmulps %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd <4 x float> %x0, %x1			%t0 = fadd reassoc nsz <4 x float> %x0, %x1
	%t1 = fmul <4 x float> %x2, %t0			%t1 = fmul reassoc nsz <4 x float> %x2, %t0
	%t2 = fmul <4 x float> %x3, %t1			%t2 = fmul reassoc nsz <4 x float> %x3, %t1
	ret <4 x float> %t2			ret <4 x float> %t2
	}			}

	; Verify that SSE and AVX 128-bit vector double-precision multiplies are reassociated.			; Verify that SSE and AVX 128-bit vector double-precision multiplies are reassociated.

	define <2 x double> @reassociate_muls_v2f64(<2 x double> %x0, <2 x double> %x1, <2 x double> %x2, <2 x double> %x3) {			define <2 x double> @reassociate_muls_v2f64(<2 x double> %x0, <2 x double> %x1, <2 x double> %x2, <2 x double> %x3) {
	; SSE-LABEL: reassociate_muls_v2f64:			; SSE-LABEL: reassociate_muls_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: mulpd %xmm3, %xmm2			; SSE-NEXT: mulpd %xmm3, %xmm2
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls_v2f64:			; AVX-LABEL: reassociate_muls_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmulpd %xmm3, %xmm2, %xmm1			; AVX-NEXT: vmulpd %xmm3, %xmm2, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd <2 x double> %x0, %x1			%t0 = fadd reassoc nsz <2 x double> %x0, %x1
	%t1 = fmul <2 x double> %x2, %t0			%t1 = fmul reassoc nsz <2 x double> %x2, %t0
	%t2 = fmul <2 x double> %x3, %t1			%t2 = fmul reassoc nsz <2 x double> %x3, %t1
	ret <2 x double> %t2			ret <2 x double> %t2
	}			}

	; Verify that AVX 256-bit vector single-precision adds are reassociated.			; Verify that AVX 256-bit vector single-precision adds are reassociated.

	define <8 x float> @reassociate_adds_v8f32(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, <8 x float> %x3) {			define <8 x float> @reassociate_adds_v8f32(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, <8 x float> %x3) {
	; SSE-LABEL: reassociate_adds_v8f32:			; SSE-LABEL: reassociate_adds_v8f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 12 Lines
	; AVX1-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v8f32:			; AVX512-LABEL: reassociate_adds_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213ps {{.#+}} ymm0 = (ymm1 ymm0) + ymm2			; AVX512-NEXT: vfmadd213ps {{.#+}} ymm0 = (ymm1 ymm0) + ymm2
	; AVX512-NEXT: vaddps %ymm0, %ymm3, %ymm0			; AVX512-NEXT: vaddps %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <8 x float> %x0, %x1			%t0 = fmul reassoc nsz <8 x float> %x0, %x1
	%t1 = fadd <8 x float> %x2, %t0			%t1 = fadd reassoc nsz <8 x float> %x2, %t0
	%t2 = fadd <8 x float> %x3, %t1			%t2 = fadd reassoc nsz <8 x float> %x3, %t1
	ret <8 x float> %t2			ret <8 x float> %t2
	}			}

	; Verify that AVX 256-bit vector double-precision adds are reassociated.			; Verify that AVX 256-bit vector double-precision adds are reassociated.

	define <4 x double> @reassociate_adds_v4f64(<4 x double> %x0, <4 x double> %x1, <4 x double> %x2, <4 x double> %x3) {			define <4 x double> @reassociate_adds_v4f64(<4 x double> %x0, <4 x double> %x1, <4 x double> %x2, <4 x double> %x3) {
	; SSE-LABEL: reassociate_adds_v4f64:			; SSE-LABEL: reassociate_adds_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 12 Lines
	; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v4f64:			; AVX512-LABEL: reassociate_adds_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213pd {{.#+}} ymm0 = (ymm1 ymm0) + ymm2			; AVX512-NEXT: vfmadd213pd {{.#+}} ymm0 = (ymm1 ymm0) + ymm2
	; AVX512-NEXT: vaddpd %ymm0, %ymm3, %ymm0			; AVX512-NEXT: vaddpd %ymm0, %ymm3, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <4 x double> %x0, %x1			%t0 = fmul reassoc nsz <4 x double> %x0, %x1
	%t1 = fadd <4 x double> %x2, %t0			%t1 = fadd reassoc nsz <4 x double> %x2, %t0
	%t2 = fadd <4 x double> %x3, %t1			%t2 = fadd reassoc nsz <4 x double> %x3, %t1
	ret <4 x double> %t2			ret <4 x double> %t2
	}			}

	; Verify that AVX 256-bit vector single-precision multiplies are reassociated.			; Verify that AVX 256-bit vector single-precision multiplies are reassociated.

	define <8 x float> @reassociate_muls_v8f32(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, <8 x float> %x3) {			define <8 x float> @reassociate_muls_v8f32(<8 x float> %x0, <8 x float> %x1, <8 x float> %x2, <8 x float> %x3) {
	; SSE-LABEL: reassociate_muls_v8f32:			; SSE-LABEL: reassociate_muls_v8f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addps %xmm2, %xmm0			; SSE-NEXT: addps %xmm2, %xmm0
	; SSE-NEXT: addps %xmm3, %xmm1			; SSE-NEXT: addps %xmm3, %xmm1
	; SSE-NEXT: mulps %xmm6, %xmm4			; SSE-NEXT: mulps %xmm6, %xmm4
	; SSE-NEXT: mulps %xmm4, %xmm0			; SSE-NEXT: mulps %xmm4, %xmm0
	; SSE-NEXT: mulps %xmm7, %xmm5			; SSE-NEXT: mulps %xmm7, %xmm5
	; SSE-NEXT: mulps %xmm5, %xmm1			; SSE-NEXT: mulps %xmm5, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls_v8f32:			; AVX-LABEL: reassociate_muls_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmulps %ymm3, %ymm2, %ymm1			; AVX-NEXT: vmulps %ymm3, %ymm2, %ymm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd <8 x float> %x0, %x1			%t0 = fadd reassoc nsz <8 x float> %x0, %x1
	%t1 = fmul <8 x float> %x2, %t0			%t1 = fmul reassoc nsz <8 x float> %x2, %t0
	%t2 = fmul <8 x float> %x3, %t1			%t2 = fmul reassoc nsz <8 x float> %x3, %t1
	ret <8 x float> %t2			ret <8 x float> %t2
	}			}

	; Verify that AVX 256-bit vector double-precision multiplies are reassociated.			; Verify that AVX 256-bit vector double-precision multiplies are reassociated.

	define <4 x double> @reassociate_muls_v4f64(<4 x double> %x0, <4 x double> %x1, <4 x double> %x2, <4 x double> %x3) {			define <4 x double> @reassociate_muls_v4f64(<4 x double> %x0, <4 x double> %x1, <4 x double> %x2, <4 x double> %x3) {
	; SSE-LABEL: reassociate_muls_v4f64:			; SSE-LABEL: reassociate_muls_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm6, %xmm4			; SSE-NEXT: mulpd %xmm6, %xmm4
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	; SSE-NEXT: mulpd %xmm7, %xmm5			; SSE-NEXT: mulpd %xmm7, %xmm5
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: reassociate_muls_v4f64:			; AVX-LABEL: reassociate_muls_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm3, %ymm2, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm2, %ymm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%t0 = fadd <4 x double> %x0, %x1			%t0 = fadd reassoc nsz <4 x double> %x0, %x1
	%t1 = fmul <4 x double> %x2, %t0			%t1 = fmul reassoc nsz <4 x double> %x2, %t0
	%t2 = fmul <4 x double> %x3, %t1			%t2 = fmul reassoc nsz <4 x double> %x3, %t1
	ret <4 x double> %t2			ret <4 x double> %t2
	}			}

	; Verify that AVX512 512-bit vector single-precision adds are reassociated.			; Verify that AVX512 512-bit vector single-precision adds are reassociated.

	define <16 x float> @reassociate_adds_v16f32(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, <16 x float> %x3) {			define <16 x float> @reassociate_adds_v16f32(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, <16 x float> %x3) {
	; SSE-LABEL: reassociate_adds_v16f32:			; SSE-LABEL: reassociate_adds_v16f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 21 Lines
	; AVX1-NEXT: vaddps %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v16f32:			; AVX512-LABEL: reassociate_adds_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213ps {{.#+}} zmm0 = (zmm1 zmm0) + zmm2			; AVX512-NEXT: vfmadd213ps {{.#+}} zmm0 = (zmm1 zmm0) + zmm2
	; AVX512-NEXT: vaddps %zmm0, %zmm3, %zmm0			; AVX512-NEXT: vaddps %zmm0, %zmm3, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <16 x float> %x0, %x1			%t0 = fmul reassoc nsz <16 x float> %x0, %x1
	%t1 = fadd <16 x float> %x2, %t0			%t1 = fadd reassoc nsz <16 x float> %x2, %t0
	%t2 = fadd <16 x float> %x3, %t1			%t2 = fadd reassoc nsz <16 x float> %x3, %t1
	ret <16 x float> %t2			ret <16 x float> %t2
	}			}

	; Verify that AVX512 512-bit vector double-precision adds are reassociated.			; Verify that AVX512 512-bit vector double-precision adds are reassociated.

	define <8 x double> @reassociate_adds_v8f64(<8 x double> %x0, <8 x double> %x1, <8 x double> %x2, <8 x double> %x3) {			define <8 x double> @reassociate_adds_v8f64(<8 x double> %x0, <8 x double> %x1, <8 x double> %x2, <8 x double> %x3) {
	; SSE-LABEL: reassociate_adds_v8f64:			; SSE-LABEL: reassociate_adds_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 21 Lines
	; AVX1-NEXT: vaddpd %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_adds_v8f64:			; AVX512-LABEL: reassociate_adds_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vfmadd213pd {{.#+}} zmm0 = (zmm1 zmm0) + zmm2			; AVX512-NEXT: vfmadd213pd {{.#+}} zmm0 = (zmm1 zmm0) + zmm2
	; AVX512-NEXT: vaddpd %zmm0, %zmm3, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm3, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fmul <8 x double> %x0, %x1			%t0 = fmul reassoc nsz <8 x double> %x0, %x1
	%t1 = fadd <8 x double> %x2, %t0			%t1 = fadd reassoc nsz <8 x double> %x2, %t0
	%t2 = fadd <8 x double> %x3, %t1			%t2 = fadd reassoc nsz <8 x double> %x3, %t1
	ret <8 x double> %t2			ret <8 x double> %t2
	}			}

	; Verify that AVX512 512-bit vector single-precision multiplies are reassociated.			; Verify that AVX512 512-bit vector single-precision multiplies are reassociated.

	define <16 x float> @reassociate_muls_v16f32(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, <16 x float> %x3) {			define <16 x float> @reassociate_muls_v16f32(<16 x float> %x0, <16 x float> %x1, <16 x float> %x2, <16 x float> %x3) {
	; SSE-LABEL: reassociate_muls_v16f32:			; SSE-LABEL: reassociate_muls_v16f32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 22 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_muls_v16f32:			; AVX512-LABEL: reassociate_muls_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmulps %zmm3, %zmm2, %zmm1			; AVX512-NEXT: vmulps %zmm3, %zmm2, %zmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fadd <16 x float> %x0, %x1			%t0 = fadd reassoc nsz <16 x float> %x0, %x1
	%t1 = fmul <16 x float> %x2, %t0			%t1 = fmul reassoc nsz <16 x float> %x2, %t0
	%t2 = fmul <16 x float> %x3, %t1			%t2 = fmul reassoc nsz <16 x float> %x3, %t1
	ret <16 x float> %t2			ret <16 x float> %t2
	}			}

	; Verify that AVX512 512-bit vector double-precision multiplies are reassociated.			; Verify that AVX512 512-bit vector double-precision multiplies are reassociated.

	define <8 x double> @reassociate_muls_v8f64(<8 x double> %x0, <8 x double> %x1, <8 x double> %x2, <8 x double> %x3) {			define <8 x double> @reassociate_muls_v8f64(<8 x double> %x0, <8 x double> %x1, <8 x double> %x2, <8 x double> %x3) {
	; SSE-LABEL: reassociate_muls_v8f64:			; SSE-LABEL: reassociate_muls_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	Show All 22 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512-LABEL: reassociate_muls_v8f64:			; AVX512-LABEL: reassociate_muls_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmulpd %zmm3, %zmm2, %zmm1			; AVX512-NEXT: vmulpd %zmm3, %zmm2, %zmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t0 = fadd <8 x double> %x0, %x1			%t0 = fadd reassoc nsz <8 x double> %x0, %x1
	%t1 = fmul <8 x double> %x2, %t0			%t1 = fmul reassoc nsz <8 x double> %x2, %t0
	%t2 = fmul <8 x double> %x3, %t1			%t2 = fmul reassoc nsz <8 x double> %x3, %t1
	ret <8 x double> %t2			ret <8 x double> %t2
	}			}

	; Verify that SSE and AVX scalar single-precision minimum ops are reassociated.			; Verify that SSE and AVX scalar single-precision minimum ops are reassociated.

	define float @reassociate_mins_single(float %x0, float %x1, float %x2, float %x3) {			define float @reassociate_mins_single(float %x0, float %x1, float %x2, float %x3) {
	; SSE-LABEL: reassociate_mins_single:			; SSE-LABEL: reassociate_mins_single:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines
	; AVX-NEXT: addq $24, %rsp			; AVX-NEXT: addq $24, %rsp
	; AVX-NEXT: .cfi_def_cfa_offset 8			; AVX-NEXT: .cfi_def_cfa_offset 8
	; AVX-NEXT: retq			; AVX-NEXT: retq

	%x0 = call double @bar()			%x0 = call double @bar()
	%x1 = call double @bar()			%x1 = call double @bar()
	%x2 = call double @bar()			%x2 = call double @bar()
	%x3 = call double @bar()			%x3 = call double @bar()
	%t0 = fadd double %x0, %x1			%t0 = fadd reassoc nsz double %x0, %x1
	%t1 = fadd double %t0, %x2			%t1 = fadd reassoc nsz double %t0, %x2
	%t2 = fadd double %t1, %x3			%t2 = fadd reassoc nsz double %t1, %x3
	ret double %t2			ret double %t2
	}			}

	define double @already_reassociated() {			define double @already_reassociated() {
	; SSE-LABEL: already_reassociated:			; SSE-LABEL: already_reassociated:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: subq $24, %rsp			; SSE-NEXT: subq $24, %rsp
	; SSE-NEXT: .cfi_def_cfa_offset 32			; SSE-NEXT: .cfi_def_cfa_offset 32
	Show All 32 Lines
	; AVX-NEXT: addq $24, %rsp			; AVX-NEXT: addq $24, %rsp
	; AVX-NEXT: .cfi_def_cfa_offset 8			; AVX-NEXT: .cfi_def_cfa_offset 8
	; AVX-NEXT: retq			; AVX-NEXT: retq

	%x0 = call double @bar()			%x0 = call double @bar()
	%x1 = call double @bar()			%x1 = call double @bar()
	%x2 = call double @bar()			%x2 = call double @bar()
	%x3 = call double @bar()			%x3 = call double @bar()
	%t0 = fadd double %x0, %x1			%t0 = fadd reassoc nsz double %x0, %x1
	%t1 = fadd double %x2, %x3			%t1 = fadd reassoc nsz double %x2, %x3
	%t2 = fadd double %t0, %t1			%t2 = fadd reassoc nsz double %t0, %t1
	ret double %t2			ret double %t2
	}			}

llvm/test/CodeGen/X86/pow.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 \| FileCheck %s

	declare float @llvm.pow.f32(float, float)			declare float @llvm.pow.f32(float, float)
	declare <4 x float> @llvm.pow.v4f32(<4 x float>, <4 x float>)			declare <4 x float> @llvm.pow.v4f32(<4 x float>, <4 x float>)

	declare double @llvm.pow.f64(double, double)			declare double @llvm.pow.f64(double, double)
	declare <2 x double> @llvm.pow.v2f64(<2 x double>, <2 x double>)			declare <2 x double> @llvm.pow.v2f64(<2 x double>, <2 x double>)

	declare x86_fp80 @llvm.pow.f80(x86_fp80, x86_fp80)			declare x86_fp80 @llvm.pow.f80(x86_fp80, x86_fp80)
	▲ Show 20 Lines • Show All 220 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sqrt-fastmath.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=CHECK --check-prefix=SSE		; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+sse2 \| FileCheck %s --check-prefix=CHECK --check-prefix=SSE
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX --check-prefix=AVX512		; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx512f \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX --check-prefix=AVX512

declare double @__sqrt_finite(double)		declare double @__sqrt_finite(double)
declare float @__sqrtf_finite(float)		declare float @__sqrtf_finite(float)
declare x86_fp80 @__sqrtl_finite(x86_fp80)		declare x86_fp80 @__sqrtl_finite(x86_fp80)
declare float @llvm.sqrt.f32(float)		declare float @llvm.sqrt.f32(float)
declare <4 x float> @llvm.sqrt.v4f32(<4 x float>)		declare <4 x float> @llvm.sqrt.v4f32(<4 x float>)
declare <8 x float> @llvm.sqrt.v8f32(<8 x float>)		declare <8 x float> @llvm.sqrt.v8f32(<8 x float>)
declare <16 x float> @llvm.sqrt.v16f32(<16 x float>)		declare <16 x float> @llvm.sqrt.v16f32(<16 x float>)
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: rsqrtss %xmm0, %xmm1		; SSE-NEXT: rsqrtss %xmm0, %xmm1
; SSE-NEXT: movaps %xmm0, %xmm2		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: mulss %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm2
; SSE-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; SSE-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE-NEXT: mulss %xmm2, %xmm3		; SSE-NEXT: mulss %xmm2, %xmm3
; SSE-NEXT: mulss %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm2
; SSE-NEXT: addss {{.*}}(%rip), %xmm2		; SSE-NEXT: addss {{.*}}(%rip), %xmm2
; SSE-NEXT: mulss %xmm3, %xmm2
; SSE-NEXT: andps {{.*}}(%rip), %xmm0		; SSE-NEXT: andps {{.*}}(%rip), %xmm0
		; SSE-NEXT: mulss %xmm3, %xmm2
; SSE-NEXT: cmpltss {{.*}}(%rip), %xmm0		; SSE-NEXT: cmpltss {{.*}}(%rip), %xmm0
; SSE-NEXT: andnps %xmm2, %xmm0		; SSE-NEXT: andnps %xmm2, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sqrtf_check_denorms:		; AVX1-LABEL: sqrtf_check_denorms:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1		; AVX1-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1
; AVX1-NEXT: vmulss %xmm1, %xmm0, %xmm2		; AVX1-NEXT: vmulss %xmm1, %xmm0, %xmm2
; AVX1-NEXT: vmulss %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vmulss %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1		; AVX1-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vmulss {{.*}}(%rip), %xmm2, %xmm2		; AVX1-NEXT: vmulss {{.*}}(%rip), %xmm2, %xmm2
; AVX1-NEXT: vmulss %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
		; AVX1-NEXT: vmulss %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vcmpltss {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vcmpltss {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vandnps %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vandnps %xmm1, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: sqrtf_check_denorms:		; AVX512-LABEL: sqrtf_check_denorms:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1		; AVX512-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1
; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm2		; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm2
Show All 16 Lines
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: rsqrtps %xmm0, %xmm2		; SSE-NEXT: rsqrtps %xmm0, %xmm2
; SSE-NEXT: movaps %xmm0, %xmm1		; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: mulps %xmm2, %xmm1		; SSE-NEXT: mulps %xmm2, %xmm1
; SSE-NEXT: movaps {{.*#+}} xmm3 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; SSE-NEXT: movaps {{.*#+}} xmm3 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; SSE-NEXT: mulps %xmm1, %xmm3		; SSE-NEXT: mulps %xmm1, %xmm3
; SSE-NEXT: mulps %xmm2, %xmm1		; SSE-NEXT: mulps %xmm2, %xmm1
; SSE-NEXT: addps {{.*}}(%rip), %xmm1		; SSE-NEXT: addps {{.*}}(%rip), %xmm1
; SSE-NEXT: mulps %xmm3, %xmm1
; SSE-NEXT: andps {{.*}}(%rip), %xmm0		; SSE-NEXT: andps {{.*}}(%rip), %xmm0
		; SSE-NEXT: mulps %xmm3, %xmm1
; SSE-NEXT: movaps {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]		; SSE-NEXT: movaps {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]
; SSE-NEXT: cmpleps %xmm0, %xmm2		; SSE-NEXT: cmpleps %xmm0, %xmm2
; SSE-NEXT: andps %xmm2, %xmm1		; SSE-NEXT: andps %xmm2, %xmm1
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: sqrt_v4f32_check_denorms:		; AVX1-LABEL: sqrt_v4f32_check_denorms:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtps %xmm0, %xmm1		; AVX1-NEXT: vrsqrtps %xmm0, %xmm1
; AVX1-NEXT: vmulps %xmm1, %xmm0, %xmm2		; AVX1-NEXT: vmulps %xmm1, %xmm0, %xmm2
; AVX1-NEXT: vmulps {{.*}}(%rip), %xmm2, %xmm3		; AVX1-NEXT: vmulps {{.*}}(%rip), %xmm2, %xmm3
; AVX1-NEXT: vmulps %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vmulps %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vaddps {{.*}}(%rip), %xmm1, %xmm1		; AVX1-NEXT: vaddps {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vmulps %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
		; AVX1-NEXT: vmulps %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vmovaps {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]		; AVX1-NEXT: vmovaps {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]
; AVX1-NEXT: vcmpleps %xmm0, %xmm2, %xmm0		; AVX1-NEXT: vcmpleps %xmm0, %xmm2, %xmm0
; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: sqrt_v4f32_check_denorms:		; AVX512-LABEL: sqrt_v4f32_check_denorms:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrtps %xmm0, %xmm1		; AVX512-NEXT: vrsqrtps %xmm0, %xmm1
; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm2		; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm2
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm3 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm3 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; AVX512-NEXT: vfmadd231ps {{.#+}} xmm3 = (xmm2 xmm1) + xmm3		; AVX512-NEXT: vfmadd231ps {{.#+}} xmm3 = (xmm2 xmm1) + xmm3
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm1 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm1 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; AVX512-NEXT: vmulps %xmm3, %xmm1, %xmm1
; AVX512-NEXT: vmulps %xmm1, %xmm2, %xmm1		; AVX512-NEXT: vmulps %xmm1, %xmm2, %xmm1
		; AVX512-NEXT: vmulps %xmm3, %xmm1, %xmm1
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [NaN,NaN,NaN,NaN]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [NaN,NaN,NaN,NaN]
; AVX512-NEXT: vandps %xmm2, %xmm0, %xmm0		; AVX512-NEXT: vandps %xmm2, %xmm0, %xmm0
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [1.17549435E-38,1.17549435E-38,1.17549435E-38,1.17549435E-38]
; AVX512-NEXT: vcmpleps %xmm0, %xmm2, %xmm0		; AVX512-NEXT: vcmpleps %xmm0, %xmm2, %xmm0
; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%call = tail call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x) #2		%call = tail call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x) #2
ret <4 x float> %call		ret <4 x float> %call
Show All 17 Lines	; AVX-NEXT: retq
%div = fdiv fast float 1.0, %sqrt		%div = fdiv fast float 1.0, %sqrt
ret float %div		ret float %div
}		}

define float @f32_estimate(float %x) #1 {		define float @f32_estimate(float %x) #1 {
; SSE-LABEL: f32_estimate:		; SSE-LABEL: f32_estimate:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: rsqrtss %xmm0, %xmm1		; SSE-NEXT: rsqrtss %xmm0, %xmm1
; SSE-NEXT: movaps %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm0
; SSE-NEXT: mulss %xmm1, %xmm2		; SSE-NEXT: mulss %xmm1, %xmm0
; SSE-NEXT: mulss %xmm0, %xmm2		; SSE-NEXT: addss {{.*}}(%rip), %xmm0
; SSE-NEXT: addss {{.*}}(%rip), %xmm2
; SSE-NEXT: mulss {{.*}}(%rip), %xmm1		; SSE-NEXT: mulss {{.*}}(%rip), %xmm1
; SSE-NEXT: mulss %xmm2, %xmm1		; SSE-NEXT: mulss %xmm1, %xmm0
; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: f32_estimate:		; AVX1-LABEL: f32_estimate:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1		; AVX1-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1
; AVX1-NEXT: vmulss %xmm1, %xmm1, %xmm2		; AVX1-NEXT: vmulss %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmulss %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vmulss %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1		; AVX1-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vmulss %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vmulss %xmm0, %xmm1, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: f32_estimate:		; AVX512-LABEL: f32_estimate:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1		; AVX512-NEXT: vrsqrtss %xmm0, %xmm0, %xmm1
Show All 32 Lines	; AVX512-NEXT: retq
%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <4 x float> %div		ret <4 x float> %div
}		}

define <4 x float> @v4f32_estimate(<4 x float> %x) #1 {		define <4 x float> @v4f32_estimate(<4 x float> %x) #1 {
; SSE-LABEL: v4f32_estimate:		; SSE-LABEL: v4f32_estimate:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: rsqrtps %xmm0, %xmm1		; SSE-NEXT: rsqrtps %xmm0, %xmm1
; SSE-NEXT: movaps %xmm1, %xmm2		; SSE-NEXT: mulps %xmm1, %xmm0
; SSE-NEXT: mulps %xmm1, %xmm2		; SSE-NEXT: mulps %xmm1, %xmm0
; SSE-NEXT: mulps %xmm0, %xmm2		; SSE-NEXT: addps {{.*}}(%rip), %xmm0
; SSE-NEXT: addps {{.*}}(%rip), %xmm2
; SSE-NEXT: mulps {{.*}}(%rip), %xmm1		; SSE-NEXT: mulps {{.*}}(%rip), %xmm1
; SSE-NEXT: mulps %xmm2, %xmm1		; SSE-NEXT: mulps %xmm1, %xmm0
; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v4f32_estimate:		; AVX1-LABEL: v4f32_estimate:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtps %xmm0, %xmm1		; AVX1-NEXT: vrsqrtps %xmm0, %xmm1
; AVX1-NEXT: vmulps %xmm1, %xmm1, %xmm2		; AVX1-NEXT: vmulps %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmulps %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vmulps %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vmulps {{.*}}(%rip), %xmm1, %xmm1		; AVX1-NEXT: vmulps {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vmulps %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vmulps %xmm0, %xmm1, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: v4f32_estimate:		; AVX512-LABEL: v4f32_estimate:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrtps %xmm0, %xmm1		; AVX512-NEXT: vrsqrtps %xmm0, %xmm1
; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; AVX512-NEXT: vfmadd213ps {{.#+}} xmm0 = (xmm1 xmm0) + xmm2		; AVX512-NEXT: vfmadd213ps {{.#+}} xmm0 = (xmm1 xmm0) + xmm2
; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; AVX512-NEXT: vbroadcastss {{.*#+}} xmm2 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; AVX512-NEXT: vmulps %xmm0, %xmm2, %xmm0		; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0		; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%sqrt = tail call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x)		%sqrt = tail call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x)
%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <4 x float> %div		ret <4 x float> %div
}		}

define <8 x float> @v8f32_no_estimate(<8 x float> %x) #0 {		define <8 x float> @v8f32_no_estimate(<8 x float> %x) #0 {
Show All 23 Lines	; AVX512-NEXT: retq
%sqrt = tail call <8 x float> @llvm.sqrt.v8f32(<8 x float> %x)		%sqrt = tail call <8 x float> @llvm.sqrt.v8f32(<8 x float> %x)
%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <8 x float> %div		ret <8 x float> %div
}		}

define <8 x float> @v8f32_estimate(<8 x float> %x) #1 {		define <8 x float> @v8f32_estimate(<8 x float> %x) #1 {
; SSE-LABEL: v8f32_estimate:		; SSE-LABEL: v8f32_estimate:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: rsqrtps %xmm0, %xmm3		; SSE-NEXT: rsqrtps %xmm0, %xmm2
; SSE-NEXT: movaps {{.*#+}} xmm4 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; SSE-NEXT: movaps {{.*#+}} xmm3 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; SSE-NEXT: movaps %xmm3, %xmm2		; SSE-NEXT: mulps %xmm2, %xmm0
; SSE-NEXT: mulps %xmm3, %xmm2		; SSE-NEXT: mulps %xmm2, %xmm0
; SSE-NEXT: mulps %xmm0, %xmm2
; SSE-NEXT: movaps {{.*#+}} xmm0 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; SSE-NEXT: addps %xmm0, %xmm2
; SSE-NEXT: mulps %xmm4, %xmm2
; SSE-NEXT: mulps %xmm3, %xmm2		; SSE-NEXT: mulps %xmm3, %xmm2
; SSE-NEXT: rsqrtps %xmm1, %xmm5		; SSE-NEXT: movaps {{.*#+}} xmm4 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; SSE-NEXT: movaps %xmm5, %xmm3		; SSE-NEXT: addps %xmm4, %xmm0
; SSE-NEXT: mulps %xmm5, %xmm3		; SSE-NEXT: mulps %xmm2, %xmm0
; SSE-NEXT: mulps %xmm1, %xmm3		; SSE-NEXT: rsqrtps %xmm1, %xmm2
; SSE-NEXT: addps %xmm0, %xmm3		; SSE-NEXT: mulps %xmm2, %xmm3
; SSE-NEXT: mulps %xmm4, %xmm3		; SSE-NEXT: mulps %xmm2, %xmm1
; SSE-NEXT: mulps %xmm5, %xmm3		; SSE-NEXT: mulps %xmm2, %xmm1
; SSE-NEXT: movaps %xmm2, %xmm0		; SSE-NEXT: addps %xmm4, %xmm1
; SSE-NEXT: movaps %xmm3, %xmm1		; SSE-NEXT: mulps %xmm3, %xmm1
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v8f32_estimate:		; AVX1-LABEL: v8f32_estimate:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtps %ymm0, %ymm1		; AVX1-NEXT: vrsqrtps %ymm0, %ymm1
; AVX1-NEXT: vmulps %ymm1, %ymm1, %ymm2		; AVX1-NEXT: vmulps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vmulps %ymm2, %ymm0, %ymm0		; AVX1-NEXT: vmulps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vaddps {{.*}}(%rip), %ymm0, %ymm0		; AVX1-NEXT: vaddps {{.*}}(%rip), %ymm0, %ymm0
; AVX1-NEXT: vmulps {{.*}}(%rip), %ymm1, %ymm1		; AVX1-NEXT: vmulps {{.*}}(%rip), %ymm1, %ymm1
; AVX1-NEXT: vmulps %ymm0, %ymm1, %ymm0		; AVX1-NEXT: vmulps %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: v8f32_estimate:		; AVX512-LABEL: v8f32_estimate:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrtps %ymm0, %ymm1		; AVX512-NEXT: vrsqrtps %ymm0, %ymm1
; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vbroadcastss {{.*#+}} ymm2 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]		; AVX512-NEXT: vbroadcastss {{.*#+}} ymm2 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; AVX512-NEXT: vfmadd213ps {{.#+}} ymm0 = (ymm1 ymm0) + ymm2		; AVX512-NEXT: vfmadd213ps {{.#+}} ymm0 = (ymm1 ymm0) + ymm2
; AVX512-NEXT: vbroadcastss {{.*#+}} ymm2 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; AVX512-NEXT: vbroadcastss {{.*#+}} ymm2 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; AVX512-NEXT: vmulps %ymm0, %ymm2, %ymm0		; AVX512-NEXT: vmulps %ymm2, %ymm1, %ymm1
; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%sqrt = tail call <8 x float> @llvm.sqrt.v8f32(<8 x float> %x)		%sqrt = tail call <8 x float> @llvm.sqrt.v8f32(<8 x float> %x)
%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <8 x float> %div		ret <8 x float> %div
}		}

define <16 x float> @v16f32_no_estimate(<16 x float> %x) #0 {		define <16 x float> @v16f32_no_estimate(<16 x float> %x) #0 {
Show All 31 Lines	; AVX512-NEXT: retq
%sqrt = tail call <16 x float> @llvm.sqrt.v16f32(<16 x float> %x)		%sqrt = tail call <16 x float> @llvm.sqrt.v16f32(<16 x float> %x)
%div = fdiv fast <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt		%div = fdiv fast <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %sqrt
ret <16 x float> %div		ret <16 x float> %div
}		}

define <16 x float> @v16f32_estimate(<16 x float> %x) #1 {		define <16 x float> @v16f32_estimate(<16 x float> %x) #1 {
; SSE-LABEL: v16f32_estimate:		; SSE-LABEL: v16f32_estimate:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movaps %xmm1, %xmm4
; SSE-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: rsqrtps %xmm0, %xmm5		; SSE-NEXT: rsqrtps %xmm0, %xmm5
; SSE-NEXT: movaps {{.*#+}} xmm6 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; SSE-NEXT: movaps {{.*#+}} xmm4 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; SSE-NEXT: movaps %xmm5, %xmm0
; SSE-NEXT: mulps %xmm5, %xmm0		; SSE-NEXT: mulps %xmm5, %xmm0
; SSE-NEXT: mulps %xmm1, %xmm0
; SSE-NEXT: movaps {{.*#+}} xmm7 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; SSE-NEXT: addps %xmm7, %xmm0
; SSE-NEXT: mulps %xmm6, %xmm0
; SSE-NEXT: mulps %xmm5, %xmm0		; SSE-NEXT: mulps %xmm5, %xmm0
; SSE-NEXT: rsqrtps %xmm4, %xmm5		; SSE-NEXT: movaps %xmm5, %xmm6
; SSE-NEXT: movaps %xmm5, %xmm1		; SSE-NEXT: mulps %xmm4, %xmm6
; SSE-NEXT: mulps %xmm5, %xmm1		; SSE-NEXT: movaps {{.*#+}} xmm5 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; SSE-NEXT: mulps %xmm4, %xmm1		; SSE-NEXT: addps %xmm5, %xmm0
; SSE-NEXT: addps %xmm7, %xmm1		; SSE-NEXT: mulps %xmm6, %xmm0
		; SSE-NEXT: rsqrtps %xmm1, %xmm6
; SSE-NEXT: mulps %xmm6, %xmm1		; SSE-NEXT: mulps %xmm6, %xmm1
; SSE-NEXT: mulps %xmm5, %xmm1		; SSE-NEXT: mulps %xmm6, %xmm1
; SSE-NEXT: rsqrtps %xmm2, %xmm5		; SSE-NEXT: mulps %xmm4, %xmm6
; SSE-NEXT: movaps %xmm5, %xmm4		; SSE-NEXT: addps %xmm5, %xmm1
; SSE-NEXT: mulps %xmm5, %xmm4		; SSE-NEXT: mulps %xmm6, %xmm1
; SSE-NEXT: mulps %xmm2, %xmm4		; SSE-NEXT: rsqrtps %xmm2, %xmm6
; SSE-NEXT: addps %xmm7, %xmm4		; SSE-NEXT: mulps %xmm6, %xmm2
		; SSE-NEXT: mulps %xmm6, %xmm2
		; SSE-NEXT: mulps %xmm4, %xmm6
		; SSE-NEXT: addps %xmm5, %xmm2
		; SSE-NEXT: mulps %xmm6, %xmm2
		; SSE-NEXT: rsqrtps %xmm3, %xmm6
; SSE-NEXT: mulps %xmm6, %xmm4		; SSE-NEXT: mulps %xmm6, %xmm4
; SSE-NEXT: mulps %xmm5, %xmm4		; SSE-NEXT: mulps %xmm6, %xmm3
; SSE-NEXT: rsqrtps %xmm3, %xmm2		; SSE-NEXT: mulps %xmm6, %xmm3
; SSE-NEXT: movaps %xmm2, %xmm5		; SSE-NEXT: addps %xmm5, %xmm3
; SSE-NEXT: mulps %xmm2, %xmm5		; SSE-NEXT: mulps %xmm4, %xmm3
; SSE-NEXT: mulps %xmm3, %xmm5
; SSE-NEXT: addps %xmm7, %xmm5
; SSE-NEXT: mulps %xmm6, %xmm5
; SSE-NEXT: mulps %xmm2, %xmm5
; SSE-NEXT: movaps %xmm4, %xmm2
; SSE-NEXT: movaps %xmm5, %xmm3
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: v16f32_estimate:		; AVX1-LABEL: v16f32_estimate:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vrsqrtps %ymm0, %ymm2		; AVX1-NEXT: vrsqrtps %ymm0, %ymm2
; AVX1-NEXT: vmovaps {{.*#+}} ymm3 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]		; AVX1-NEXT: vmovaps {{.*#+}} ymm3 = [-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1,-5.0E-1]
; AVX1-NEXT: vmulps %ymm2, %ymm2, %ymm4		; AVX1-NEXT: vmulps %ymm3, %ymm2, %ymm4
; AVX1-NEXT: vmulps %ymm4, %ymm0, %ymm0		; AVX1-NEXT: vmulps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vmovaps {{.*#+}} ymm4 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]		; AVX1-NEXT: vmulps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vaddps %ymm4, %ymm0, %ymm0		; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0,-3.0E+0]
; AVX1-NEXT: vmulps %ymm0, %ymm3, %ymm0		; AVX1-NEXT: vaddps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vmulps %ymm0, %ymm2, %ymm0		; AVX1-NEXT: vmulps %ymm0, %ymm4, %ymm0
; AVX1-NEXT: vrsqrtps %ymm1, %ymm2		; AVX1-NEXT: vrsqrtps %ymm1, %ymm4
; AVX1-NEXT: vmulps %ymm2, %ymm2, %ymm5		; AVX1-NEXT: vmulps %ymm3, %ymm4, %ymm3
; AVX1-NEXT: vmulps %ymm5, %ymm1, %ymm1		; AVX1-NEXT: vmulps %ymm4, %ymm1, %ymm1
; AVX1-NEXT: vaddps %ymm4, %ymm1, %ymm1		; AVX1-NEXT: vmulps %ymm4, %ymm1, %ymm1
		; AVX1-NEXT: vaddps %ymm2, %ymm1, %ymm1
; AVX1-NEXT: vmulps %ymm1, %ymm3, %ymm1		; AVX1-NEXT: vmulps %ymm1, %ymm3, %ymm1
; AVX1-NEXT: vmulps %ymm1, %ymm2, %ymm1
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: v16f32_estimate:		; AVX512-LABEL: v16f32_estimate:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vrsqrt14ps %zmm0, %zmm1		; AVX512-NEXT: vrsqrt14ps %zmm0, %zmm1
; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vfmadd213ps {{.#+}} zmm0 = (zmm1 zmm0) + mem		; AVX512-NEXT: vfmadd213ps {{.#+}} zmm0 = (zmm1 zmm0) + mem
; AVX512-NEXT: vmulps {{.*}}(%rip){1to16}, %zmm1, %zmm1		; AVX512-NEXT: vmulps {{.*}}(%rip){1to16}, %zmm1, %zmm1
Show All 13 Lines

llvm/test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 5,752 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm2, %xmm3			; SSE2-NEXT: pand %xmm2, %xmm3
	; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; SSE2-NEXT: por %xmm4, %xmm3			; SSE2-NEXT: por %xmm4, %xmm3
	; SSE2-NEXT: psrlq $32, %xmm0			; SSE2-NEXT: psrlq $32, %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; SSE2-NEXT: por %xmm5, %xmm0			; SSE2-NEXT: por %xmm5, %xmm0
	; SSE2-NEXT: movapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; SSE2-NEXT: movapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; SSE2-NEXT: subpd %xmm6, %xmm0			; SSE2-NEXT: subpd %xmm6, %xmm0
				; SSE2-NEXT: addpd %xmm3, %xmm0
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: por %xmm4, %xmm2			; SSE2-NEXT: por %xmm4, %xmm2
	; SSE2-NEXT: psrlq $32, %xmm1			; SSE2-NEXT: psrlq $32, %xmm1
	; SSE2-NEXT: por %xmm5, %xmm1			; SSE2-NEXT: por %xmm5, %xmm1
	; SSE2-NEXT: subpd %xmm6, %xmm1			; SSE2-NEXT: subpd %xmm6, %xmm1
	; SSE2-NEXT: movapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]			; SSE2-NEXT: addpd %xmm2, %xmm1
	; SSE2-NEXT: addpd %xmm4, %xmm0			; SSE2-NEXT: movapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
	; SSE2-NEXT: addpd %xmm3, %xmm0			; SSE2-NEXT: addpd %xmm2, %xmm0
	; SSE2-NEXT: addpd %xmm4, %xmm1
	; SSE2-NEXT: addpd %xmm2, %xmm1			; SSE2-NEXT: addpd %xmm2, %xmm1
	; SSE2-NEXT: movupd %xmm0, (%rdi)			; SSE2-NEXT: movupd %xmm0, (%rdi)
	; SSE2-NEXT: movupd %xmm1, 16(%rdi)			; SSE2-NEXT: movupd %xmm1, 16(%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: PR43609:			; SSE41-LABEL: PR43609:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2,2]			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2,2]
	; SSE41-NEXT: paddq %xmm0, %xmm1			; SSE41-NEXT: paddq %xmm0, %xmm1
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: movdqa %xmm0, %xmm3			; SSE41-NEXT: movdqa %xmm0, %xmm3
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; SSE41-NEXT: por %xmm4, %xmm3			; SSE41-NEXT: por %xmm4, %xmm3
	; SSE41-NEXT: psrlq $32, %xmm0			; SSE41-NEXT: psrlq $32, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; SSE41-NEXT: movapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; SSE41-NEXT: subpd %xmm6, %xmm0			; SSE41-NEXT: subpd %xmm6, %xmm0
				; SSE41-NEXT: addpd %xmm3, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE41-NEXT: por %xmm4, %xmm2			; SSE41-NEXT: por %xmm4, %xmm2
	; SSE41-NEXT: psrlq $32, %xmm1			; SSE41-NEXT: psrlq $32, %xmm1
	; SSE41-NEXT: por %xmm5, %xmm1			; SSE41-NEXT: por %xmm5, %xmm1
	; SSE41-NEXT: subpd %xmm6, %xmm1			; SSE41-NEXT: subpd %xmm6, %xmm1
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]			; SSE41-NEXT: addpd %xmm2, %xmm1
	; SSE41-NEXT: addpd %xmm4, %xmm0			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
	; SSE41-NEXT: addpd %xmm3, %xmm0			; SSE41-NEXT: addpd %xmm2, %xmm0
	; SSE41-NEXT: addpd %xmm4, %xmm1
	; SSE41-NEXT: addpd %xmm2, %xmm1			; SSE41-NEXT: addpd %xmm2, %xmm1
	; SSE41-NEXT: movupd %xmm0, (%rdi)			; SSE41-NEXT: movupd %xmm0, (%rdi)
	; SSE41-NEXT: movupd %xmm1, 16(%rdi)			; SSE41-NEXT: movupd %xmm1, 16(%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: PR43609:			; AVX1-LABEL: PR43609:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; AVX1-NEXT: vpor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; AVX1-NEXT: vpor %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; AVX1-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; AVX1-NEXT: vsubpd %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vsubpd %xmm6, %xmm0, %xmm0
				; AVX1-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpor %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpor %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpor %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpor %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vsubpd %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vsubpd %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vmovapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]
	; AVX1-NEXT: vaddpd %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vaddpd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vaddpd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vaddpd %xmm1, %xmm2, %xmm1
				; AVX1-NEXT: vmovapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
				; AVX1-NEXT: vaddpd %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vmovupd %xmm0, (%rdi)			; AVX1-NEXT: vmovupd %xmm0, (%rdi)
	; AVX1-NEXT: vmovupd %xmm1, 16(%rdi)			; AVX1-NEXT: vmovupd %xmm1, 16(%rdi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR43609:			; AVX2-LABEL: PR43609:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1			; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm3 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; AVX2-NEXT: vpor %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpor %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; AVX2-NEXT: vpor %xmm5, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm5, %xmm0, %xmm0
	; AVX2-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; AVX2-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; AVX2-NEXT: vsubpd %xmm6, %xmm0, %xmm0			; AVX2-NEXT: vsubpd %xmm6, %xmm0, %xmm0
				; AVX2-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX2-NEXT: vpor %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpor %xmm4, %xmm2, %xmm2
	; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX2-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX2-NEXT: vpor %xmm5, %xmm1, %xmm1			; AVX2-NEXT: vpor %xmm5, %xmm1, %xmm1
	; AVX2-NEXT: vsubpd %xmm6, %xmm1, %xmm1			; AVX2-NEXT: vsubpd %xmm6, %xmm1, %xmm1
	; AVX2-NEXT: vmovapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]
	; AVX2-NEXT: vaddpd %xmm4, %xmm0, %xmm0
	; AVX2-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX2-NEXT: vaddpd %xmm4, %xmm1, %xmm1
	; AVX2-NEXT: vaddpd %xmm1, %xmm2, %xmm1			; AVX2-NEXT: vaddpd %xmm1, %xmm2, %xmm1
				; AVX2-NEXT: vmovapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
				; AVX2-NEXT: vaddpd %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovupd %xmm0, (%rdi)			; AVX2-NEXT: vmovupd %xmm0, (%rdi)
	; AVX2-NEXT: vmovupd %xmm1, 16(%rdi)			; AVX2-NEXT: vmovupd %xmm1, 16(%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: PR43609:			; AVX512F-LABEL: PR43609:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1			; AVX512F-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm3 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm3 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; AVX512F-NEXT: vpor %xmm4, %xmm3, %xmm3			; AVX512F-NEXT: vpor %xmm4, %xmm3, %xmm3
	; AVX512F-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX512F-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; AVX512F-NEXT: vpor %xmm5, %xmm0, %xmm0			; AVX512F-NEXT: vpor %xmm5, %xmm0, %xmm0
	; AVX512F-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; AVX512F-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; AVX512F-NEXT: vsubpd %xmm6, %xmm0, %xmm0			; AVX512F-NEXT: vsubpd %xmm6, %xmm0, %xmm0
				; AVX512F-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX512F-NEXT: vpblendd {{.*#+}} xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX512F-NEXT: vpor %xmm4, %xmm2, %xmm2			; AVX512F-NEXT: vpor %xmm4, %xmm2, %xmm2
	; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX512F-NEXT: vpor %xmm5, %xmm1, %xmm1			; AVX512F-NEXT: vpor %xmm5, %xmm1, %xmm1
	; AVX512F-NEXT: vsubpd %xmm6, %xmm1, %xmm1			; AVX512F-NEXT: vsubpd %xmm6, %xmm1, %xmm1
	; AVX512F-NEXT: vmovapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]
	; AVX512F-NEXT: vaddpd %xmm4, %xmm0, %xmm0
	; AVX512F-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX512F-NEXT: vaddpd %xmm4, %xmm1, %xmm1
	; AVX512F-NEXT: vaddpd %xmm1, %xmm2, %xmm1			; AVX512F-NEXT: vaddpd %xmm1, %xmm2, %xmm1
				; AVX512F-NEXT: vmovapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
				; AVX512F-NEXT: vaddpd %xmm2, %xmm0, %xmm0
				; AVX512F-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512F-NEXT: vmovupd %xmm0, (%rdi)			; AVX512F-NEXT: vmovupd %xmm0, (%rdi)
	; AVX512F-NEXT: vmovupd %xmm1, 16(%rdi)			; AVX512F-NEXT: vmovupd %xmm1, 16(%rdi)
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: PR43609:			; AVX512VL-LABEL: PR43609:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1			; AVX512VL-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [4294967295,4294967295]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = [4294967295,4294967295]
	; AVX512VL-NEXT: vpand %xmm2, %xmm0, %xmm3			; AVX512VL-NEXT: vpand %xmm2, %xmm0, %xmm3
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm4 = [4841369599423283200,4841369599423283200]
	; AVX512VL-NEXT: vpor %xmm4, %xmm3, %xmm3			; AVX512VL-NEXT: vpor %xmm4, %xmm3, %xmm3
	; AVX512VL-NEXT: vpsrlq $32, %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm5 = [4985484787499139072,4985484787499139072]
	; AVX512VL-NEXT: vpor %xmm5, %xmm0, %xmm0			; AVX512VL-NEXT: vpor %xmm5, %xmm0, %xmm0
	; AVX512VL-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]			; AVX512VL-NEXT: vmovapd {{.*#+}} xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
	; AVX512VL-NEXT: vsubpd %xmm6, %xmm0, %xmm0			; AVX512VL-NEXT: vsubpd %xmm6, %xmm0, %xmm0
				; AVX512VL-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX512VL-NEXT: vpand %xmm2, %xmm1, %xmm2			; AVX512VL-NEXT: vpand %xmm2, %xmm1, %xmm2
	; AVX512VL-NEXT: vpor %xmm4, %xmm2, %xmm2			; AVX512VL-NEXT: vpor %xmm4, %xmm2, %xmm2
	; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm1			; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX512VL-NEXT: vpor %xmm5, %xmm1, %xmm1			; AVX512VL-NEXT: vpor %xmm5, %xmm1, %xmm1
	; AVX512VL-NEXT: vsubpd %xmm6, %xmm1, %xmm1			; AVX512VL-NEXT: vsubpd %xmm6, %xmm1, %xmm1
	; AVX512VL-NEXT: vmovapd {{.*#+}} xmm4 = [5.0E-1,5.0E-1]
	; AVX512VL-NEXT: vaddpd %xmm4, %xmm0, %xmm0
	; AVX512VL-NEXT: vaddpd %xmm0, %xmm3, %xmm0
	; AVX512VL-NEXT: vaddpd %xmm4, %xmm1, %xmm1
	; AVX512VL-NEXT: vaddpd %xmm1, %xmm2, %xmm1			; AVX512VL-NEXT: vaddpd %xmm1, %xmm2, %xmm1
				; AVX512VL-NEXT: vmovapd {{.*#+}} xmm2 = [5.0E-1,5.0E-1]
				; AVX512VL-NEXT: vaddpd %xmm2, %xmm0, %xmm0
				; AVX512VL-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512VL-NEXT: vmovupd %xmm0, (%rdi)			; AVX512VL-NEXT: vmovupd %xmm0, (%rdi)
	; AVX512VL-NEXT: vmovupd %xmm1, 16(%rdi)			; AVX512VL-NEXT: vmovupd %xmm1, 16(%rdi)
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: PR43609:			; AVX512DQ-LABEL: PR43609:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512DQ-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1			; AVX512DQ-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
	Show All 37 Lines

llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-SLOW			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-FAST			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx,+fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-FAST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=AVX512,AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512VL			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 1,395 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-- -mcpu=x86-64 -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 965 Lines • Show Last 20 Lines