This is an archive of the discontinued LLVM Phabricator instance.

[X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE rcp/rsqrt intrinsics when AVX512 features are enabled.
ClosedPublic

Authored by craig.topper on Nov 2 2017, 5:32 PM.

Download Raw Diff

Details

Reviewers

zvi
DavidKreitzer
RKSimon

Commits

rG692c8efe3071: [X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE…
rL317413: [X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE…

Summary

AVX512 added RCP14 and RSQRT instructions which improve accuracy over the legacy RCP and RSQRT instruction, but not enough accuracy to remove the need for a Newton Raphson refinement.

Currently we use these new instructions for the legacy packed SSE instrinics, but not the scalar instrinsics. And we use it for fast math optimization of division and reciprocal sqrt.

I think switching the legacy instrinsics maybe surprising to the user since it changes the answer based on which processor you're using regardless of any fastmath settings. It's also weird that we did something different between scalar and packed.

As far at the reciprocal estimation, I think it creates unnecessary deltas in our output behavior (and prevents EVEX->VEX). A little playing around with gcc and icc and godbolt suggest they don't change which instructions they use here.

This patch adds new X86ISD nodes for the RCP14/RSQRT14 and uses those for the new intrinsics. Leaving the old intrinsics to use the old instructions.

Going forward I think our focus should be on
-Supporting 512-bit vectors, which will have to use the RCP14/RSQRT14.
-Using RSQRT28/RCP28 to remove the Newton Raphson step on processors with AVX512ER
-Supporting double precision.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Nov 2 2017, 5:32 PM

LGTM

This revision is now accepted and ready to land.Nov 4 2017, 10:40 AM

Closed by commit rL317413: [X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE… (authored by ctopper). · Explain WhyNov 4 2017, 11:27 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.h

4 lines

X86ISelLowering.cpp

6 lines

X86InstrAVX512.td

12 lines

X86InstrFragmentsSIMD.td

6 lines

X86InstrSSE.td

4 lines

X86IntrinsicsInfo.h

32 lines

test/

CodeGen/

X86/

avx-intrinsics-x86.ll

26 lines

avx-schedule.ll

8 lines

recip-fastmath.ll

8 lines

recip-fastmath2.ll

16 lines

sse-intrinsics-x86.ll

26 lines

sse-schedule.ll

8 lines

Diff 121594

llvm/trunk/lib/Target/X86/X86ISelLowering.h

Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {

/// Scalar intrinsic floating point max and min.		/// Scalar intrinsic floating point max and min.
FMAXS, FMINS,		FMAXS, FMINS,

/// Floating point reciprocal-sqrt and reciprocal approximation.		/// Floating point reciprocal-sqrt and reciprocal approximation.
/// Note that these typically require refinement		/// Note that these typically require refinement
/// in order to obtain suitable precision.		/// in order to obtain suitable precision.
FRSQRT, FRCP,		FRSQRT, FRCP,
FRSQRTS, FRCPS,
		// AVX-512 reciprocal approximations with a little more precision.
		RSQRT14, RSQRT14S, RCP14, RCP14S,

// Thread Local Storage.		// Thread Local Storage.
TLSADDR,		TLSADDR,

// Thread Local Storage. A call to get the start address		// Thread Local Storage. A call to get the start address
// of the TLS block for the current module.		// of the TLS block for the current module.
TLSBASEADDR,		TLSBASEADDR,

▲ Show 20 Lines • Show All 1,190 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 24,802 Lines • ▼ Show 20 Lines	const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {
case X86ISD::FMAXS_RND: return "X86ISD::FMAX_RND";		case X86ISD::FMAXS_RND: return "X86ISD::FMAX_RND";
case X86ISD::FMIN: return "X86ISD::FMIN";		case X86ISD::FMIN: return "X86ISD::FMIN";
case X86ISD::FMINS: return "X86ISD::FMINS";		case X86ISD::FMINS: return "X86ISD::FMINS";
case X86ISD::FMIN_RND: return "X86ISD::FMIN_RND";		case X86ISD::FMIN_RND: return "X86ISD::FMIN_RND";
case X86ISD::FMINS_RND: return "X86ISD::FMINS_RND";		case X86ISD::FMINS_RND: return "X86ISD::FMINS_RND";
case X86ISD::FMAXC: return "X86ISD::FMAXC";		case X86ISD::FMAXC: return "X86ISD::FMAXC";
case X86ISD::FMINC: return "X86ISD::FMINC";		case X86ISD::FMINC: return "X86ISD::FMINC";
case X86ISD::FRSQRT: return "X86ISD::FRSQRT";		case X86ISD::FRSQRT: return "X86ISD::FRSQRT";
case X86ISD::FRSQRTS: return "X86ISD::FRSQRTS";
case X86ISD::FRCP: return "X86ISD::FRCP";		case X86ISD::FRCP: return "X86ISD::FRCP";
case X86ISD::FRCPS: return "X86ISD::FRCPS";
case X86ISD::EXTRQI: return "X86ISD::EXTRQI";		case X86ISD::EXTRQI: return "X86ISD::EXTRQI";
case X86ISD::INSERTQI: return "X86ISD::INSERTQI";		case X86ISD::INSERTQI: return "X86ISD::INSERTQI";
case X86ISD::TLSADDR: return "X86ISD::TLSADDR";		case X86ISD::TLSADDR: return "X86ISD::TLSADDR";
case X86ISD::TLSBASEADDR: return "X86ISD::TLSBASEADDR";		case X86ISD::TLSBASEADDR: return "X86ISD::TLSBASEADDR";
case X86ISD::TLSCALL: return "X86ISD::TLSCALL";		case X86ISD::TLSCALL: return "X86ISD::TLSCALL";
case X86ISD::EH_SJLJ_SETJMP: return "X86ISD::EH_SJLJ_SETJMP";		case X86ISD::EH_SJLJ_SETJMP: return "X86ISD::EH_SJLJ_SETJMP";
case X86ISD::EH_SJLJ_LONGJMP: return "X86ISD::EH_SJLJ_LONGJMP";		case X86ISD::EH_SJLJ_LONGJMP: return "X86ISD::EH_SJLJ_LONGJMP";
case X86ISD::EH_SJLJ_SETUP_DISPATCH:		case X86ISD::EH_SJLJ_SETUP_DISPATCH:
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {
case X86ISD::PCMPESTRI: return "X86ISD::PCMPESTRI";		case X86ISD::PCMPESTRI: return "X86ISD::PCMPESTRI";
case X86ISD::PCMPISTRI: return "X86ISD::PCMPISTRI";		case X86ISD::PCMPISTRI: return "X86ISD::PCMPISTRI";
case X86ISD::XTEST: return "X86ISD::XTEST";		case X86ISD::XTEST: return "X86ISD::XTEST";
case X86ISD::COMPRESS: return "X86ISD::COMPRESS";		case X86ISD::COMPRESS: return "X86ISD::COMPRESS";
case X86ISD::EXPAND: return "X86ISD::EXPAND";		case X86ISD::EXPAND: return "X86ISD::EXPAND";
case X86ISD::SELECT: return "X86ISD::SELECT";		case X86ISD::SELECT: return "X86ISD::SELECT";
case X86ISD::SELECTS: return "X86ISD::SELECTS";		case X86ISD::SELECTS: return "X86ISD::SELECTS";
case X86ISD::ADDSUB: return "X86ISD::ADDSUB";		case X86ISD::ADDSUB: return "X86ISD::ADDSUB";
		case X86ISD::RCP14: return "X86ISD::RCP14";
		case X86ISD::RCP14S: return "X86ISD::RCP14S";
case X86ISD::RCP28: return "X86ISD::RCP28";		case X86ISD::RCP28: return "X86ISD::RCP28";
case X86ISD::RCP28S: return "X86ISD::RCP28S";		case X86ISD::RCP28S: return "X86ISD::RCP28S";
case X86ISD::EXP2: return "X86ISD::EXP2";		case X86ISD::EXP2: return "X86ISD::EXP2";
		case X86ISD::RSQRT14: return "X86ISD::RSQRT14";
		case X86ISD::RSQRT14S: return "X86ISD::RSQRT14S";
case X86ISD::RSQRT28: return "X86ISD::RSQRT28";		case X86ISD::RSQRT28: return "X86ISD::RSQRT28";
case X86ISD::RSQRT28S: return "X86ISD::RSQRT28S";		case X86ISD::RSQRT28S: return "X86ISD::RSQRT28S";
case X86ISD::FADD_RND: return "X86ISD::FADD_RND";		case X86ISD::FADD_RND: return "X86ISD::FADD_RND";
case X86ISD::FADDS_RND: return "X86ISD::FADDS_RND";		case X86ISD::FADDS_RND: return "X86ISD::FADDS_RND";
case X86ISD::FSUB_RND: return "X86ISD::FSUB_RND";		case X86ISD::FSUB_RND: return "X86ISD::FSUB_RND";
case X86ISD::FSUBS_RND: return "X86ISD::FSUBS_RND";		case X86ISD::FSUBS_RND: return "X86ISD::FSUBS_RND";
case X86ISD::FMUL_RND: return "X86ISD::FMUL_RND";		case X86ISD::FMUL_RND: return "X86ISD::FMUL_RND";
case X86ISD::FMULS_RND: return "X86ISD::FMULS_RND";		case X86ISD::FMULS_RND: return "X86ISD::FMULS_RND";
▲ Show 20 Lines • Show All 12,758 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,356 Lines • ▼ Show 20 Lines	multiclass avx512_fp14_s<bits<8> opc, string OpcodeStr, SDNode OpNode,
defm rm : AVX512_maskable_scalar<opc, MRMSrcMem, _, (outs _.RC:$dst),		defm rm : AVX512_maskable_scalar<opc, MRMSrcMem, _, (outs _.RC:$dst),
(ins _.RC:$src1, _.ScalarMemOp:$src2), OpcodeStr,		(ins _.RC:$src1, _.ScalarMemOp:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
(OpNode (_.VT _.RC:$src1),		(OpNode (_.VT _.RC:$src1),
(_.VT (scalar_to_vector (_.ScalarLdFrag addr:$src2))))>, EVEX_4V;		(_.VT (scalar_to_vector (_.ScalarLdFrag addr:$src2))))>, EVEX_4V;
}		}
}		}

defm VRCP14SS : avx512_fp14_s<0x4D, "vrcp14ss", X86frcp14s, f32x_info>,		defm VRCP14SS : avx512_fp14_s<0x4D, "vrcp14ss", X86rcp14s, f32x_info>,
EVEX_CD8<32, CD8VT1>, T8PD, NotMemoryFoldable;		EVEX_CD8<32, CD8VT1>, T8PD, NotMemoryFoldable;
defm VRCP14SD : avx512_fp14_s<0x4D, "vrcp14sd", X86frcp14s, f64x_info>,		defm VRCP14SD : avx512_fp14_s<0x4D, "vrcp14sd", X86rcp14s, f64x_info>,
VEX_W, EVEX_CD8<64, CD8VT1>, T8PD, NotMemoryFoldable;		VEX_W, EVEX_CD8<64, CD8VT1>, T8PD, NotMemoryFoldable;
defm VRSQRT14SS : avx512_fp14_s<0x4F, "vrsqrt14ss", X86frsqrt14s, f32x_info>,		defm VRSQRT14SS : avx512_fp14_s<0x4F, "vrsqrt14ss", X86rsqrt14s, f32x_info>,
EVEX_CD8<32, CD8VT1>, T8PD, NotMemoryFoldable;		EVEX_CD8<32, CD8VT1>, T8PD, NotMemoryFoldable;
defm VRSQRT14SD : avx512_fp14_s<0x4F, "vrsqrt14sd", X86frsqrt14s, f64x_info>,		defm VRSQRT14SD : avx512_fp14_s<0x4F, "vrsqrt14sd", X86rsqrt14s, f64x_info>,
VEX_W, EVEX_CD8<64, CD8VT1>, T8PD, NotMemoryFoldable;		VEX_W, EVEX_CD8<64, CD8VT1>, T8PD, NotMemoryFoldable;

/// avx512_fp14_p rcp14ps, rcp14pd, rsqrt14ps, rsqrt14pd		/// avx512_fp14_p rcp14ps, rcp14pd, rsqrt14ps, rsqrt14pd
multiclass avx512_fp14_p<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass avx512_fp14_p<bits<8> opc, string OpcodeStr, SDNode OpNode,
X86VectorVTInfo _> {		X86VectorVTInfo _> {
let ExeDomain = _.ExeDomain in {		let ExeDomain = _.ExeDomain in {
defm r: AVX512_maskable<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm r: AVX512_maskable<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins _.RC:$src), OpcodeStr, "$src", "$src",		(ins _.RC:$src), OpcodeStr, "$src", "$src",
Show All 29 Lines	defm PDZ128 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pd"),
OpNode, v2f64x_info>,		OpNode, v2f64x_info>,
EVEX_V128, VEX_W, EVEX_CD8<64, CD8VF>;		EVEX_V128, VEX_W, EVEX_CD8<64, CD8VF>;
defm PDZ256 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pd"),		defm PDZ256 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pd"),
OpNode, v4f64x_info>,		OpNode, v4f64x_info>,
EVEX_V256, VEX_W, EVEX_CD8<64, CD8VF>;		EVEX_V256, VEX_W, EVEX_CD8<64, CD8VF>;
}		}
}		}

defm VRSQRT14 : avx512_fp14_p_vl_all<0x4E, "vrsqrt14", X86frsqrt>;		defm VRSQRT14 : avx512_fp14_p_vl_all<0x4E, "vrsqrt14", X86rsqrt14>;
defm VRCP14 : avx512_fp14_p_vl_all<0x4C, "vrcp14", X86frcp>;		defm VRCP14 : avx512_fp14_p_vl_all<0x4C, "vrcp14", X86rcp14>;

/// avx512_fp28_s rcp28ss, rcp28sd, rsqrt28ss, rsqrt28sd		/// avx512_fp28_s rcp28ss, rcp28sd, rsqrt28ss, rsqrt28sd
multiclass avx512_fp28_s<bits<8> opc, string OpcodeStr,X86VectorVTInfo _,		multiclass avx512_fp28_s<bits<8> opc, string OpcodeStr,X86VectorVTInfo _,
SDNode OpNode> {		SDNode OpNode> {
let ExeDomain = _.ExeDomain in {		let ExeDomain = _.ExeDomain in {
defm r : AVX512_maskable_scalar<opc, MRMSrcReg, _, (outs _.RC:$dst),		defm r : AVX512_maskable_scalar<opc, MRMSrcReg, _, (outs _.RC:$dst),
(ins _.RC:$src1, _.RC:$src2), OpcodeStr,		(ins _.RC:$src1, _.RC:$src2), OpcodeStr,
"$src2, $src1", "$src1, $src2",		"$src2, $src1", "$src1, $src2",
▲ Show 20 Lines • Show All 2,525 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrFragmentsSIMD.td

Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	def X86fand : SDNode<"X86ISD::FAND", SDTFPBinOp,
[SDNPCommutative, SDNPAssociative]>;		[SDNPCommutative, SDNPAssociative]>;
def X86for : SDNode<"X86ISD::FOR", SDTFPBinOp,		def X86for : SDNode<"X86ISD::FOR", SDTFPBinOp,
[SDNPCommutative, SDNPAssociative]>;		[SDNPCommutative, SDNPAssociative]>;
def X86fxor : SDNode<"X86ISD::FXOR", SDTFPBinOp,		def X86fxor : SDNode<"X86ISD::FXOR", SDTFPBinOp,
[SDNPCommutative, SDNPAssociative]>;		[SDNPCommutative, SDNPAssociative]>;
def X86fandn : SDNode<"X86ISD::FANDN", SDTFPBinOp>;		def X86fandn : SDNode<"X86ISD::FANDN", SDTFPBinOp>;
def X86frsqrt : SDNode<"X86ISD::FRSQRT", SDTFPUnaryOp>;		def X86frsqrt : SDNode<"X86ISD::FRSQRT", SDTFPUnaryOp>;
def X86frcp : SDNode<"X86ISD::FRCP", SDTFPUnaryOp>;		def X86frcp : SDNode<"X86ISD::FRCP", SDTFPUnaryOp>;
def X86frsqrt14s: SDNode<"X86ISD::FRSQRTS", SDTFPBinOp>;
def X86frcp14s : SDNode<"X86ISD::FRCPS", SDTFPBinOp>;
def X86fhadd : SDNode<"X86ISD::FHADD", SDTFPBinOp>;		def X86fhadd : SDNode<"X86ISD::FHADD", SDTFPBinOp>;
def X86fhsub : SDNode<"X86ISD::FHSUB", SDTFPBinOp>;		def X86fhsub : SDNode<"X86ISD::FHSUB", SDTFPBinOp>;
def X86hadd : SDNode<"X86ISD::HADD", SDTIntBinOp>;		def X86hadd : SDNode<"X86ISD::HADD", SDTIntBinOp>;
def X86hsub : SDNode<"X86ISD::HSUB", SDTIntBinOp>;		def X86hsub : SDNode<"X86ISD::HSUB", SDTIntBinOp>;
def X86comi : SDNode<"X86ISD::COMI", SDTX86CmpTest>;		def X86comi : SDNode<"X86ISD::COMI", SDTX86CmpTest>;
def X86ucomi : SDNode<"X86ISD::UCOMI", SDTX86CmpTest>;		def X86ucomi : SDNode<"X86ISD::UCOMI", SDTX86CmpTest>;
def X86cmps : SDNode<"X86ISD::FSETCC", SDTX86Cmps>;		def X86cmps : SDNode<"X86ISD::FSETCC", SDTX86Cmps>;
def X86pshufb : SDNode<"X86ISD::PSHUFB",		def X86pshufb : SDNode<"X86ISD::PSHUFB",
▲ Show 20 Lines • Show All 424 Lines • ▼ Show 20 Lines
def X86FmsubRnds3 : SDNode<"X86ISD::FMSUBS3_RND", SDTFmaRound, [SDNPCommutative]>;		def X86FmsubRnds3 : SDNode<"X86ISD::FMSUBS3_RND", SDTFmaRound, [SDNPCommutative]>;
def X86FnmsubRnds3 : SDNode<"X86ISD::FNMSUBS3_RND", SDTFmaRound, [SDNPCommutative]>;		def X86FnmsubRnds3 : SDNode<"X86ISD::FNMSUBS3_RND", SDTFmaRound, [SDNPCommutative]>;

def SDTIFma : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0,1>,		def SDTIFma : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0,1>,
SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;		SDTCisSameAs<1,2>, SDTCisSameAs<1,3>]>;
def x86vpmadd52l : SDNode<"X86ISD::VPMADD52L", SDTIFma, [SDNPCommutative]>;		def x86vpmadd52l : SDNode<"X86ISD::VPMADD52L", SDTIFma, [SDNPCommutative]>;
def x86vpmadd52h : SDNode<"X86ISD::VPMADD52H", SDTIFma, [SDNPCommutative]>;		def x86vpmadd52h : SDNode<"X86ISD::VPMADD52H", SDTIFma, [SDNPCommutative]>;

		def X86rsqrt14 : SDNode<"X86ISD::RSQRT14", SDTFPUnaryOp>;
		def X86rcp14 : SDNode<"X86ISD::RCP14", SDTFPUnaryOp>;
def X86rsqrt28 : SDNode<"X86ISD::RSQRT28", SDTFPUnaryOpRound>;		def X86rsqrt28 : SDNode<"X86ISD::RSQRT28", SDTFPUnaryOpRound>;
def X86rcp28 : SDNode<"X86ISD::RCP28", SDTFPUnaryOpRound>;		def X86rcp28 : SDNode<"X86ISD::RCP28", SDTFPUnaryOpRound>;
def X86exp2 : SDNode<"X86ISD::EXP2", SDTFPUnaryOpRound>;		def X86exp2 : SDNode<"X86ISD::EXP2", SDTFPUnaryOpRound>;

		def X86rsqrt14s : SDNode<"X86ISD::RSQRT14S", SDTFPBinOp>;
		def X86rcp14s : SDNode<"X86ISD::RCP14S", SDTFPBinOp>;
def X86rsqrt28s : SDNode<"X86ISD::RSQRT28S", SDTFPBinOpRound>;		def X86rsqrt28s : SDNode<"X86ISD::RSQRT28S", SDTFPBinOpRound>;
def X86rcp28s : SDNode<"X86ISD::RCP28S", SDTFPBinOpRound>;		def X86rcp28s : SDNode<"X86ISD::RCP28S", SDTFPBinOpRound>;
def X86RndScales : SDNode<"X86ISD::VRNDSCALES", SDTFPBinOpImmRound>;		def X86RndScales : SDNode<"X86ISD::VRNDSCALES", SDTFPBinOpImmRound>;
def X86Reduces : SDNode<"X86ISD::VREDUCES", SDTFPBinOpImmRound>;		def X86Reduces : SDNode<"X86ISD::VREDUCES", SDTFPBinOpImmRound>;
def X86GetMants : SDNode<"X86ISD::VGETMANTS", SDTFPBinOpImmRound>;		def X86GetMants : SDNode<"X86ISD::VGETMANTS", SDTFPBinOpImmRound>;

def SDT_PCMPISTRI : SDTypeProfile<2, 3, [SDTCisVT<0, i32>, SDTCisVT<1, i32>,		def SDT_PCMPISTRI : SDTypeProfile<2, 3, [SDTCisVT<0, i32>, SDTCisVT<1, i32>,
SDTCisVT<2, v16i8>, SDTCisVT<3, v16i8>,		SDTCisVT<2, v16i8>, SDTCisVT<3, v16i8>,
▲ Show 20 Lines • Show All 575 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,246 Lines • ▼ Show 20 Lines
	defm SQRT : sse1_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSS>,			defm SQRT : sse1_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSS>,
	sse1_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPS, [HasAVX, NoVLX]>,			sse1_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPS, [HasAVX, NoVLX]>,
	sse2_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSD>,			sse2_fp_unop_s<0x51, "sqrt", fsqrt, SSE_SQRTSD>,
	sse2_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPD>;			sse2_fp_unop_p<0x51, "sqrt", fsqrt, SSE_SQRTPD>;

	// Reciprocal approximations. Note that these typically require refinement			// Reciprocal approximations. Note that these typically require refinement
	// in order to obtain suitable precision.			// in order to obtain suitable precision.
	defm RSQRT : sse1_fp_unop_s<0x52, "rsqrt", X86frsqrt, SSE_RSQRTSS>,			defm RSQRT : sse1_fp_unop_s<0x52, "rsqrt", X86frsqrt, SSE_RSQRTSS>,
	sse1_fp_unop_p<0x52, "rsqrt", X86frsqrt, SSE_RSQRTPS, [HasAVX, NoVLX] >;			sse1_fp_unop_p<0x52, "rsqrt", X86frsqrt, SSE_RSQRTPS, [HasAVX]>;
	defm RCP : sse1_fp_unop_s<0x53, "rcp", X86frcp, SSE_RCPS>,			defm RCP : sse1_fp_unop_s<0x53, "rcp", X86frcp, SSE_RCPS>,
	sse1_fp_unop_p<0x53, "rcp", X86frcp, SSE_RCPP, [HasAVX, NoVLX]>;			sse1_fp_unop_p<0x53, "rcp", X86frcp, SSE_RCPP, [HasAVX]>;

	// There is no f64 version of the reciprocal approximation instructions.			// There is no f64 version of the reciprocal approximation instructions.

	// TODO: We should add scalar op patterns for these just like we have for			// TODO: We should add scalar op patterns for these just like we have for
	// the binops above. If the binop and unop patterns could all be unified			// the binops above. If the binop and unop patterns could all be unified
	// that would be even better.			// that would be even better.

	multiclass scalar_unary_math_patterns<Intrinsic Intr, string OpcPrefix,			multiclass scalar_unary_math_patterns<Intrinsic Intr, string OpcPrefix,
	▲ Show 20 Lines • Show All 5,152 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86IntrinsicsInfo.h

	Show First 20 Lines • Show All 1,422 Lines • ▼ Show 20 Lines
	X86_INTRINSIC_DATA(avx512_ptestnm_d_256, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_d_256, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_d_512, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_d_512, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_q_128, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_q_128, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_q_256, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_q_256, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_q_512, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_q_512, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_w_128, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_w_128, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_w_256, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_w_256, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_ptestnm_w_512, CMP_MASK, X86ISD::TESTNM, 0),			X86_INTRINSIC_DATA(avx512_ptestnm_w_512, CMP_MASK, X86ISD::TESTNM, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_pd_128, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_pd_128, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_pd_256, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_pd_256, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_pd_512, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_pd_512, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_ps_128, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_ps_128, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_ps_256, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_ps_256, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_ps_512, INTR_TYPE_1OP_MASK, X86ISD::FRCP, 0),			X86_INTRINSIC_DATA(avx512_rcp14_ps_512, INTR_TYPE_1OP_MASK, X86ISD::RCP14, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_sd, INTR_TYPE_SCALAR_MASK, X86ISD::FRCPS, 0),			X86_INTRINSIC_DATA(avx512_rcp14_sd, INTR_TYPE_SCALAR_MASK, X86ISD::RCP14S, 0),
	X86_INTRINSIC_DATA(avx512_rcp14_ss, INTR_TYPE_SCALAR_MASK, X86ISD::FRCPS, 0),			X86_INTRINSIC_DATA(avx512_rcp14_ss, INTR_TYPE_SCALAR_MASK, X86ISD::RCP14S, 0),
	X86_INTRINSIC_DATA(avx512_rcp28_pd, INTR_TYPE_1OP_MASK_RM, X86ISD::RCP28, 0),			X86_INTRINSIC_DATA(avx512_rcp28_pd, INTR_TYPE_1OP_MASK_RM, X86ISD::RCP28, 0),
	X86_INTRINSIC_DATA(avx512_rcp28_ps, INTR_TYPE_1OP_MASK_RM, X86ISD::RCP28, 0),			X86_INTRINSIC_DATA(avx512_rcp28_ps, INTR_TYPE_1OP_MASK_RM, X86ISD::RCP28, 0),
	X86_INTRINSIC_DATA(avx512_rcp28_sd, INTR_TYPE_SCALAR_MASK_RM, X86ISD::RCP28S, 0),			X86_INTRINSIC_DATA(avx512_rcp28_sd, INTR_TYPE_SCALAR_MASK_RM, X86ISD::RCP28S, 0),
	X86_INTRINSIC_DATA(avx512_rcp28_ss, INTR_TYPE_SCALAR_MASK_RM, X86ISD::RCP28S, 0),			X86_INTRINSIC_DATA(avx512_rcp28_ss, INTR_TYPE_SCALAR_MASK_RM, X86ISD::RCP28S, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_pd_128, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_pd_128, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_pd_256, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_pd_256, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_pd_512, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_pd_512, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_ps_128, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_ps_128, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_ps_256, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_ps_256, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_ps_512, INTR_TYPE_1OP_MASK, X86ISD::FRSQRT, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_ps_512, INTR_TYPE_1OP_MASK, X86ISD::RSQRT14, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_sd, INTR_TYPE_SCALAR_MASK, X86ISD::FRSQRTS, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_sd, INTR_TYPE_SCALAR_MASK, X86ISD::RSQRT14S, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt14_ss, INTR_TYPE_SCALAR_MASK, X86ISD::FRSQRTS, 0),			X86_INTRINSIC_DATA(avx512_rsqrt14_ss, INTR_TYPE_SCALAR_MASK, X86ISD::RSQRT14S, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt28_pd, INTR_TYPE_1OP_MASK_RM,X86ISD::RSQRT28, 0),			X86_INTRINSIC_DATA(avx512_rsqrt28_pd, INTR_TYPE_1OP_MASK_RM,X86ISD::RSQRT28, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt28_ps, INTR_TYPE_1OP_MASK_RM,X86ISD::RSQRT28, 0),			X86_INTRINSIC_DATA(avx512_rsqrt28_ps, INTR_TYPE_1OP_MASK_RM,X86ISD::RSQRT28, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt28_sd, INTR_TYPE_SCALAR_MASK_RM,X86ISD::RSQRT28S, 0),			X86_INTRINSIC_DATA(avx512_rsqrt28_sd, INTR_TYPE_SCALAR_MASK_RM,X86ISD::RSQRT28S, 0),
	X86_INTRINSIC_DATA(avx512_rsqrt28_ss, INTR_TYPE_SCALAR_MASK_RM,X86ISD::RSQRT28S, 0),			X86_INTRINSIC_DATA(avx512_rsqrt28_ss, INTR_TYPE_SCALAR_MASK_RM,X86ISD::RSQRT28S, 0),
	X86_INTRINSIC_DATA(avx512_vcomi_sd, COMI_RM, X86ISD::COMI, X86ISD::UCOMI),			X86_INTRINSIC_DATA(avx512_vcomi_sd, COMI_RM, X86ISD::COMI, X86ISD::UCOMI),
	X86_INTRINSIC_DATA(avx512_vcomi_ss, COMI_RM, X86ISD::COMI, X86ISD::UCOMI),			X86_INTRINSIC_DATA(avx512_vcomi_ss, COMI_RM, X86ISD::COMI, X86ISD::UCOMI),
	X86_INTRINSIC_DATA(avx512_vcvtsd2si32, INTR_TYPE_2OP, X86ISD::CVTS2SI_RND, 0),			X86_INTRINSIC_DATA(avx512_vcvtsd2si32, INTR_TYPE_2OP, X86ISD::CVTS2SI_RND, 0),
	X86_INTRINSIC_DATA(avx512_vcvtsd2si64, INTR_TYPE_2OP, X86ISD::CVTS2SI_RND, 0),			X86_INTRINSIC_DATA(avx512_vcvtsd2si64, INTR_TYPE_2OP, X86ISD::CVTS2SI_RND, 0),
	▲ Show 20 Lines • Show All 190 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86.ll

	Show First 20 Lines • Show All 575 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	%res = call i32 @llvm.x86.avx.ptestz.256(<4 x i64> %a0, <4 x i64> %a1) ; <i32> [#uses=1]			%res = call i32 @llvm.x86.avx.ptestz.256(<4 x i64> %a0, <4 x i64> %a1) ; <i32> [#uses=1]
	ret i32 %res			ret i32 %res
	}			}
	declare i32 @llvm.x86.avx.ptestz.256(<4 x i64>, <4 x i64>) nounwind readnone			declare i32 @llvm.x86.avx.ptestz.256(<4 x i64>, <4 x i64>) nounwind readnone


	define <8 x float> @test_x86_avx_rcp_ps_256(<8 x float> %a0) {			define <8 x float> @test_x86_avx_rcp_ps_256(<8 x float> %a0) {
	; AVX-LABEL: test_x86_avx_rcp_ps_256:			; CHECK-LABEL: test_x86_avx_rcp_ps_256:
	; AVX: # BB#0:			; CHECK: # BB#0:
	; AVX-NEXT: vrcpps %ymm0, %ymm0 # encoding: [0xc5,0xfc,0x53,0xc0]			; CHECK-NEXT: vrcpps %ymm0, %ymm0 # encoding: [0xc5,0xfc,0x53,0xc0]
	; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	;
	; AVX512VL-LABEL: test_x86_avx_rcp_ps_256:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vrcp14ps %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7d,0x28,0x4c,0xc0]
	; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.avx.rcp.ps.256(<8 x float> %a0) ; <<8 x float>> [#uses=1]			%res = call <8 x float> @llvm.x86.avx.rcp.ps.256(<8 x float> %a0) ; <<8 x float>> [#uses=1]
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.avx.rcp.ps.256(<8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.avx.rcp.ps.256(<8 x float>) nounwind readnone


	define <4 x double> @test_x86_avx_round_pd_256(<4 x double> %a0) {			define <4 x double> @test_x86_avx_round_pd_256(<4 x double> %a0) {
	; CHECK-LABEL: test_x86_avx_round_pd_256:			; CHECK-LABEL: test_x86_avx_round_pd_256:
	Show All 13 Lines
	; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.avx.round.ps.256(<8 x float> %a0, i32 7) ; <<8 x float>> [#uses=1]			%res = call <8 x float> @llvm.x86.avx.round.ps.256(<8 x float> %a0, i32 7) ; <<8 x float>> [#uses=1]
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.avx.round.ps.256(<8 x float>, i32) nounwind readnone			declare <8 x float> @llvm.x86.avx.round.ps.256(<8 x float>, i32) nounwind readnone


	define <8 x float> @test_x86_avx_rsqrt_ps_256(<8 x float> %a0) {			define <8 x float> @test_x86_avx_rsqrt_ps_256(<8 x float> %a0) {
	; AVX-LABEL: test_x86_avx_rsqrt_ps_256:			; CHECK-LABEL: test_x86_avx_rsqrt_ps_256:
	; AVX: # BB#0:			; CHECK: # BB#0:
	; AVX-NEXT: vrsqrtps %ymm0, %ymm0 # encoding: [0xc5,0xfc,0x52,0xc0]			; CHECK-NEXT: vrsqrtps %ymm0, %ymm0 # encoding: [0xc5,0xfc,0x52,0xc0]
	; AVX-NEXT: ret{{[l\|q]}} # encoding: [0xc3]			; CHECK-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	;
	; AVX512VL-LABEL: test_x86_avx_rsqrt_ps_256:
	; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vrsqrt14ps %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7d,0x28,0x4e,0xc0]
	; AVX512VL-NEXT: ret{{[l\|q]}} # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.avx.rsqrt.ps.256(<8 x float> %a0) ; <<8 x float>> [#uses=1]			%res = call <8 x float> @llvm.x86.avx.rsqrt.ps.256(<8 x float> %a0) ; <<8 x float>> [#uses=1]
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.avx.rsqrt.ps.256(<8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.avx.rsqrt.ps.256(<8 x float>) nounwind readnone


	define <4 x double> @test_x86_avx_sqrt_pd_256(<4 x double> %a0) {			define <4 x double> @test_x86_avx_sqrt_pd_256(<4 x double> %a0) {
	; AVX-LABEL: test_x86_avx_sqrt_pd_256:			; AVX-LABEL: test_x86_avx_sqrt_pd_256:
	▲ Show 20 Lines • Show All 442 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx-schedule.ll

	Show First 20 Lines • Show All 3,976 Lines • ▼ Show 20 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vrcpps %ymm0, %ymm0 # sched: [4:1.00]			; SKYLAKE-NEXT: vrcpps %ymm0, %ymm0 # sched: [4:1.00]
	; SKYLAKE-NEXT: vrcpps (%rdi), %ymm1 # sched: [11:1.00]			; SKYLAKE-NEXT: vrcpps (%rdi), %ymm1 # sched: [11:1.00]
	; SKYLAKE-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [7:1.00]			; SKYLAKE-NEXT: retq # sched: [7:1.00]
	;			;
	; SKX-LABEL: test_rcpps:			; SKX-LABEL: test_rcpps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm0 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm0 # sched: [4:1.00]
	; SKX-NEXT: vrcp14ps (%rdi), %ymm1 # sched: [11:1.00]			; SKX-NEXT: vrcpps (%rdi), %ymm1 # sched: [11:1.00]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_rcpps:			; BTVER2-LABEL: test_rcpps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vrcpps (%rdi), %ymm1 # sched: [7:2.00]			; BTVER2-NEXT: vrcpps (%rdi), %ymm1 # sched: [7:2.00]
	; BTVER2-NEXT: vrcpps %ymm0, %ymm0 # sched: [2:2.00]			; BTVER2-NEXT: vrcpps %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vrsqrtps %ymm0, %ymm0 # sched: [4:1.00]			; SKYLAKE-NEXT: vrsqrtps %ymm0, %ymm0 # sched: [4:1.00]
	; SKYLAKE-NEXT: vrsqrtps (%rdi), %ymm1 # sched: [11:1.00]			; SKYLAKE-NEXT: vrsqrtps (%rdi), %ymm1 # sched: [11:1.00]
	; SKYLAKE-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [7:1.00]			; SKYLAKE-NEXT: retq # sched: [7:1.00]
	;			;
	; SKX-LABEL: test_rsqrtps:			; SKX-LABEL: test_rsqrtps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrsqrt14ps %ymm0, %ymm0 # sched: [4:1.00]			; SKX-NEXT: vrsqrtps %ymm0, %ymm0 # sched: [4:1.00]
	; SKX-NEXT: vrsqrt14ps (%rdi), %ymm1 # sched: [11:1.00]			; SKX-NEXT: vrsqrtps (%rdi), %ymm1 # sched: [11:1.00]
	; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_rsqrtps:			; BTVER2-LABEL: test_rsqrtps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vrsqrtps (%rdi), %ymm1 # sched: [7:2.00]			; BTVER2-NEXT: vrsqrtps (%rdi), %ymm1 # sched: [7:2.00]
	; BTVER2-NEXT: vrsqrtps %ymm0, %ymm0 # sched: [2:2.00]			; BTVER2-NEXT: vrsqrtps %ymm0, %ymm0 # sched: [2:2.00]
	; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]			; BTVER2-NEXT: vaddps %ymm1, %ymm0, %ymm0 # sched: [3:2.00]
	▲ Show 20 Lines • Show All 1,162 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/recip-fastmath.ll

	Show First 20 Lines • Show All 410 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vrcpps %xmm0, %xmm1 # sched: [5:1.00]			; KNL-NEXT: vrcpps %xmm0, %xmm1 # sched: [5:1.00]
	; KNL-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [1:0.50]			; KNL-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [1:0.50]
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v4f32_one_step:			; SKX-LABEL: v4f32_one_step:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]
	; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
	ret <4 x float> %div			ret <4 x float> %div
	}			}

	define <4 x float> @v4f32_two_step(<4 x float> %x) #2 {			define <4 x float> @v4f32_two_step(<4 x float> %x) #2 {
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [5:0.50]
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v4f32_two_step:			; SKX-LABEL: v4f32_two_step:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm1 # sched: [4:1.00]
	; SKX-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [6:0.50]			; SKX-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [6:0.50]
	; SKX-NEXT: vmovaps %xmm1, %xmm3 # sched: [1:1.00]			; SKX-NEXT: vmovaps %xmm1, %xmm3 # sched: [1:1.00]
	; SKX-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [4:0.33]
	; SKX-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
	▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vrcpps %ymm0, %ymm1 # sched: [11:2.00]			; KNL-NEXT: vrcpps %ymm0, %ymm1 # sched: [11:2.00]
	; KNL-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [1:0.50]			; KNL-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [1:0.50]
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_one_step:			; SKX-LABEL: v8f32_one_step:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	define <8 x float> @v8f32_two_step(<8 x float> %x) #2 {			define <8 x float> @v8f32_two_step(<8 x float> %x) #2 {
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [5:0.50]
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_two_step:			; SKX-LABEL: v8f32_two_step:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm1 # sched: [4:1.00]
	; SKX-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [7:0.50]			; SKX-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [7:0.50]
	; SKX-NEXT: vmovaps %ymm1, %ymm3 # sched: [1:1.00]			; SKX-NEXT: vmovaps %ymm1, %ymm3 # sched: [1:1.00]
	; SKX-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [4:0.33]
	; SKX-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }			attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }
	attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }			attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }
	attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }			attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }

llvm/trunk/test/CodeGen/X86/recip-fastmath2.ll

	Show First 20 Lines • Show All 472 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [1:0.50]			; KNL-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [1:0.50]
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v4f32_one_step2:			; SKX-LABEL: v4f32_one_step2:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]
	; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [10:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [10:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, %x			%div = fdiv fast <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, %x
	ret <4 x float> %div			ret <4 x float> %div
	}			}

	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm1 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm1 # sched: [5:0.50]
	; KNL-NEXT: vmulps %xmm0, %xmm1, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vmulps %xmm0, %xmm1, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v4f32_one_step_2_divs:			; SKX-LABEL: v4f32_one_step_2_divs:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to4}, %xmm1, %xmm0 # sched: [10:0.50]
	; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm1 # sched: [10:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm1 # sched: [10:0.50]
	; SKX-NEXT: vmulps %xmm0, %xmm1, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vmulps %xmm0, %xmm1, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, %x			%div = fdiv fast <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, %x
	%div2 = fdiv fast <4 x float> %div, %x			%div2 = fdiv fast <4 x float> %div, %x
	ret <4 x float> %div2			ret <4 x float> %div2
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [5:0.50]
	; KNL-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v4f32_two_step2:			; SKX-LABEL: v4f32_two_step2:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm1 # sched: [4:1.00]
	; SKX-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [6:0.50]			; SKX-NEXT: vbroadcastss {{.*#+}} xmm2 = [1,1,1,1] sched: [6:0.50]
	; SKX-NEXT: vmovaps %xmm1, %xmm3 # sched: [1:1.00]			; SKX-NEXT: vmovaps %xmm1, %xmm3 # sched: [1:1.00]
	; SKX-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %xmm2, %xmm0, %xmm3 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm1, %xmm1, %xmm3 # sched: [4:0.33]
	; SKX-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %xmm2, %xmm3, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %xmm3, %xmm3, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [10:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %xmm0, %xmm0 # sched: [10:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [1:0.50]			; KNL-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [1:0.50]
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_one_step2:			; SKX-LABEL: v8f32_one_step2:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm1 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm1 # sched: [5:0.50]
	; KNL-NEXT: vmulps %ymm0, %ymm1, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vmulps %ymm0, %ymm1, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_one_step_2_divs:			; SKX-LABEL: v8f32_one_step_2_divs:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm1 # sched: [4:1.00]
	; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vfnmadd213ps {{.*}}(%rip){1to8}, %ymm1, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm1 # sched: [11:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm1 # sched: [11:0.50]
	; SKX-NEXT: vmulps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vmulps %ymm0, %ymm1, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x
	%div2 = fdiv fast <8 x float> %div, %x			%div2 = fdiv fast <8 x float> %div, %x
	ret <8 x float> %div2			ret <8 x float> %div2
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [5:0.50]
	; KNL-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_two_step2:			; SKX-LABEL: v8f32_two_step2:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm1 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm1 # sched: [4:1.00]
	; SKX-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [7:0.50]			; SKX-NEXT: vbroadcastss {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1] sched: [7:0.50]
	; SKX-NEXT: vmovaps %ymm1, %ymm3 # sched: [1:1.00]			; SKX-NEXT: vmovaps %ymm1, %ymm3 # sched: [1:1.00]
	; SKX-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %ymm2, %ymm0, %ymm3 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm1, %ymm1, %ymm3 # sched: [4:0.33]
	; SKX-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfnmadd213ps %ymm2, %ymm3, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [4:0.33]			; SKX-NEXT: vfmadd132ps %ymm3, %ymm3, %ymm0 # sched: [4:0.33]
	; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	Show All 40 Lines
	;			;
	; KNL-LABEL: v8f32_no_step:			; KNL-LABEL: v8f32_no_step:
	; KNL: # BB#0:			; KNL: # BB#0:
	; KNL-NEXT: vrcpps %ymm0, %ymm0 # sched: [11:2.00]			; KNL-NEXT: vrcpps %ymm0, %ymm0 # sched: [11:2.00]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_no_step:			; SKX-LABEL: v8f32_no_step:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm0 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm0 # sched: [4:1.00]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	define <8 x float> @v8f32_no_step2(<8 x float> %x) #3 {			define <8 x float> @v8f32_no_step2(<8 x float> %x) #3 {
	; SSE-LABEL: v8f32_no_step2:			; SSE-LABEL: v8f32_no_step2:
	; SSE: # BB#0:			; SSE: # BB#0:
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; KNL-LABEL: v8f32_no_step2:			; KNL-LABEL: v8f32_no_step2:
	; KNL: # BB#0:			; KNL: # BB#0:
	; KNL-NEXT: vrcpps %ymm0, %ymm0 # sched: [11:2.00]			; KNL-NEXT: vrcpps %ymm0, %ymm0 # sched: [11:2.00]
	; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]			; KNL-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [5:0.50]
	; KNL-NEXT: retq # sched: [2:1.00]			; KNL-NEXT: retq # sched: [2:1.00]
	;			;
	; SKX-LABEL: v8f32_no_step2:			; SKX-LABEL: v8f32_no_step2:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %ymm0, %ymm0 # sched: [4:1.00]			; SKX-NEXT: vrcpps %ymm0, %ymm0 # sched: [4:1.00]
	; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]			; SKX-NEXT: vmulps {{.*}}(%rip), %ymm0, %ymm0 # sched: [11:0.50]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x			%div = fdiv fast <8 x float> <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0>, %x
	ret <8 x float> %div			ret <8 x float> %div
	}			}

	attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }			attributes #0 = { "unsafe-fp-math"="true" "reciprocal-estimates"="!divf,!vec-divf" }
	attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }			attributes #1 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf,vec-divf" }
	attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }			attributes #2 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:2,vec-divf:2" }
	attributes #3 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:0,vec-divf:0" }			attributes #3 = { "unsafe-fp-math"="true" "reciprocal-estimates"="divf:0,vec-divf:0" }

llvm/trunk/test/CodeGen/X86/sse-intrinsics-x86.ll

	Show First 20 Lines • Show All 395 Lines • ▼ Show 20 Lines


	define <4 x float> @test_x86_sse_rcp_ps(<4 x float> %a0) {			define <4 x float> @test_x86_sse_rcp_ps(<4 x float> %a0) {
	; SSE-LABEL: test_x86_sse_rcp_ps:			; SSE-LABEL: test_x86_sse_rcp_ps:
	; SSE: ## BB#0:			; SSE: ## BB#0:
	; SSE-NEXT: rcpps %xmm0, %xmm0 ## encoding: [0x0f,0x53,0xc0]			; SSE-NEXT: rcpps %xmm0, %xmm0 ## encoding: [0x0f,0x53,0xc0]
	; SSE-NEXT: retl ## encoding: [0xc3]			; SSE-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX2-LABEL: test_x86_sse_rcp_ps:			; VCHECK-LABEL: test_x86_sse_rcp_ps:
	; AVX2: ## BB#0:			; VCHECK: ## BB#0:
	; AVX2-NEXT: vrcpps %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x53,0xc0]			; VCHECK-NEXT: vrcpps %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x53,0xc0]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; VCHECK-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse_rcp_ps:
	; SKX: ## BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm0 ## encoding: [0x62,0xf2,0x7d,0x08,0x4c,0xc0]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.sse.rcp.ps(<4 x float> %a0) ; <<4 x float>> [#uses=1]			%res = call <4 x float> @llvm.x86.sse.rcp.ps(<4 x float> %a0) ; <<4 x float>> [#uses=1]
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.sse.rcp.ps(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rcp.ps(<4 x float>) nounwind readnone


	define <4 x float> @test_x86_sse_rcp_ss(<4 x float> %a0) {			define <4 x float> @test_x86_sse_rcp_ss(<4 x float> %a0) {
	; SSE-LABEL: test_x86_sse_rcp_ss:			; SSE-LABEL: test_x86_sse_rcp_ss:
	Show All 12 Lines


	define <4 x float> @test_x86_sse_rsqrt_ps(<4 x float> %a0) {			define <4 x float> @test_x86_sse_rsqrt_ps(<4 x float> %a0) {
	; SSE-LABEL: test_x86_sse_rsqrt_ps:			; SSE-LABEL: test_x86_sse_rsqrt_ps:
	; SSE: ## BB#0:			; SSE: ## BB#0:
	; SSE-NEXT: rsqrtps %xmm0, %xmm0 ## encoding: [0x0f,0x52,0xc0]			; SSE-NEXT: rsqrtps %xmm0, %xmm0 ## encoding: [0x0f,0x52,0xc0]
	; SSE-NEXT: retl ## encoding: [0xc3]			; SSE-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX2-LABEL: test_x86_sse_rsqrt_ps:			; VCHECK-LABEL: test_x86_sse_rsqrt_ps:
	; AVX2: ## BB#0:			; VCHECK: ## BB#0:
	; AVX2-NEXT: vrsqrtps %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x52,0xc0]			; VCHECK-NEXT: vrsqrtps %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x52,0xc0]
	; AVX2-NEXT: retl ## encoding: [0xc3]			; VCHECK-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse_rsqrt_ps:
	; SKX: ## BB#0:
	; SKX-NEXT: vrsqrt14ps %xmm0, %xmm0 ## encoding: [0x62,0xf2,0x7d,0x08,0x4e,0xc0]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float> %a0) ; <<4 x float>> [#uses=1]			%res = call <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float> %a0) ; <<4 x float>> [#uses=1]
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.sse.rsqrt.ps(<4 x float>) nounwind readnone


	define <4 x float> @test_x86_sse_rsqrt_ss(<4 x float> %a0) {			define <4 x float> @test_x86_sse_rsqrt_ss(<4 x float> %a0) {
	; SSE-LABEL: test_x86_sse_rsqrt_ss:			; SSE-LABEL: test_x86_sse_rsqrt_ss:
	▲ Show 20 Lines • Show All 257 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse-schedule.ll

	Show First 20 Lines • Show All 2,541 Lines • ▼ Show 20 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vrcpps %xmm0, %xmm0 # sched: [4:1.00]			; SKYLAKE-NEXT: vrcpps %xmm0, %xmm0 # sched: [4:1.00]
	; SKYLAKE-NEXT: vrcpps (%rdi), %xmm1 # sched: [10:1.00]			; SKYLAKE-NEXT: vrcpps (%rdi), %xmm1 # sched: [10:1.00]
	; SKYLAKE-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [7:1.00]			; SKYLAKE-NEXT: retq # sched: [7:1.00]
	;			;
	; SKX-LABEL: test_rcpps:			; SKX-LABEL: test_rcpps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrcp14ps %xmm0, %xmm0 # sched: [4:1.00]			; SKX-NEXT: vrcpps %xmm0, %xmm0 # sched: [4:1.00]
	; SKX-NEXT: vrcp14ps (%rdi), %xmm1 # sched: [10:1.00]			; SKX-NEXT: vrcpps (%rdi), %xmm1 # sched: [10:1.00]
	; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_rcpps:			; BTVER2-LABEL: test_rcpps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vrcpps (%rdi), %xmm1 # sched: [7:1.00]			; BTVER2-NEXT: vrcpps (%rdi), %xmm1 # sched: [7:1.00]
	; BTVER2-NEXT: vrcpps %xmm0, %xmm0 # sched: [2:1.00]			; BTVER2-NEXT: vrcpps %xmm0, %xmm0 # sched: [2:1.00]
	; BTVER2-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; SKYLAKE: # BB#0:			; SKYLAKE: # BB#0:
	; SKYLAKE-NEXT: vrsqrtps %xmm0, %xmm0 # sched: [4:1.00]			; SKYLAKE-NEXT: vrsqrtps %xmm0, %xmm0 # sched: [4:1.00]
	; SKYLAKE-NEXT: vrsqrtps (%rdi), %xmm1 # sched: [10:1.00]			; SKYLAKE-NEXT: vrsqrtps (%rdi), %xmm1 # sched: [10:1.00]
	; SKYLAKE-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.50]			; SKYLAKE-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.50]
	; SKYLAKE-NEXT: retq # sched: [7:1.00]			; SKYLAKE-NEXT: retq # sched: [7:1.00]
	;			;
	; SKX-LABEL: test_rsqrtps:			; SKX-LABEL: test_rsqrtps:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vrsqrt14ps %xmm0, %xmm0 # sched: [4:1.00]			; SKX-NEXT: vrsqrtps %xmm0, %xmm0 # sched: [4:1.00]
	; SKX-NEXT: vrsqrt14ps (%rdi), %xmm1 # sched: [10:1.00]			; SKX-NEXT: vrsqrtps (%rdi), %xmm1 # sched: [10:1.00]
	; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.33]			; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [4:0.33]
	; SKX-NEXT: retq # sched: [7:1.00]			; SKX-NEXT: retq # sched: [7:1.00]
	;			;
	; BTVER2-LABEL: test_rsqrtps:			; BTVER2-LABEL: test_rsqrtps:
	; BTVER2: # BB#0:			; BTVER2: # BB#0:
	; BTVER2-NEXT: vrsqrtps (%rdi), %xmm1 # sched: [7:1.00]			; BTVER2-NEXT: vrsqrtps (%rdi), %xmm1 # sched: [7:1.00]
	; BTVER2-NEXT: vrsqrtps %xmm0, %xmm0 # sched: [2:1.00]			; BTVER2-NEXT: vrsqrtps %xmm0, %xmm0 # sched: [2:1.00]
	; BTVER2-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [3:1.00]			; BTVER2-NEXT: vaddps %xmm1, %xmm0, %xmm0 # sched: [3:1.00]
	▲ Show 20 Lines • Show All 971 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE rcp/rsqrt intrinsics when AVX512 features are enabled.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 121594

llvm/trunk/lib/Target/X86/X86ISelLowering.h

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

llvm/trunk/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/trunk/lib/Target/X86/X86InstrSSE.td

llvm/trunk/lib/Target/X86/X86IntrinsicsInfo.h

llvm/trunk/test/CodeGen/X86/avx-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/avx-schedule.ll

llvm/trunk/test/CodeGen/X86/recip-fastmath.ll

llvm/trunk/test/CodeGen/X86/recip-fastmath2.ll

llvm/trunk/test/CodeGen/X86/sse-intrinsics-x86.ll

llvm/trunk/test/CodeGen/X86/sse-schedule.ll

[X86] Don't use RCP14 and RSQRT14 for reciprocal estimations or for legacy SSE rcp/rsqrt intrinsics when AVX512 features are enabled.
ClosedPublic