This is an archive of the discontinued LLVM Phabricator instance.

[X86][AVX] Improve vXi64 UITOFP vXf64/vXf32 support (P38226/PR38970)
AbandonedPublic

Authored by RKSimon on Oct 6 2018, 4:13 PM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
andreadb
efriedma
hfinkel

Summary

An initial attempt to try and improve vXi64 UITOFP conversions:

vXi64-vXf64 - perform this as a true vectorization instead of (partially vectorized) scalar conversions by adding vector support to ExpandLegalINT_TO_FP)
vXi64-vXf32 - SSE customized versions of the ExpandLegalINT_TO_FP code, avoiding a lot of branches that were often poorly predicted

There's still room for improvement:

uitofp_4i64_to_4f64 - AVX1 codegen should be able to perform the vpsrlq xmm shifts as ymm (v8f32) shuffles
uitofp_Xi64_to_Xf32 - some of the BLENDV cases should be selected from the sign bit directly and not need a shift/comparison

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Oct 6 2018, 4:13 PM

craig.topper added inline comments.Oct 6 2018, 4:53 PM

lib/CodeGen/SelectionDAG/LegalizeDAG.cpp
2415	So this code was guaranteed unreachable due to the assert? Are we sure its correct for signed? That assert has been there since 2006 and Owen Anderson added the algorithm for __floatundidf in 2010. So this code might actually be a different version of unsigned handling.

craig.topper added inline comments.Oct 6 2018, 5:34 PM

lib/CodeGen/SelectionDAG/LegalizeDAG.cpp
2362	I think we really need to handle this in the expand code in LegalizeVectorOps. We hit the expand there first which scalarizes it. Then DAG combine reassembled it in reduceBuildVecConvertToConvertBuildVec. The we hit this code in LegalizeDAG. But I don't think we really want to rely on DAG combine like that.

craig.topper added inline comments.Oct 6 2018, 5:50 PM

lib/Target/X86/X86ISelLowering.cpp
17122	is64Bit should be here as well I think?

RKSimon mentioned this in D53258: [LegalizeDAG] Add generic vector CTPOP expansion (PR32655).Oct 15 2018, 2:15 PM

RKSimon mentioned this in rL344602: [LegalizeDAG] ExpandLegalINT_TO_FP - cleanup UINT_TO_FP i64 -> f64 expansion..Oct 16 2018, 3:08 AM

RKSimon mentioned this in D53649: [TargetLowering] Improve vXi64 UITOFP vXf64 support (P38226).Oct 24 2018, 8:38 AM

RKSimon mentioned this in rL345158: [LegalizeDAG] ExpandLegalINT_TO_FP - cleanup UINT_TO_FP i64 -> f32 expansion..Oct 24 2018, 9:37 AM

RKSimon mentioned this in rL345256: [TargetLowering] Improve vXi64 UINT_TO_FP vXf64 support (P38226).Oct 25 2018, 4:18 AM

RKSimon mentioned this in D53703: [LegalizeDAG] Remove dead SINT_TO_FP legalization code.Oct 25 2018, 7:30 AM

RKSimon mentioned this in rL345290: [LegalizeDAG] Remove dead SINT_TO_FP legalization code.Oct 25 2018, 10:46 AM

craig.topper mentioned this in D71956: [X86] Improve v2i64->v2f32 and v4i64->v4f32 uint_to_fp on avx and avx2 targets..Dec 28 2019, 12:25 AM

craig.topper mentioned this in rG95840866b7d8: [X86] Improve v2i64->v2f32 and v4i64->v4f32 uint_to_fp on avx and avx2 targets..Jan 5 2020, 6:44 PM

@craig.topper's recent patches cover this

Herald added a project: Restricted Project. · View Herald TranscriptJan 6 2020, 2:47 AM

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

	LegalizeDAG.cpp
	LegalizeDAG.cpp (revision 343926)

42 lines

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 343926)

90 lines

test/

CodeGen/

X86/

	vec_int_to_fp.ll
	vec_int_to_fp.ll (revision 343926)

914 lines

Diff 168577

lib/CodeGen/SelectionDAG/LegalizeDAG.cpp

Show First 20 Lines • Show All 2,347 Lines • ▼ Show 20 Lines	SDValue Bias = DAG.getConstantFP(isSigned ?
BitsToDouble(0x4330000000000000ULL),		BitsToDouble(0x4330000000000000ULL),
dl, MVT::f64);		dl, MVT::f64);
// subtract the bias		// subtract the bias
SDValue Sub = DAG.getNode(ISD::FSUB, dl, MVT::f64, Load, Bias);		SDValue Sub = DAG.getNode(ISD::FSUB, dl, MVT::f64, Load, Bias);
// final result		// final result
SDValue Result = DAG.getFPExtendOrRound(Sub, dl, DestVT);		SDValue Result = DAG.getFPExtendOrRound(Sub, dl, DestVT);
return Result;		return Result;
}		}
assert(!isSigned && "Legalize cannot Expand SINT_TO_FP for i64 yet");
// Code below here assumes !isSigned without checking again.

// Implementation of unsigned i64 to f64 following the algorithm in		// Implementation of unsigned i64 to f64 following the algorithm in
// __floatundidf in compiler_rt. This implementation has the advantage		// __floatundidf in compiler_rt. This implementation has the advantage
// of performing rounding correctly, both in the default rounding mode		// of performing rounding correctly, both in the default rounding mode
// and in all alternate rounding modes.		// and in all alternate rounding modes.
// TODO: Generalize this for use with other types.		if (!isSigned && SrcVT.getScalarType() == MVT::i64 &&
if (SrcVT == MVT::i64 && DestVT == MVT::f64) {		DestVT.getScalarType() == MVT::f64) {
		craig.topperUnsubmitted Not Done Reply Inline Actions I think we really need to handle this in the expand code in LegalizeVectorOps. We hit the expand there first which scalarizes it. Then DAG combine reassembled it in reduceBuildVecConvertToConvertBuildVec. The we hit this code in LegalizeDAG. But I don't think we really want to rely on DAG combine like that. craig.topper: I think we really need to handle this in the expand code in LegalizeVectorOps. We hit the…
LLVM_DEBUG(dbgs() << "Converting unsigned i64 to f64\n");		LLVM_DEBUG(dbgs() << "Converting unsigned i64 to f64\n");
SDValue TwoP52 =		SDValue TwoP52 = DAG.getConstant(UINT64_C(0x4330000000000000), dl, SrcVT);
DAG.getConstant(UINT64_C(0x4330000000000000), dl, MVT::i64);		SDValue TwoP84PlusTwoP52 = DAG.getConstantFP(
SDValue TwoP84PlusTwoP52 =		BitsToDouble(UINT64_C(0x4530000000100000)), dl, DestVT);
DAG.getConstantFP(BitsToDouble(UINT64_C(0x4530000000100000)), dl,		SDValue TwoP84 = DAG.getConstant(UINT64_C(0x4530000000000000), dl, SrcVT);
MVT::f64);		SDValue Mask32 = DAG.getConstant(APInt::getLowBitsSet(64, 32), dl, SrcVT);
SDValue TwoP84 =
DAG.getConstant(UINT64_C(0x4530000000000000), dl, MVT::i64);		EVT ShiftVT = TLI.getShiftAmountTy(SrcVT, DAG.getDataLayout());
		SDValue ShiftConst = DAG.getConstant(32, dl, ShiftVT);
SDValue Lo = DAG.getZeroExtendInReg(Op0, dl, MVT::i32);		SDValue Lo = DAG.getNode(ISD::AND, dl, SrcVT, Op0, Mask32);
SDValue Hi = DAG.getNode(ISD::SRL, dl, MVT::i64, Op0,		SDValue Hi = DAG.getNode(ISD::SRL, dl, SrcVT, Op0, ShiftConst);
DAG.getConstant(32, dl, MVT::i64));		SDValue LoOr = DAG.getNode(ISD::OR, dl, SrcVT, Lo, TwoP52);
SDValue LoOr = DAG.getNode(ISD::OR, dl, MVT::i64, Lo, TwoP52);		SDValue HiOr = DAG.getNode(ISD::OR, dl, SrcVT, Hi, TwoP84);
SDValue HiOr = DAG.getNode(ISD::OR, dl, MVT::i64, Hi, TwoP84);		SDValue LoFlt = DAG.getBitcast(DestVT, LoOr);
SDValue LoFlt = DAG.getNode(ISD::BITCAST, dl, MVT::f64, LoOr);		SDValue HiFlt = DAG.getBitcast(DestVT, HiOr);
SDValue HiFlt = DAG.getNode(ISD::BITCAST, dl, MVT::f64, HiOr);		SDValue HiSub = DAG.getNode(ISD::FSUB, dl, DestVT, HiFlt, TwoP84PlusTwoP52);
SDValue HiSub = DAG.getNode(ISD::FSUB, dl, MVT::f64, HiFlt,		return DAG.getNode(ISD::FADD, dl, DestVT, LoFlt, HiSub);
TwoP84PlusTwoP52);
return DAG.getNode(ISD::FADD, dl, MVT::f64, LoFlt, HiSub);
}		}

// TODO: Generalize this for use with other types.		// TODO: Generalize this for use with other types.
if (SrcVT == MVT::i64 && DestVT == MVT::f32) {		if (SrcVT == MVT::i64 && DestVT == MVT::f32) {
LLVM_DEBUG(dbgs() << "Converting unsigned i64 to f32\n");		LLVM_DEBUG(dbgs() << "Converting unsigned i64 to f32\n");
// For unsigned conversions, convert them to signed conversions using the		// For unsigned conversions, convert them to signed conversions using the
// algorithm from the x86_64 __floatundidf in compiler_rt.		// algorithm from the x86_64 __floatundidf in compiler_rt.
if (!isSigned) {		if (!isSigned) {
Show All 15 Lines	if (!isSigned) {
//pseudo-op, or, even better, for whole-function isel.		//pseudo-op, or, even better, for whole-function isel.
SDValue SignBitTest = DAG.getSetCC(dl, getSetCCResultType(MVT::i64),		SDValue SignBitTest = DAG.getSetCC(dl, getSetCCResultType(MVT::i64),
Op0, DAG.getConstant(0, dl, MVT::i64), ISD::SETLT);		Op0, DAG.getConstant(0, dl, MVT::i64), ISD::SETLT);
return DAG.getSelect(dl, MVT::f32, SignBitTest, Slow, Fast);		return DAG.getSelect(dl, MVT::f32, SignBitTest, Slow, Fast);
}		}

// Otherwise, implement the fully general conversion.		// Otherwise, implement the fully general conversion.

SDValue And = DAG.getNode(ISD::AND, dl, MVT::i64, Op0,		SDValue And = DAG.getNode(ISD::AND, dl, MVT::i64, Op0,
craig.topperUnsubmitted Not Done Reply Inline Actions So this code was guaranteed unreachable due to the assert? Are we sure its correct for signed? That assert has been there since 2006 and Owen Anderson added the algorithm for __floatundidf in 2010. So this code might actually be a different version of unsigned handling. craig.topper: So this code was guaranteed unreachable due to the assert? Are we sure its correct for signed?
DAG.getConstant(UINT64_C(0xfffffffffffff800), dl, MVT::i64));		DAG.getConstant(UINT64_C(0xfffffffffffff800), dl, MVT::i64));
SDValue Or = DAG.getNode(ISD::OR, dl, MVT::i64, And,		SDValue Or = DAG.getNode(ISD::OR, dl, MVT::i64, And,
DAG.getConstant(UINT64_C(0x800), dl, MVT::i64));		DAG.getConstant(UINT64_C(0x800), dl, MVT::i64));
SDValue And2 = DAG.getNode(ISD::AND, dl, MVT::i64, Op0,		SDValue And2 = DAG.getNode(ISD::AND, dl, MVT::i64, Op0,
DAG.getConstant(UINT64_C(0x7ff), dl, MVT::i64));		DAG.getConstant(UINT64_C(0x7ff), dl, MVT::i64));
SDValue Ne = DAG.getSetCC(dl, getSetCCResultType(MVT::i64), And2,		SDValue Ne = DAG.getSetCC(dl, getSetCCResultType(MVT::i64), And2,
DAG.getConstant(UINT64_C(0), dl, MVT::i64),		DAG.getConstant(UINT64_C(0), dl, MVT::i64),
ISD::SETNE);		ISD::SETNE);
Show All 14 Lines	SDValue TwoP32 =
MVT::f64);		MVT::f64);
SDValue Fmul = DAG.getNode(ISD::FMUL, dl, MVT::f64, TwoP32, Fcvt);		SDValue Fmul = DAG.getNode(ISD::FMUL, dl, MVT::f64, TwoP32, Fcvt);
SDValue Lo = DAG.getNode(ISD::TRUNCATE, dl, MVT::i32, Sel2);		SDValue Lo = DAG.getNode(ISD::TRUNCATE, dl, MVT::i32, Sel2);
SDValue Fcvt2 = DAG.getNode(ISD::UINT_TO_FP, dl, MVT::f64, Lo);		SDValue Fcvt2 = DAG.getNode(ISD::UINT_TO_FP, dl, MVT::f64, Lo);
SDValue Fadd = DAG.getNode(ISD::FADD, dl, MVT::f64, Fmul, Fcvt2);		SDValue Fadd = DAG.getNode(ISD::FADD, dl, MVT::f64, Fmul, Fcvt2);
return DAG.getNode(ISD::FP_ROUND, dl, MVT::f32, Fadd,		return DAG.getNode(ISD::FP_ROUND, dl, MVT::f32, Fadd,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
}		}
		assert(!isSigned && "Legalize cannot Expand SINT_TO_FP for i64 yet");
		// Code below here assumes !isSigned without checking again.

SDValue Tmp1 = DAG.getNode(ISD::SINT_TO_FP, dl, DestVT, Op0);		SDValue Tmp1 = DAG.getNode(ISD::SINT_TO_FP, dl, DestVT, Op0);

SDValue SignSet = DAG.getSetCC(dl, getSetCCResultType(SrcVT), Op0,		SDValue SignSet = DAG.getSetCC(dl, getSetCCResultType(SrcVT), Op0,
DAG.getConstant(0, dl, SrcVT), ISD::SETLT);		DAG.getConstant(0, dl, SrcVT), ISD::SETLT);
SDValue Zero = DAG.getIntPtrConstant(0, dl),		SDValue Zero = DAG.getIntPtrConstant(0, dl),
Four = DAG.getIntPtrConstant(4, dl);		Four = DAG.getIntPtrConstant(4, dl);
SDValue CstOffset = DAG.getSelect(dl, Zero.getValueType(),		SDValue CstOffset = DAG.getSelect(dl, Zero.getValueType(),
▲ Show 20 Lines • Show All 2,349 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,034 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
// even though v8i16 is a legal type.		// even though v8i16 is a legal type.
setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v8i16, MVT::v8i32);
setOperationPromotedToType(ISD::FP_TO_UINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::FP_TO_UINT, MVT::v8i16, MVT::v8i32);
setOperationAction(ISD::FP_TO_SINT, MVT::v8i32, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v8i32, Legal);

setOperationAction(ISD::SINT_TO_FP, MVT::v8i32, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v8i32, Legal);
setOperationAction(ISD::FP_ROUND, MVT::v4f32, Legal);		setOperationAction(ISD::FP_ROUND, MVT::v4f32, Legal);

		if (Subtarget.is64Bit() && !Subtarget.hasAVX512())
		setOperationAction(ISD::UINT_TO_FP, MVT::v4i64, Custom);

if (!Subtarget.hasAVX512())		if (!Subtarget.hasAVX512())
setOperationAction(ISD::BITCAST, MVT::v32i1, Custom);		setOperationAction(ISD::BITCAST, MVT::v32i1, Custom);

for (MVT VT : MVT::fp_vector_valuetypes())		for (MVT VT : MVT::fp_vector_valuetypes())
setLoadExtAction(ISD::EXTLOAD, VT, MVT::v4f32, Legal);		setLoadExtAction(ISD::EXTLOAD, VT, MVT::v4f32, Legal);

// In the customized shift lowering, the legal v8i32/v4i64 cases		// In the customized shift lowering, the legal v8i32/v4i64 cases
// in AVX2 will be recognized.		// in AVX2 will be recognized.
▲ Show 20 Lines • Show All 16,001 Lines • ▼ Show 20 Lines	static SDValue lowerUINT_TO_FP_vXi32(SDValue Op, SelectionDAG &DAG,
// TODO: Are there any fast-math-flags to propagate here?		// TODO: Are there any fast-math-flags to propagate here?
SDValue FHigh =		SDValue FHigh =
DAG.getNode(ISD::FADD, DL, VecFloatVT, HighBitcast, VecCstFAdd);		DAG.getNode(ISD::FADD, DL, VecFloatVT, HighBitcast, VecCstFAdd);
// return (float4) lo + fhi;		// return (float4) lo + fhi;
SDValue LowBitcast = DAG.getBitcast(VecFloatVT, Low);		SDValue LowBitcast = DAG.getBitcast(VecFloatVT, Low);
return DAG.getNode(ISD::FADD, DL, VecFloatVT, LowBitcast, FHigh);		return DAG.getNode(ISD::FADD, DL, VecFloatVT, LowBitcast, FHigh);
}		}

		static SDValue lowerUINT_TO_FP_vXi64(SDValue Op, SelectionDAG &DAG,
		const X86Subtarget &Subtarget,
		const SDLoc &dl) {
		MVT VT = Op.getSimpleValueType();
		if (VT.getScalarType() != MVT::f32)
		return SDValue();

		SDValue Src = Op.getOperand(0);
		MVT SrcVT = Src.getSimpleValueType();
		int NumElts = SrcVT.getVectorNumElements();

		SDValue Mask = DAG.getConstant(1, dl, SrcVT);
		SDValue Sign = DAG.getNode(ISD::OR, dl, SrcVT,
		DAG.getNode(ISD::SRL, dl, SrcVT, Src, Mask),
		DAG.getNode(ISD::AND, dl, SrcVT, Src, Mask));
		SDValue SignSrc = DAG.getSelect(dl, SrcVT, Src, Sign, Src);

		// Scalarize actual i64 to f32 conversion.
		SmallVector<SDValue, 4> CvtScalars;
		for (int i = 0; i != NumElts; ++i) {
		SDValue Src = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::i64, SignSrc,
		DAG.getIntPtrConstant(i, dl));
		CvtScalars.push_back(DAG.getNode(ISD::SINT_TO_FP, dl, MVT::f32, Src));
		}
		SDValue SignCvt = DAG.getBuildVector(VT, dl, CvtScalars);

		// Extract the upper 32-bits of each double - we need the sign for selection.
		SmallVector<int, 4> PackMask;
		for (int i = 0; i != NumElts; ++i)
		PackMask.push_back((i * 2) + 1);

		unsigned SizeInBits = SrcVT.getSizeInBits();
		MVT SrcVT32 = MVT::getVectorVT(MVT::i32, NumElts);
		SDValue Lo = extractSubVector(Src, 0, DAG, dl, SizeInBits / 2);
		SDValue Hi = extractSubVector(Src, NumElts / 2, DAG, dl, SizeInBits / 2);
		SDValue PackSrc =
		DAG.getVectorShuffle(SrcVT32, dl, DAG.getBitcast(SrcVT32, Lo),
		DAG.getBitcast(SrcVT32, Hi), PackMask);
		return DAG.getSelect(dl, VT, PackSrc,
		DAG.getNode(ISD::FADD, dl, VT, SignCvt, SignCvt),
		SignCvt);
		}

static SDValue lowerUINT_TO_FP_vec(SDValue Op, SelectionDAG &DAG,		static SDValue lowerUINT_TO_FP_vec(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDValue N0 = Op.getOperand(0);		SDValue N0 = Op.getOperand(0);
MVT SrcVT = N0.getSimpleValueType();		MVT SrcVT = N0.getSimpleValueType();
SDLoc dl(Op);		SDLoc dl(Op);

switch (SrcVT.SimpleTy) {		switch (SrcVT.SimpleTy) {
default:		default:
llvm_unreachable("Custom UINT_TO_FP is not supported!");		llvm_unreachable("Custom UINT_TO_FP is not supported!");
case MVT::v2i32:		case MVT::v2i32:
return lowerUINT_TO_FP_v2i32(Op, DAG, Subtarget, dl);		return lowerUINT_TO_FP_v2i32(Op, DAG, Subtarget, dl);
case MVT::v4i32:		case MVT::v4i32:
case MVT::v8i32:		case MVT::v8i32:
assert(!Subtarget.hasAVX512());		assert(!Subtarget.hasAVX512());
return lowerUINT_TO_FP_vXi32(Op, DAG, Subtarget);		return lowerUINT_TO_FP_vXi32(Op, DAG, Subtarget);
		case MVT::v4i64:
		assert(Subtarget.hasSSE41() && !Subtarget.hasAVX512());
		craig.topperUnsubmitted Not Done Reply Inline Actions is64Bit should be here as well I think? craig.topper: is64Bit should be here as well I think?
		return lowerUINT_TO_FP_vXi64(Op, DAG, Subtarget, dl);
}		}
}		}

SDValue X86TargetLowering::LowerUINT_TO_FP(SDValue Op,		SDValue X86TargetLowering::LowerUINT_TO_FP(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDValue N0 = Op.getOperand(0);		SDValue N0 = Op.getOperand(0);
SDLoc dl(Op);		SDLoc dl(Op);
auto PtrVT = getPointerTy(DAG.getDataLayout());		auto PtrVT = getPointerTy(DAG.getDataLayout());
▲ Show 20 Lines • Show All 9,026 Lines • ▼ Show 20 Lines	case ISD::UINT_TO_FP: {
if (VT != MVT::v2f32)		if (VT != MVT::v2f32)
return;		return;
SDValue Src = N->getOperand(0);		SDValue Src = N->getOperand(0);
EVT SrcVT = Src.getValueType();		EVT SrcVT = Src.getValueType();
if (Subtarget.hasDQI() && Subtarget.hasVLX() && SrcVT == MVT::v2i64) {		if (Subtarget.hasDQI() && Subtarget.hasVLX() && SrcVT == MVT::v2i64) {
Results.push_back(DAG.getNode(X86ISD::CVTUI2P, dl, MVT::v4f32, Src));		Results.push_back(DAG.getNode(X86ISD::CVTUI2P, dl, MVT::v4f32, Src));
return;		return;
}		}
		if (SrcVT == MVT::v2i64 && Subtarget.is64Bit() && Subtarget.hasAVX() &&
		!Subtarget.hasAVX512()) {
		// TODO Any SSE41+ subtarget should work here but BLENDV codegen ends up
		// a lot worse than it should be.
		SDValue Zero = DAG.getConstant(0, dl, SrcVT);
		SDValue Mask = DAG.getConstant(1, dl, SrcVT);
		SDValue Sign = DAG.getNode(ISD::OR, dl, SrcVT,
		DAG.getNode(ISD::SRL, dl, SrcVT, Src, Mask),
		DAG.getNode(ISD::AND, dl, SrcVT, Src, Mask));
		SDValue IsNeg = DAG.getSetCC(dl, MVT::v2i1, Zero, Src, ISD::SETLT);
		SDValue SignSrc = DAG.getSelect(dl, SrcVT, IsNeg, Sign, Src);
		SmallVector<SDValue, 4> SignCvts(4, DAG.getUNDEF(MVT::f32));
		for (int i = 0; i != 2; ++i) {
		SDValue Src = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::i64,
		SignSrc, DAG.getIntPtrConstant(i, dl));
		SignCvts[i] = DAG.getNode(ISD::SINT_TO_FP, dl, MVT::f32, Src);
		};
		SDValue SignCvt = DAG.getBuildVector(MVT::v4f32, dl, SignCvts);
		IsNeg = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i1, IsNeg,
		DAG.getUNDEF(MVT::v2i1));
		SDValue Slow = DAG.getNode(ISD::FADD, dl, MVT::v4f32, SignCvt, SignCvt);
		SDValue Cvt = DAG.getSelect(dl, MVT::v4f32, IsNeg, Slow, SignCvt);
		Results.push_back(Cvt);
		return;
		}
if (SrcVT != MVT::v2i32)		if (SrcVT != MVT::v2i32)
return;		return;
SDValue ZExtIn = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::v2i64, Src);		SDValue ZExtIn = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::v2i64, Src);
SDValue VBias =		SDValue VBias =
DAG.getConstantFP(BitsToDouble(0x4330000000000000ULL), dl, MVT::v2f64);		DAG.getConstantFP(BitsToDouble(0x4330000000000000ULL), dl, MVT::v2f64);
SDValue Or = DAG.getNode(ISD::OR, dl, MVT::v2i64, ZExtIn,		SDValue Or = DAG.getNode(ISD::OR, dl, MVT::v2i64, ZExtIn,
DAG.getBitcast(MVT::v2i64, VBias));		DAG.getBitcast(MVT::v2i64, VBias));
Or = DAG.getBitcast(MVT::v2f64, Or);		Or = DAG.getBitcast(MVT::v2f64, Or);
▲ Show 20 Lines • Show All 12,921 Lines • ▼ Show 20 Lines	static SDValue combineVectorCompareAndMaskUnaryOp(SDNode *N,
return SDValue();		return SDValue();
}		}

static SDValue combineUIntToFP(SDNode *N, SelectionDAG &DAG,		static SDValue combineUIntToFP(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDValue Op0 = N->getOperand(0);		SDValue Op0 = N->getOperand(0);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
EVT InVT = Op0.getValueType();		EVT InVT = Op0.getValueType();
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();

// UINT_TO_FP(vXi1) -> SINT_TO_FP(ZEXT(vXi1 to vXi32))		// UINT_TO_FP(vXi1) -> SINT_TO_FP(ZEXT(vXi1 to vXi32))
// UINT_TO_FP(vXi8) -> SINT_TO_FP(ZEXT(vXi8 to vXi32))		// UINT_TO_FP(vXi8) -> SINT_TO_FP(ZEXT(vXi8 to vXi32))
// UINT_TO_FP(vXi16) -> SINT_TO_FP(ZEXT(vXi16 to vXi32))		// UINT_TO_FP(vXi16) -> SINT_TO_FP(ZEXT(vXi16 to vXi32))
if (InVT.isVector() && InVT.getScalarSizeInBits() < 32) {		if (InVT.isVector() && InVT.getScalarSizeInBits() < 32) {
SDLoc dl(N);		SDLoc dl(N);
EVT DstVT = EVT::getVectorVT(*DAG.getContext(), MVT::i32,		EVT DstVT = EVT::getVectorVT(*DAG.getContext(), MVT::i32,
InVT.getVectorNumElements());		InVT.getVectorNumElements());
SDValue P = DAG.getNode(ISD::ZERO_EXTEND, dl, DstVT, Op0);		SDValue P = DAG.getNode(ISD::ZERO_EXTEND, dl, DstVT, Op0);

// UINT_TO_FP isn't legal without AVX512 so use SINT_TO_FP.		// UINT_TO_FP isn't legal without AVX512 so use SINT_TO_FP.
return DAG.getNode(ISD::SINT_TO_FP, dl, VT, P);		return DAG.getNode(ISD::SINT_TO_FP, dl, VT, P);
}		}

		// If upper bits are zero, then use SINT_TO_FP.
		// UINT_TO_FP(vXi64) -> SINT_TO_FP(TRUNC(vXi64 to vXi32))
		unsigned LeadingZeros = DAG.computeKnownBits(Op0).countMinLeadingZeros();
		if (LeadingZeros > 32 && !TLI.isOperationLegal(ISD::UINT_TO_FP, InVT)) {
		SDLoc dl(N);
		EVT DstVT = MVT::i32;
		if (InVT.isVector())
		DstVT = EVT::getVectorVT(*DAG.getContext(), DstVT,
		InVT.getVectorNumElements());
		SDValue P = DAG.getNode(ISD::TRUNCATE, dl, DstVT, Op0);
		return DAG.getNode(ISD::SINT_TO_FP, dl, VT, P);
		}

// Since UINT_TO_FP is legal (it's marked custom), dag combiner won't		// Since UINT_TO_FP is legal (it's marked custom), dag combiner won't
// optimize it to a SINT_TO_FP when the sign bit is known zero. Perform		// optimize it to a SINT_TO_FP when the sign bit is known zero. Perform
// the optimization here.		// the optimization here.
if (DAG.SignBitIsZero(Op0))		if (LeadingZeros >= 1 && TLI.isOperationLegalOrCustom(ISD::SINT_TO_FP, InVT))
return DAG.getNode(ISD::SINT_TO_FP, SDLoc(N), VT, Op0);		return DAG.getNode(ISD::SINT_TO_FP, SDLoc(N), VT, Op0);

return SDValue();		return SDValue();
}		}

static SDValue combineSIntToFP(SDNode *N, SelectionDAG &DAG,		static SDValue combineSIntToFP(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
// First try to optimize away the conversion entirely when it's		// First try to optimize away the conversion entirely when it's
▲ Show 20 Lines • Show All 2,481 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 879 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; SSE41-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE41-NEXT: subpd %xmm4, %xmm1			; SSE41-NEXT: subpd %xmm4, %xmm1
	; SSE41-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; SSE41-NEXT: subpd %xmm4, %xmm3			; SSE41-NEXT: subpd %xmm4, %xmm3
	; SSE41-NEXT: haddpd %xmm3, %xmm1			; SSE41-NEXT: haddpd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; VEX-LABEL: uitofp_4i64_to_4f64:			; AVX1-LABEL: uitofp_4i64_to_4f64:
	; VEX: # %bb.0:			; AVX1: # %bb.0:
	; VEX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; VEX-NEXT: vmovapd {{.*#+}} xmm2 = [1127219200,1160773632,0,0]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; VEX-NEXT: vunpcklps {{.*#+}} xmm3 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm1, %ymm1
	; VEX-NEXT: vmovapd {{.*#+}} xmm4 = [4503599627370496,1.9342813113834067E+25]			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; VEX-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; VEX-NEXT: vunpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; VEX-NEXT: vsubpd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vorpd {{.*}}(%rip), %ymm0, %ymm0
	; VEX-NEXT: vhaddpd %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vsubpd {{.*}}(%rip), %ymm0, %ymm0
	; VEX-NEXT: vunpcklps {{.*#+}} xmm3 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; AVX1-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: retq
	; VEX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,3,0,1]			;
	; VEX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; AVX2-LABEL: uitofp_4i64_to_4f64:
	; VEX-NEXT: vsubpd %xmm4, %xmm0, %xmm0			; AVX2: # %bb.0:
	; VEX-NEXT: vhaddpd %xmm0, %xmm3, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; VEX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; VEX-NEXT: retq			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
				; AVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
				; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
				; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
				; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
				; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
				; AVX2-NEXT: vsubpd %ymm2, %ymm0, %ymm0
				; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0
				; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i64_to_4f64:			; AVX512F-LABEL: uitofp_4i64_to_4f64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vmovq %xmm1, %rax			; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
	▲ Show 20 Lines • Show All 1,005 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm0, %xmm0			; SSE41-NEXT: xorps %xmm0, %xmm0
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm0			; SSE41-NEXT: cvtsi2ssq %rax, %xmm0
	; SSE41-NEXT: addss %xmm0, %xmm0			; SSE41-NEXT: addss %xmm0, %xmm0
	; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; VEX-LABEL: uitofp_2i64_to_4f32:			; VEX-LABEL: uitofp_2i64_to_4f32:
	; VEX: # %bb.0:			; VEX: # %bb.0:
				; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; VEX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm1
				; VEX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm2
				; VEX-NEXT: vpsrlq $1, %xmm0, %xmm3
				; VEX-NEXT: vpor %xmm2, %xmm3, %xmm2
				; VEX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; VEX-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; VEX-NEXT: testq %rax, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
	; VEX-NEXT: js .LBB39_1
	; VEX-NEXT: # %bb.2:
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; VEX-NEXT: jmp .LBB39_3
	; VEX-NEXT: .LBB39_1:
	; VEX-NEXT: movq %rax, %rcx
	; VEX-NEXT: shrq %rcx
	; VEX-NEXT: andl $1, %eax
	; VEX-NEXT: orq %rcx, %rax
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; VEX-NEXT: .LBB39_3:
	; VEX-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm0, %rax
	; VEX-NEXT: testq %rax, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0
	; VEX-NEXT: js .LBB39_4			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; VEX-NEXT: # %bb.5:			; VEX-NEXT: vaddps %xmm0, %xmm0, %xmm2
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0			; VEX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; VEX-NEXT: jmp .LBB39_6			; VEX-NEXT: vpslld $31, %xmm1, %xmm1
	; VEX-NEXT: .LBB39_4:			; VEX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; VEX-NEXT: movq %rax, %rcx
	; VEX-NEXT: shrq %rcx
	; VEX-NEXT: andl $1, %eax
	; VEX-NEXT: orq %rcx, %rax
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
	; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; VEX-NEXT: .LBB39_6:
	; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; VEX-NEXT: testq %rax, %rax
	; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; VEX-NEXT: js .LBB39_8
	; VEX-NEXT: # %bb.7:
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1
	; VEX-NEXT: .LBB39_8:
	; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; VEX-NEXT: retq			; VEX-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_2i64_to_4f32:			; AVX512F-LABEL: uitofp_2i64_to_4f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm1, %xmm1			; SSE41-NEXT: xorps %xmm1, %xmm1
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm1			; SSE41-NEXT: cvtsi2ssq %rax, %xmm1
	; SSE41-NEXT: addss %xmm1, %xmm1			; SSE41-NEXT: addss %xmm1, %xmm1
	; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; VEX-LABEL: uitofp_2i64_to_2f32:			; VEX-LABEL: uitofp_2i64_to_2f32:
	; VEX: # %bb.0:			; VEX: # %bb.0:
				; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; VEX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm1
				; VEX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm2
				; VEX-NEXT: vpsrlq $1, %xmm0, %xmm3
				; VEX-NEXT: vpor %xmm2, %xmm3, %xmm2
				; VEX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; VEX-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; VEX-NEXT: testq %rax, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
	; VEX-NEXT: js .LBB40_1
	; VEX-NEXT: # %bb.2:
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; VEX-NEXT: jmp .LBB40_3
	; VEX-NEXT: .LBB40_1:
	; VEX-NEXT: movq %rax, %rcx
	; VEX-NEXT: shrq %rcx
	; VEX-NEXT: andl $1, %eax
	; VEX-NEXT: orq %rcx, %rax
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; VEX-NEXT: .LBB40_3:
	; VEX-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm0, %rax
	; VEX-NEXT: testq %rax, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0
	; VEX-NEXT: js .LBB40_4			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; VEX-NEXT: # %bb.5:			; VEX-NEXT: vaddps %xmm0, %xmm0, %xmm2
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0			; VEX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero			; VEX-NEXT: vpslld $31, %xmm1, %xmm1
	; VEX-NEXT: retq			; VEX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; VEX-NEXT: .LBB40_4:			; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; VEX-NEXT: movq %rax, %rcx
	; VEX-NEXT: shrq %rcx
	; VEX-NEXT: andl $1, %eax
	; VEX-NEXT: orq %rcx, %rax
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0
	; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],zero,zero
	; VEX-NEXT: retq			; VEX-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_2i64_to_2f32:			; AVX512F-LABEL: uitofp_2i64_to_2f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: js .LBB41_8			; SSE41-NEXT: js .LBB41_8
	; SSE41-NEXT: # %bb.7:			; SSE41-NEXT: # %bb.7:
	; SSE41-NEXT: xorps %xmm1, %xmm1			; SSE41-NEXT: xorps %xmm1, %xmm1
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm1			; SSE41-NEXT: cvtsi2ssq %rax, %xmm1
	; SSE41-NEXT: .LBB41_8:			; SSE41-NEXT: .LBB41_8:
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; VEX-LABEL: uitofp_4i64_to_4f32_undef:			; AVX1-LABEL: uitofp_4i64_to_4f32_undef:
	; VEX: # %bb.0:			; AVX1: # %bb.0:
	; VEX-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; VEX-NEXT: testq %rax, %rax			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm1
	; VEX-NEXT: js .LBB41_1			; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm2
	; VEX-NEXT: # %bb.2:			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; VEX-NEXT: jmp .LBB41_3			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; VEX-NEXT: .LBB41_1:			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; VEX-NEXT: movq %rax, %rcx			; AVX1-NEXT: vmovq %xmm1, %rax
	; VEX-NEXT: shrq %rcx			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; VEX-NEXT: andl $1, %eax			; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; VEX-NEXT: orq %rcx, %rax			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vmovq %xmm1, %rax
	; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; VEX-NEXT: .LBB41_3:			; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; VEX-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; VEX-NEXT: testq %rax, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
	; VEX-NEXT: js .LBB41_4			; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; VEX-NEXT: # %bb.5:			; AVX1-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0			; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; VEX-NEXT: jmp .LBB41_6			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; VEX-NEXT: .LBB41_4:			; AVX1-NEXT: vzeroupper
	; VEX-NEXT: movq %rax, %rcx			; AVX1-NEXT: retq
	; VEX-NEXT: shrq %rcx			;
	; VEX-NEXT: andl $1, %eax			; AVX2-LABEL: uitofp_4i64_to_4f32_undef:
	; VEX-NEXT: orq %rcx, %rax			; AVX2: # %bb.0:
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm0			; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; VEX-NEXT: .LBB41_6:			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm1
	; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
	; VEX-NEXT: testq %rax, %rax			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; VEX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; VEX-NEXT: js .LBB41_8			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; VEX-NEXT: # %bb.7:			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm1			; AVX2-NEXT: vmovq %xmm1, %rax
	; VEX-NEXT: .LBB41_8:			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; VEX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; VEX-NEXT: retq			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
				; AVX2-NEXT: vmovq %xmm1, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
				; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
				; AVX2-NEXT: vpextrq $1, %xmm1, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
				; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
				; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2
				; AVX2-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
				; AVX2-NEXT: vzeroupper
				; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:			; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm0
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	▲ Show 20 Lines • Show All 380 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm1, %xmm1			; SSE41-NEXT: xorps %xmm1, %xmm1
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm1			; SSE41-NEXT: cvtsi2ssq %rax, %xmm1
	; SSE41-NEXT: addss %xmm1, %xmm1			; SSE41-NEXT: addss %xmm1, %xmm1
	; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_4i64_to_4f32:			; AVX1-LABEL: uitofp_4i64_to_4f32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm1
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: js .LBB47_1			; AVX1-NEXT: vpsrlq $1, %xmm2, %xmm3
	; AVX1-NEXT: # %bb.2:			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vandpd {{.*}}(%rip), %ymm0, %ymm3
	; AVX1-NEXT: jmp .LBB47_3			; AVX1-NEXT: vorpd %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB47_1:			; AVX1-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: shrq %rcx			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX1-NEXT: andl $1, %eax			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: orq %rcx, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[2,3]
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: .LBB47_3:			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0],xmm3[3]
	; AVX1-NEXT: js .LBB47_4			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: # %bb.5:			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1,2],xmm1[0]
	; AVX1-NEXT: jmp .LBB47_6			; AVX1-NEXT: vaddps %xmm1, %xmm1, %xmm3
	; AVX1-NEXT: .LBB47_4:			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB47_6:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB47_7
	; AVX1-NEXT: # %bb.8:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: jmp .LBB47_9
	; AVX1-NEXT: .LBB47_7:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB47_9:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB47_10
	; AVX1-NEXT: # %bb.11:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq
	; AVX1-NEXT: .LBB47_10:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_4i64_to_4f32:			; AVX2-LABEL: uitofp_4i64_to_4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: js .LBB47_1			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
	; AVX2-NEXT: # %bb.2:			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: jmp .LBB47_3			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: .LBB47_1:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB47_3:
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB47_4
	; AVX2-NEXT: # %bb.5:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: jmp .LBB47_6
	; AVX2-NEXT: .LBB47_4:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB47_6:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB47_7
	; AVX2-NEXT: # %bb.8:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: jmp .LBB47_9
	; AVX2-NEXT: .LBB47_7:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: .LBB47_9:			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: js .LBB47_10			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX2-NEXT: # %bb.11:			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-NEXT: retq			; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; AVX2-NEXT: .LBB47_10:			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX2-NEXT: movq %rax, %rcx			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm3[1,3]
	; AVX2-NEXT: shrq %rcx			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i64_to_4f32:			; AVX512F-LABEL: uitofp_4i64_to_4f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 884 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]
	; SSE41-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE41-NEXT: subpd %xmm4, %xmm1			; SSE41-NEXT: subpd %xmm4, %xmm1
	; SSE41-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSE41-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; SSE41-NEXT: subpd %xmm4, %xmm3			; SSE41-NEXT: subpd %xmm4, %xmm3
	; SSE41-NEXT: haddpd %xmm3, %xmm1			; SSE41-NEXT: haddpd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; VEX-LABEL: uitofp_load_4i64_to_4f64:			; AVX1-LABEL: uitofp_load_4i64_to_4f64:
	; VEX: # %bb.0:			; AVX1: # %bb.0:
	; VEX-NEXT: vmovapd (%rdi), %ymm0			; AVX1-NEXT: vmovaps (%rdi), %ymm0
	; VEX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; VEX-NEXT: vmovapd {{.*#+}} xmm2 = [1127219200,1160773632,0,0]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
	; VEX-NEXT: vunpcklps {{.*#+}} xmm3 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm1, %ymm1
	; VEX-NEXT: vmovapd {{.*#+}} xmm4 = [4503599627370496,1.9342813113834067E+25]			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; VEX-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[2,3,0,1]			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; VEX-NEXT: vunpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; VEX-NEXT: vsubpd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vorpd {{.*}}(%rip), %ymm0, %ymm0
	; VEX-NEXT: vhaddpd %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vsubpd {{.*}}(%rip), %ymm0, %ymm0
	; VEX-NEXT: vunpcklps {{.*#+}} xmm3 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; AVX1-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: retq
	; VEX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,3,0,1]			;
	; VEX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; AVX2-LABEL: uitofp_load_4i64_to_4f64:
	; VEX-NEXT: vsubpd %xmm4, %xmm0, %xmm0			; AVX2: # %bb.0:
	; VEX-NEXT: vhaddpd %xmm0, %xmm3, %xmm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; VEX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; VEX-NEXT: retq			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm0[0],ymm1[1],ymm0[2],ymm1[3],ymm0[4],ymm1[5],ymm0[6],ymm1[7]
				; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
				; AVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
				; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm0
				; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
				; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
				; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
				; AVX2-NEXT: vsubpd %ymm2, %ymm0, %ymm0
				; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0
				; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_4i64_to_4f64:			; AVX512F-LABEL: uitofp_load_4i64_to_4f64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vmovq %xmm1, %rax			; AVX512F-NEXT: vmovq %xmm1, %rax
	▲ Show 20 Lines • Show All 869 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm1			; SSE41-NEXT: cvtsi2ssq %rax, %xmm1
	; SSE41-NEXT: addss %xmm1, %xmm1			; SSE41-NEXT: addss %xmm1, %xmm1
	; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]			; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_4i64_to_4f32:			; AVX1-LABEL: uitofp_load_4i64_to_4f32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; AVX1-NEXT: vmovdqa (%rdi), %ymm0
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm1
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: js .LBB76_1			; AVX1-NEXT: vpsrlq $1, %xmm2, %xmm3
	; AVX1-NEXT: # %bb.2:			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vandpd {{.*}}(%rip), %ymm0, %ymm3
	; AVX1-NEXT: jmp .LBB76_3			; AVX1-NEXT: vorpd %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB76_1:			; AVX1-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: shrq %rcx			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX1-NEXT: andl $1, %eax			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: orq %rcx, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[2,3]
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: .LBB76_3:			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0],xmm3[3]
	; AVX1-NEXT: js .LBB76_4			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: # %bb.5:			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1,2],xmm1[0]
	; AVX1-NEXT: jmp .LBB76_6			; AVX1-NEXT: vaddps %xmm1, %xmm1, %xmm3
	; AVX1-NEXT: .LBB76_4:			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB76_6:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB76_7
	; AVX1-NEXT: # %bb.8:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: jmp .LBB76_9
	; AVX1-NEXT: .LBB76_7:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB76_9:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB76_10
	; AVX1-NEXT: # %bb.11:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq
	; AVX1-NEXT: .LBB76_10:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_load_4i64_to_4f32:			; AVX2-LABEL: uitofp_load_4i64_to_4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: js .LBB76_1			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
	; AVX2-NEXT: # %bb.2:			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: jmp .LBB76_3			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: .LBB76_1:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB76_3:
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_4
	; AVX2-NEXT: # %bb.5:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: jmp .LBB76_6
	; AVX2-NEXT: .LBB76_4:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB76_6:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_7
	; AVX2-NEXT: # %bb.8:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: jmp .LBB76_9
	; AVX2-NEXT: .LBB76_7:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: .LBB76_9:			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: js .LBB76_10			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX2-NEXT: # %bb.11:			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-NEXT: retq			; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; AVX2-NEXT: .LBB76_10:			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX2-NEXT: movq %rax, %rcx			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm3[1,3]
	; AVX2-NEXT: shrq %rcx			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_4i64_to_4f32:			; AVX512F-LABEL: uitofp_load_4i64_to_4f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %ymm0
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 445 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: xorps %xmm2, %xmm2			; SSE41-NEXT: xorps %xmm2, %xmm2
	; SSE41-NEXT: cvtsi2ssq %rax, %xmm2			; SSE41-NEXT: cvtsi2ssq %rax, %xmm2
	; SSE41-NEXT: addss %xmm2, %xmm2			; SSE41-NEXT: addss %xmm2, %xmm2
	; SSE41-NEXT: insertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; SSE41-NEXT: insertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_8i64_to_8f32:			; AVX1-LABEL: uitofp_load_8i64_to_8f32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; AVX1-NEXT: vmovaps (%rdi), %ymm0
	; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2			; AVX1-NEXT: vmovaps 32(%rdi), %ymm1
				; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [1,1,1,1]
				; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm3
				; AVX1-NEXT: vpsrlq $1, %xmm1, %xmm4
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
				; AVX1-NEXT: vpsrlq $1, %xmm5, %xmm6
				; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm4, %ymm4
				; AVX1-NEXT: vorps %ymm3, %ymm4, %ymm3
				; AVX1-NEXT: vblendvpd %ymm1, %ymm3, %ymm1, %ymm3
				; AVX1-NEXT: vpextrq $1, %xmm3, %rax
				; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm4
				; AVX1-NEXT: vmovq %xmm3, %rax
				; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm6
				; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = xmm6[0],xmm4[0],xmm6[2,3]
				; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
				; AVX1-NEXT: vmovq %xmm3, %rax
				; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm6
				; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm6[0],xmm4[3]
				; AVX1-NEXT: vpextrq $1, %xmm3, %rax
				; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm3
				; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0,1,2],xmm3[0]
				; AVX1-NEXT: vaddps %xmm3, %xmm3, %xmm4
				; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm5[1,3]
				; AVX1-NEXT: vblendvps %xmm1, %xmm4, %xmm3, %xmm1
				; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm2
				; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm3
				; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
				; AVX1-NEXT: vpsrlq $1, %xmm4, %xmm5
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3
				; AVX1-NEXT: vorps %ymm2, %ymm3, %ymm2
				; AVX1-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm2
	; AVX1-NEXT: vpextrq $1, %xmm2, %rax			; AVX1-NEXT: vpextrq $1, %xmm2, %rax
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm3
	; AVX1-NEXT: js .LBB80_1
	; AVX1-NEXT: # %bb.2:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX1-NEXT: jmp .LBB80_3
	; AVX1-NEXT: .LBB80_1:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: .LBB80_3:
	; AVX1-NEXT: vmovq %xmm2, %rax			; AVX1-NEXT: vmovq %xmm2, %rax
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm5
	; AVX1-NEXT: js .LBB80_4			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm5[0],xmm3[0],xmm5[2,3]
	; AVX1-NEXT: # %bb.5:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm4
	; AVX1-NEXT: jmp .LBB80_6
	; AVX1-NEXT: .LBB80_4:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm4
	; AVX1-NEXT: .LBB80_6:
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vmovq %xmm2, %rax			; AVX1-NEXT: vmovq %xmm2, %rax
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm5
	; AVX1-NEXT: js .LBB80_7			; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm5[0],xmm3[3]
	; AVX1-NEXT: # %bb.8:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX1-NEXT: jmp .LBB80_9
	; AVX1-NEXT: .LBB80_7:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: .LBB80_9:
	; AVX1-NEXT: vpextrq $1, %xmm2, %rax			; AVX1-NEXT: vpextrq $1, %xmm2, %rax
	; AVX1-NEXT: testq %rax, %rax			; AVX1-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm2
	; AVX1-NEXT: js .LBB80_10			; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0,1,2],xmm2[0]
	; AVX1-NEXT: # %bb.11:			; AVX1-NEXT: vaddps %xmm2, %xmm2, %xmm3
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm4[1,3]
	; AVX1-NEXT: jmp .LBB80_12			; AVX1-NEXT: vblendvps %xmm0, %xmm3, %xmm2, %xmm0
	; AVX1-NEXT: .LBB80_10:			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB80_12:
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_13
	; AVX1-NEXT: # %bb.14:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX1-NEXT: jmp .LBB80_15
	; AVX1-NEXT: .LBB80_13:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX1-NEXT: vaddss %xmm5, %xmm5, %xmm5
	; AVX1-NEXT: .LBB80_15:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm4[0],xmm1[0],xmm4[2,3]
	; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_16
	; AVX1-NEXT: # %bb.17:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX1-NEXT: jmp .LBB80_18
	; AVX1-NEXT: .LBB80_16:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX1-NEXT: vaddss %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: .LBB80_18:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[2,3]
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovq %xmm3, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_19
	; AVX1-NEXT: # %bb.20:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0
	; AVX1-NEXT: jmp .LBB80_21
	; AVX1-NEXT: .LBB80_19:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0
	; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: .LBB80_21:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm0[0],xmm4[3]
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]
	; AVX1-NEXT: vpextrq $1, %xmm3, %rax
	; AVX1-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_22
	; AVX1-NEXT: # %bb.23:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm1
	; AVX1-NEXT: jmp .LBB80_24
	; AVX1-NEXT: .LBB80_22:
	; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm1
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: .LBB80_24:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm4[0,1,2],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_load_8i64_to_8f32:			; AVX2-LABEL: uitofp_load_8i64_to_8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %ymm2			; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1
				; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1,1,1,1]
				; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm3
				; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm4
				; AVX2-NEXT: vpor %ymm3, %ymm4, %ymm3
				; AVX2-NEXT: vblendvpd %ymm1, %ymm3, %ymm1, %ymm3
				; AVX2-NEXT: vpextrq $1, %xmm3, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
				; AVX2-NEXT: vmovq %xmm3, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
				; AVX2-NEXT: vinsertps {{.*#+}} xmm4 = xmm5[0],xmm4[0],xmm5[2,3]
				; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm3
				; AVX2-NEXT: vmovq %xmm3, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm5
				; AVX2-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm5[0],xmm4[3]
				; AVX2-NEXT: vpextrq $1, %xmm3, %rax
				; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
				; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0,1,2],xmm3[0]
				; AVX2-NEXT: vaddps %xmm3, %xmm3, %xmm4
				; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm5
				; AVX2-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm5[1,3]
				; AVX2-NEXT: vblendvps %xmm1, %xmm4, %xmm3, %xmm1
				; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm2
				; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm3
				; AVX2-NEXT: vpor %ymm2, %ymm3, %ymm2
				; AVX2-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpextrq $1, %xmm2, %rax			; AVX2-NEXT: vpextrq $1, %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
	; AVX2-NEXT: js .LBB80_1
	; AVX2-NEXT: # %bb.2:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: jmp .LBB80_3
	; AVX2-NEXT: .LBB80_1:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB80_3:
	; AVX2-NEXT: vmovq %xmm2, %rax			; AVX2-NEXT: vmovq %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX2-NEXT: js .LBB80_4			; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[2,3]
	; AVX2-NEXT: # %bb.5:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm4
	; AVX2-NEXT: jmp .LBB80_6
	; AVX2-NEXT: .LBB80_4:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm4
	; AVX2-NEXT: .LBB80_6:
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm2
	; AVX2-NEXT: vmovq %xmm2, %rax			; AVX2-NEXT: vmovq %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_7
	; AVX2-NEXT: # %bb.8:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX2-NEXT: jmp .LBB80_9
	; AVX2-NEXT: .LBB80_7:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: .LBB80_9:
	; AVX2-NEXT: vpextrq $1, %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_10
	; AVX2-NEXT: # %bb.11:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX2-NEXT: jmp .LBB80_12
	; AVX2-NEXT: .LBB80_10:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB80_12:
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_13
	; AVX2-NEXT: # %bb.14:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX2-NEXT: jmp .LBB80_15
	; AVX2-NEXT: .LBB80_13:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX2-NEXT: vaddss %xmm5, %xmm5, %xmm5
	; AVX2-NEXT: .LBB80_15:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm4[0],xmm1[0],xmm4[2,3]
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_16
	; AVX2-NEXT: # %bb.17:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX2-NEXT: jmp .LBB80_18
	; AVX2-NEXT: .LBB80_16:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX2-NEXT: vaddss %xmm4, %xmm4, %xmm4			; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0],xmm3[3]
	; AVX2-NEXT: .LBB80_18:			; AVX2-NEXT: vpextrq $1, %xmm2, %rax
	; AVX2-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[2,3]			; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0,1,2],xmm2[0]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vaddps %xmm2, %xmm2, %xmm3
	; AVX2-NEXT: vmovq %xmm3, %rax			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX2-NEXT: testq %rax, %rax			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm4[1,3]
	; AVX2-NEXT: js .LBB80_19			; AVX2-NEXT: vblendvps %xmm0, %xmm3, %xmm2, %xmm0
	; AVX2-NEXT: # %bb.20:			; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0
	; AVX2-NEXT: jmp .LBB80_21
	; AVX2-NEXT: .LBB80_19:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: .LBB80_21:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm4 = xmm4[0,1],xmm0[0],xmm4[3]
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]
	; AVX2-NEXT: vpextrq $1, %xmm3, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_22
	; AVX2-NEXT: # %bb.23:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm1
	; AVX2-NEXT: jmp .LBB80_24
	; AVX2-NEXT: .LBB80_22:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB80_24:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm4[0,1,2],xmm1[0]
	; AVX2-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_8i64_to_8f32:			; AVX512F-LABEL: uitofp_load_8i64_to_8f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0			; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2
	▲ Show 20 Lines • Show All 388 Lines • Show Last 20 Lines