This is an archive of the discontinued LLVM Phabricator instance.

Differential D71945

[X86] Potential improvement for v2i32->v2f64 uint_to_fp
ClosedPublic

Authored by craig.topper on Dec 27 2019, 12:36 PM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon

Commits

rG2875cc6b290c: [X86] Improve for v2i32->v2f64 uint_to_fp

Summary

This patch proposes an alternate implementation for this conversion derived from our v2i32->v2f32 handling. We can zero extend the v2i32 to v2i64, or it with the bit representation of 2.0^52 which will give us 2.0^52 plus the 32-bit integer since double's mantissa is 52 bits. Then we just need to subtract 2.0^52 as a double and let the floating point unit normalize the remaining bits into a valid double.

This is less instructions then our previous code, but does require a port 5 shuffle for the zero extend or unpack.

Diff Detail

Event Timeline

craig.topper created this revision.Dec 27 2019, 12:36 PM

Herald added a project: Restricted Project. · View Herald TranscriptDec 27 2019, 12:36 PM

Herald added a subscriber: hiraditya. · View Herald Transcript

RKSimon added inline comments.Dec 28 2019, 1:48 AM

llvm/test/CodeGen/X86/vec_int_to_fp.ll
1038	Would AVX1/AVX2 benefit for the v4i32-v4f64 case?

craig.topper marked an inline comment as done.Dec 28 2019, 2:04 AM

craig.topper added inline comments.

llvm/test/CodeGen/X86/vec_int_to_fp.ll
1038	What are our options for zext v4i32->v4i64 on avx1. We don’t get the instruction until avx2

RKSimon added inline comments.Dec 28 2019, 1:37 PM

llvm/test/CodeGen/X86/vec_int_to_fp.ll
734	Would AVX1/AVX2 benefit here?

craig.topper marked an inline comment as done.Dec 28 2019, 1:55 PM

craig.topper added inline comments.

llvm/test/CodeGen/X86/vec_int_to_fp.ll
734	This test case is weird. It explicitly use a v4i32->v4f64 and then extracts it to v2f64. The sse tests changed because we had to split the v4f64 during type legalizaiton and then half the split became dead. With AVX we don't split it and then push the extract through later after vector op legalization.

craig.topper mentioned this in D71971: [X86] Potential improvement for v4i32->v4f64 uint_to_fp for AVX1/AVX2 targets..Dec 29 2019, 12:10 AM

RKSimon added inline comments.Dec 29 2019, 2:58 AM

llvm/test/CodeGen/X86/vec_int_to_fp.ll
1038	We'd probably end up with a PMOVZX(xmm) for the lower v2i32, a PUNPCKH(xmm, zero) for the upper v2i32 followed by a VINSERTF128 and the VORPD(ymm) - and that removes a PBLENDW, PSRLD, 2*CVTDQ2PD and MULPD (+replace VADDPD with VSUBPD) - so that should be an improvement.

LGTM, the missed AVX improvements should be handled in other patches already under review

This revision is now accepted and ready to land.Jan 3 2020, 12:49 AM

Closed by commit rG2875cc6b290c: [X86] Improve for v2i32->v2f64 uint_to_fp (authored by craig.topper). · Explain WhyJan 3 2020, 11:41 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

50 lines

test/

CodeGen/

X86/

vec-strict-inttofp-128.ll

57 lines

vec_int_to_fp.ll

254 lines

vector-constrained-fp-intrinsics.ll

48 lines

Diff 235442

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 18,943 Lines • ▼ Show 20 Lines	if (Subtarget.hasAVX512()) {
N0 = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4i32, N0,		N0 = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4i32, N0,
DAG.getUNDEF(MVT::v2i32));		DAG.getUNDEF(MVT::v2i32));
if (IsStrict)		if (IsStrict)
return DAG.getNode(X86ISD::STRICT_CVTUI2P, DL, {MVT::v2f64, MVT::Other},		return DAG.getNode(X86ISD::STRICT_CVTUI2P, DL, {MVT::v2f64, MVT::Other},
{Op.getOperand(0), N0});		{Op.getOperand(0), N0});
return DAG.getNode(X86ISD::CVTUI2P, DL, MVT::v2f64, N0);		return DAG.getNode(X86ISD::CVTUI2P, DL, MVT::v2f64, N0);
}		}

// Legalize to v4i32 type.		// Zero extend to 2i64, OR with the floating point representation of 2^52.
N0 = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4i32, N0,		// This gives us the floating point equivalent of 2^52 + the i32 integer
DAG.getUNDEF(MVT::v2i32));		// since double has 52-bits of mantissa. Then subtract 2^52 in floating
		// point leaving just our i32 integers in double format.
// Same implementation as VectorLegalizer::ExpandUINT_TO_FLOAT,		SDValue ZExtIn = DAG.getNode(ISD::ZERO_EXTEND, DL, MVT::v2i64, N0);
// but using v2i32 to v2f64 with X86ISD::CVTSI2P.		SDValue VBias =
SDValue HalfWord = DAG.getConstant(16, DL, MVT::v4i32);		DAG.getConstantFP(BitsToDouble(0x4330000000000000ULL), DL, MVT::v2f64);
SDValue HalfWordMask = DAG.getConstant(0x0000FFFF, DL, MVT::v4i32);		SDValue Or = DAG.getNode(ISD::OR, DL, MVT::v2i64, ZExtIn,
		DAG.getBitcast(MVT::v2i64, VBias));
// Two to the power of half-word-size.		Or = DAG.getBitcast(MVT::v2f64, Or);
SDValue TWOHW = DAG.getConstantFP((double)(1 << 16), DL, MVT::v2f64);

// Clear upper part of LO, lower HI.
SDValue HI = DAG.getNode(ISD::SRL, DL, MVT::v4i32, N0, HalfWord);
SDValue LO = DAG.getNode(ISD::AND, DL, MVT::v4i32, N0, HalfWordMask);

if (IsStrict) {
SDValue fHI = DAG.getNode(X86ISD::STRICT_CVTSI2P, DL,
{MVT::v2f64, MVT::Other}, {Op.getOperand(0), HI});
fHI = DAG.getNode(ISD::STRICT_FMUL, DL, {MVT::v2f64, MVT::Other},
{fHI.getValue(1), fHI, TWOHW});
SDValue fLO = DAG.getNode(X86ISD::STRICT_CVTSI2P, DL,
{MVT::v2f64, MVT::Other}, {Op.getOperand(0), LO});
SDValue Chain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other,
fHI.getValue(1), fLO.getValue(1));

// Add the two halves
return DAG.getNode(ISD::STRICT_FADD, DL, {MVT::v2f64, MVT::Other},
{Chain, fHI, fLO});
}

SDValue fHI = DAG.getNode(X86ISD::CVTSI2P, DL, MVT::v2f64, HI);
fHI = DAG.getNode(ISD::FMUL, DL, MVT::v2f64, fHI, TWOHW);
SDValue fLO = DAG.getNode(X86ISD::CVTSI2P, DL, MVT::v2f64, LO);

// Add the two halves.		if (IsStrict)
return DAG.getNode(ISD::FADD, DL, MVT::v2f64, fHI, fLO);		return DAG.getNode(ISD::STRICT_FSUB, DL, {MVT::v2f64, MVT::Other},
		{Op.getOperand(0), Or, VBias});
		return DAG.getNode(ISD::FSUB, DL, MVT::v2f64, Or, VBias);
}		}

static SDValue lowerUINT_TO_FP_vXi32(SDValue Op, SelectionDAG &DAG,		static SDValue lowerUINT_TO_FP_vXi32(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDLoc DL(Op);		SDLoc DL(Op);
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();
SDValue V = Op->getOperand(IsStrict ? 1 : 0);		SDValue V = Op->getOperand(IsStrict ? 1 : 0);
MVT VecIntVT = V.getSimpleValueType();		MVT VecIntVT = V.getSimpleValueType();
▲ Show 20 Lines • Show All 28,081 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec-strict-inttofp-128.ll

	Show First 20 Lines • Show All 830 Lines • ▼ Show 20 Lines
	; AVX-NEXT: ret{{[l\|q]}}			; AVX-NEXT: ret{{[l\|q]}}
	%result = call <2 x double> @llvm.experimental.constrained.sitofp.v2f64.v2i32(<2 x i32> %x,			%result = call <2 x double> @llvm.experimental.constrained.sitofp.v2f64.v2i32(<2 x i32> %x,
	metadata !"round.dynamic",			metadata !"round.dynamic",
	metadata !"fpexcept.strict") #0			metadata !"fpexcept.strict") #0
	ret <2 x double> %result			ret <2 x double> %result
	}			}

	define <2 x double> @uitofp_v2i32_v2f64(<2 x i32> %x) #0 {			define <2 x double> @uitofp_v2i32_v2f64(<2 x i32> %x) #0 {
	; SSE-32-LABEL: uitofp_v2i32_v2f64:			; SSE-LABEL: uitofp_v2i32_v2f64:
	; SSE-32: # %bb.0:			; SSE: # %bb.0:
	; SSE-32-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,65535,0,65535,0]			; SSE-NEXT: xorpd %xmm1, %xmm1
	; SSE-32-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-32-NEXT: cvtdq2pd %xmm1, %xmm1			; SSE-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
	; SSE-32-NEXT: psrld $16, %xmm0			; SSE-NEXT: orpd %xmm1, %xmm0
	; SSE-32-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE-NEXT: subpd %xmm1, %xmm0
	; SSE-32-NEXT: mulpd {{\.LCPI.*}}, %xmm0			; SSE-NEXT: ret{{[l\|q]}}
	; SSE-32-NEXT: addpd %xmm1, %xmm0
	; SSE-32-NEXT: retl
	;
	; SSE-64-LABEL: uitofp_v2i32_v2f64:
	; SSE-64: # %bb.0:
	; SSE-64-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,65535,0,65535,0]
	; SSE-64-NEXT: pand %xmm0, %xmm1
	; SSE-64-NEXT: cvtdq2pd %xmm1, %xmm1
	; SSE-64-NEXT: psrld $16, %xmm0
	; SSE-64-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE-64-NEXT: mulpd {{.*}}(%rip), %xmm0
	; SSE-64-NEXT: addpd %xmm1, %xmm0
	; SSE-64-NEXT: retq
	;
	; AVX1-32-LABEL: uitofp_v2i32_v2f64:
	; AVX1-32: # %bb.0:
	; AVX1-32-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-32-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
	; AVX1-32-NEXT: vcvtdq2pd %xmm1, %xmm1
	; AVX1-32-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX1-32-NEXT: vcvtdq2pd %xmm0, %xmm0
	; AVX1-32-NEXT: vmulpd {{\.LCPI.*}}, %xmm0, %xmm0
	; AVX1-32-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-32-NEXT: retl
	;			;
	; AVX1-64-LABEL: uitofp_v2i32_v2f64:			; AVX1-LABEL: uitofp_v2i32_v2f64:
	; AVX1-64: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-64-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
	; AVX1-64-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
	; AVX1-64-NEXT: vcvtdq2pd %xmm1, %xmm1			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-64-NEXT: vpsrld $16, %xmm0, %xmm0			; AVX1-NEXT: vsubpd %xmm1, %xmm0, %xmm0
	; AVX1-64-NEXT: vcvtdq2pd %xmm0, %xmm0			; AVX1-NEXT: ret{{[l\|q]}}
	; AVX1-64-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-64-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_v2i32_v2f64:			; AVX512F-LABEL: uitofp_v2i32_v2f64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero			; AVX512F-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0			; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: ret{{[l\|q]}}			; AVX512F-NEXT: ret{{[l\|q]}}
	▲ Show 20 Lines • Show All 216 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_int_to_fp.ll

Show First 20 Lines • Show All 645 Lines • ▼ Show 20 Lines
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
%cvt = uitofp <2 x i64> %a to <2 x double>		%cvt = uitofp <2 x i64> %a to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @uitofp_2i32_to_2f64(<4 x i32> %a) {		define <2 x double> @uitofp_2i32_to_2f64(<4 x i32> %a) {
; SSE2-LABEL: uitofp_2i32_to_2f64:		; SSE2-LABEL: uitofp_2i32_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: xorpd %xmm1, %xmm1
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: psrld $16, %xmm0		; SSE2-NEXT: orpd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm1, %xmm0
; SSE2-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_2i32_to_2f64:		; SSE41-LABEL: uitofp_2i32_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: psrld $16, %xmm0		; SSE41-NEXT: subpd %xmm1, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; VEX-LABEL: uitofp_2i32_to_2f64:		; VEX-LABEL: uitofp_2i32_to_2f64:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; VEX-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; VEX-NEXT: vmovdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; VEX-NEXT: vcvtdq2pd %xmm1, %xmm1		; VEX-NEXT: vpor %xmm1, %xmm0, %xmm0
; VEX-NEXT: vpsrld $16, %xmm0, %xmm0		; VEX-NEXT: vsubpd %xmm1, %xmm0, %xmm0
; VEX-NEXT: vcvtdq2pd %xmm0, %xmm0
; VEX-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
; VEX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_2i32_to_2f64:		; AVX512F-LABEL: uitofp_2i32_to_2f64:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0		; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
Show All 19 Lines	; AVX512VLDQ-NEXT: retq
%shuf = shufflevector <4 x i32> %a, <4 x i32> undef, <2 x i32> <i32 0, i32 1>		%shuf = shufflevector <4 x i32> %a, <4 x i32> undef, <2 x i32> <i32 0, i32 1>
%cvt = uitofp <2 x i32> %shuf to <2 x double>		%cvt = uitofp <2 x i32> %shuf to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @uitofp_4i32_to_2f64(<4 x i32> %a) {		define <2 x double> @uitofp_4i32_to_2f64(<4 x i32> %a) {
; SSE2-LABEL: uitofp_4i32_to_2f64:		; SSE2-LABEL: uitofp_4i32_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: xorpd %xmm1, %xmm1
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: psrld $16, %xmm0		; SSE2-NEXT: orpd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm1, %xmm0
; SSE2-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_4i32_to_2f64:		; SSE41-LABEL: uitofp_4i32_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: psrld $16, %xmm0		; SSE41-NEXT: subpd %xmm1, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; VEX-LABEL: uitofp_4i32_to_2f64:		; VEX-LABEL: uitofp_4i32_to_2f64:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; VEX-NEXT: vpsrld $16, %xmm0, %xmm0		; VEX-NEXT: vpsrld $16, %xmm0, %xmm0
; VEX-NEXT: vcvtdq2pd %xmm1, %xmm1		; VEX-NEXT: vcvtdq2pd %xmm1, %xmm1
; VEX-NEXT: vcvtdq2pd %xmm0, %xmm0		; VEX-NEXT: vcvtdq2pd %xmm0, %xmm0
; VEX-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0		; VEX-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
; VEX-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; VEX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
		RKSimonUnsubmitted Not Done Reply Inline Actions Would AVX1/AVX2 benefit here? RKSimon: Would AVX1/AVX2 benefit here?
		craig.topperAuthorUnsubmitted Done Reply Inline Actions This test case is weird. It explicitly use a v4i32->v4f64 and then extracts it to v2f64. The sse tests changed because we had to split the v4f64 during type legalizaiton and then half the split became dead. With AVX we don't split it and then push the extract through later after vector op legalization. craig.topper: This test case is weird. It explicitly use a v4i32->v4f64 and then extracts it to v2f64. The…
;		;
; AVX512F-LABEL: uitofp_4i32_to_2f64:		; AVX512F-LABEL: uitofp_4i32_to_2f64:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0		; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
; AVX512VLDQ-NEXT: retq		; AVX512VLDQ-NEXT: retq
%cvt = uitofp <4 x i64> %a to <4 x double>		%cvt = uitofp <4 x i64> %a to <4 x double>
ret <4 x double> %cvt		ret <4 x double> %cvt
}		}

define <4 x double> @uitofp_4i32_to_4f64(<4 x i32> %a) {		define <4 x double> @uitofp_4i32_to_4f64(<4 x i32> %a) {
; SSE2-LABEL: uitofp_4i32_to_4f64:		; SSE2-LABEL: uitofp_4i32_to_4f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: psrld $16, %xmm1		; SSE2-NEXT: xorpd %xmm2, %xmm2
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movapd {{.*#+}} xmm2 = [6.5536E+4,6.5536E+4]		; SSE2-NEXT: movapd {{.*#+}} xmm3 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: mulpd %xmm2, %xmm1		; SSE2-NEXT: orpd %xmm3, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: subpd %xmm3, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]		; SSE2-NEXT: unpckhps {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: orpd %xmm3, %xmm1
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm4, %xmm1
; SSE2-NEXT: psrld $16, %xmm1
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm5
; SSE2-NEXT: mulpd %xmm2, %xmm5
; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: cvtdq2pd %xmm4, %xmm1
; SSE2-NEXT: addpd %xmm5, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_4i32_to_4f64:		; SSE41-LABEL: uitofp_4i32_to_4f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm1		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: psrld $16, %xmm1		; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: por %xmm3, %xmm2
; SSE41-NEXT: movapd {{.*#+}} xmm2 = [6.5536E+4,6.5536E+4]		; SSE41-NEXT: subpd %xmm3, %xmm2
; SSE41-NEXT: mulpd %xmm2, %xmm1		; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
; SSE41-NEXT: pxor %xmm3, %xmm3		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm1 = xmm0[0],zero,xmm0[1],zero
; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]		; SSE41-NEXT: por %xmm3, %xmm1
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3],xmm0[4,5,6,7]		; SSE41-NEXT: subpd %xmm3, %xmm1
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE41-NEXT: movapd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: movdqa %xmm4, %xmm1
; SSE41-NEXT: psrld $16, %xmm1
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm5
; SSE41-NEXT: mulpd %xmm2, %xmm5
; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0],xmm3[1],xmm4[2],xmm3[3],xmm4[4,5,6,7]
; SSE41-NEXT: cvtdq2pd %xmm4, %xmm1
; SSE41-NEXT: addpd %xmm5, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: uitofp_4i32_to_4f64:		; AVX1-LABEL: uitofp_4i32_to_4f64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; AVX1-NEXT: vcvtdq2pd %xmm1, %ymm1		; AVX1-NEXT: vcvtdq2pd %xmm1, %ymm1
; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0		; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
; AVX1-NEXT: vmulpd {{.*}}(%rip), %ymm0, %ymm0		; AVX1-NEXT: vmulpd {{.*}}(%rip), %ymm0, %ymm0
; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: uitofp_4i32_to_4f64:		; AVX2-LABEL: uitofp_4i32_to_4f64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1		; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
; AVX2-NEXT: vcvtdq2pd %xmm1, %ymm1		; AVX2-NEXT: vcvtdq2pd %xmm1, %ymm1
; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [6.5536E+4,6.5536E+4,6.5536E+4,6.5536E+4]		; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [6.5536E+4,6.5536E+4,6.5536E+4,6.5536E+4]
; AVX2-NEXT: vmulpd %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vmulpd %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]		; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
; AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0		; AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0
; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0		; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
		RKSimonUnsubmitted Not Done Reply Inline Actions Would AVX1/AVX2 benefit for the v4i32-v4f64 case? RKSimon: Would AVX1/AVX2 benefit for the v4i32-v4f64 case?
		craig.topperAuthorUnsubmitted Done Reply Inline Actions What are our options for zext v4i32->v4i64 on avx1. We don’t get the instruction until avx2 craig.topper: What are our options for zext v4i32->v4i64 on avx1. We don’t get the instruction until avx2
		RKSimonUnsubmitted Not Done Reply Inline Actions We'd probably end up with a PMOVZX(xmm) for the lower v2i32, a PUNPCKH(xmm, zero) for the upper v2i32 followed by a VINSERTF128 and the VORPD(ymm) - and that removes a PBLENDW, PSRLD, 2CVTDQ2PD and MULPD (+replace VADDPD with VSUBPD) - so that should be an improvement. RKSimon:* We'd probably end up with a PMOVZX(xmm) for the lower v2i32, a PUNPCKH(xmm, zero) for the upper…
;		;
; AVX512F-LABEL: uitofp_4i32_to_4f64:		; AVX512F-LABEL: uitofp_4i32_to_4f64:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0		; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0		; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
▲ Show 20 Lines • Show All 2,481 Lines • ▼ Show 20 Lines	; AVX512VLDQ-NEXT: retq
%ld = load <2 x i64>, <2 x i64> *%a		%ld = load <2 x i64>, <2 x i64> *%a
%cvt = uitofp <2 x i64> %ld to <2 x double>		%cvt = uitofp <2 x i64> %ld to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @uitofp_load_2i32_to_2f64(<2 x i32> *%a) {		define <2 x double> @uitofp_load_2i32_to_2f64(<2 x i32> *%a) {
; SSE2-LABEL: uitofp_load_2i32_to_2f64:		; SSE2-LABEL: uitofp_load_2i32_to_2f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE2-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: xorpd %xmm1, %xmm1
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: psrld $16, %xmm0		; SSE2-NEXT: orpd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm1, %xmm0
; SSE2-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_load_2i32_to_2f64:		; SSE41-LABEL: uitofp_load_2i32_to_2f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movq {{.*#+}} xmm0 = mem[0],zero		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: subpd %xmm1, %xmm0
; SSE41-NEXT: psrld $16, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; VEX-LABEL: uitofp_load_2i32_to_2f64:		; VEX-LABEL: uitofp_load_2i32_to_2f64:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; VEX-NEXT: vpmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero
; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; VEX-NEXT: vmovdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; VEX-NEXT: vpor %xmm1, %xmm0, %xmm0
; VEX-NEXT: vcvtdq2pd %xmm1, %xmm1		; VEX-NEXT: vsubpd %xmm1, %xmm0, %xmm0
; VEX-NEXT: vpsrld $16, %xmm0, %xmm0
; VEX-NEXT: vcvtdq2pd %xmm0, %xmm0
; VEX-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
; VEX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512F-LABEL: uitofp_load_2i32_to_2f64:		; AVX512F-LABEL: uitofp_load_2i32_to_2f64:
; AVX512F: # %bb.0:		; AVX512F: # %bb.0:
; AVX512F-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; AVX512F-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0		; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512F-NEXT: vzeroupper		; AVX512F-NEXT: vzeroupper
Show All 19 Lines	; AVX512VLDQ-NEXT: retq
%ld = load <2 x i32>, <2 x i32> *%a		%ld = load <2 x i32>, <2 x i32> *%a
%cvt = uitofp <2 x i32> %ld to <2 x double>		%cvt = uitofp <2 x i32> %ld to <2 x double>
ret <2 x double> %cvt		ret <2 x double> %cvt
}		}

define <2 x double> @uitofp_load_4i32_to_2f64_2(<4 x i32>* %x) {		define <2 x double> @uitofp_load_4i32_to_2f64_2(<4 x i32>* %x) {
; SSE2-LABEL: uitofp_load_4i32_to_2f64_2:		; SSE2-LABEL: uitofp_load_4i32_to_2f64_2:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa (%rdi), %xmm0		; SSE2-NEXT: movapd (%rdi), %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: xorpd %xmm1, %xmm1
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: psrld $16, %xmm0		; SSE2-NEXT: orpd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm1, %xmm0
; SSE2-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_load_4i32_to_2f64_2:		; SSE41-LABEL: uitofp_load_4i32_to_2f64_2:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa (%rdi), %xmm0		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: subpd %xmm1, %xmm0
; SSE41-NEXT: psrld $16, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; VEX-LABEL: uitofp_load_4i32_to_2f64_2:		; VEX-LABEL: uitofp_load_4i32_to_2f64_2:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovdqa (%rdi), %xmm0		; VEX-NEXT: vmovdqa (%rdi), %xmm0
; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; VEX-NEXT: vpsrld $16, %xmm0, %xmm0		; VEX-NEXT: vpsrld $16, %xmm0, %xmm0
Show All 32 Lines	; AVX512VLDQ-NEXT: retq
%b = uitofp <4 x i32> %a to <4 x double>		%b = uitofp <4 x i32> %a to <4 x double>
%c = shufflevector <4 x double> %b, <4 x double> undef, <2 x i32> <i32 0, i32 1>		%c = shufflevector <4 x double> %b, <4 x double> undef, <2 x i32> <i32 0, i32 1>
ret <2 x double> %c		ret <2 x double> %c
}		}

define <2 x double> @uitofp_volatile_load_4i32_to_2f64_2(<4 x i32>* %x) {		define <2 x double> @uitofp_volatile_load_4i32_to_2f64_2(<4 x i32>* %x) {
; SSE2-LABEL: uitofp_volatile_load_4i32_to_2f64_2:		; SSE2-LABEL: uitofp_volatile_load_4i32_to_2f64_2:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa (%rdi), %xmm0		; SSE2-NEXT: movapd (%rdi), %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: xorpd %xmm1, %xmm1
; SSE2-NEXT: pand %xmm0, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: psrld $16, %xmm0		; SSE2-NEXT: orpd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm1, %xmm0
; SSE2-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_volatile_load_4i32_to_2f64_2:		; SSE41-LABEL: uitofp_volatile_load_4i32_to_2f64_2:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa (%rdi), %xmm0		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = mem[0],zero,mem[1],zero
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4,5,6,7]		; SSE41-NEXT: por %xmm1, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: subpd %xmm1, %xmm0
; SSE41-NEXT: psrld $16, %xmm0
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; VEX-LABEL: uitofp_volatile_load_4i32_to_2f64_2:		; VEX-LABEL: uitofp_volatile_load_4i32_to_2f64_2:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovdqa (%rdi), %xmm0		; VEX-NEXT: vmovdqa (%rdi), %xmm0
; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1		; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; VEX-NEXT: vpsrld $16, %xmm0, %xmm0		; VEX-NEXT: vpsrld $16, %xmm0, %xmm0
▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines	; AVX512VLDQ-NEXT: retq
%ld = load <4 x i64>, <4 x i64> *%a		%ld = load <4 x i64>, <4 x i64> *%a
%cvt = uitofp <4 x i64> %ld to <4 x double>		%cvt = uitofp <4 x i64> %ld to <4 x double>
ret <4 x double> %cvt		ret <4 x double> %cvt
}		}

define <4 x double> @uitofp_load_4i32_to_4f64(<4 x i32> *%a) {		define <4 x double> @uitofp_load_4i32_to_4f64(<4 x i32> *%a) {
; SSE2-LABEL: uitofp_load_4i32_to_4f64:		; SSE2-LABEL: uitofp_load_4i32_to_4f64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa (%rdi), %xmm0		; SSE2-NEXT: movapd (%rdi), %xmm1
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: xorpd %xmm2, %xmm2
; SSE2-NEXT: psrld $16, %xmm1		; SSE2-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movapd {{.*#+}} xmm2 = [6.5536E+4,6.5536E+4]		; SSE2-NEXT: movapd {{.*#+}} xmm3 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE2-NEXT: mulpd %xmm2, %xmm1		; SSE2-NEXT: orpd %xmm3, %xmm0
; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [65535,0,65535,0,0,0,0,0]		; SSE2-NEXT: subpd %xmm3, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]		; SSE2-NEXT: unpckhps {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: orpd %xmm3, %xmm1
; SSE2-NEXT: cvtdq2pd %xmm0, %xmm0		; SSE2-NEXT: subpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm4, %xmm1
; SSE2-NEXT: psrld $16, %xmm1
; SSE2-NEXT: cvtdq2pd %xmm1, %xmm5
; SSE2-NEXT: mulpd %xmm2, %xmm5
; SSE2-NEXT: pand %xmm3, %xmm4
; SSE2-NEXT: cvtdq2pd %xmm4, %xmm1
; SSE2-NEXT: addpd %xmm5, %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: uitofp_load_4i32_to_4f64:		; SSE41-LABEL: uitofp_load_4i32_to_4f64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa (%rdi), %xmm0		; SSE41-NEXT: movdqa (%rdi), %xmm1
; SSE41-NEXT: movdqa %xmm0, %xmm1		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
; SSE41-NEXT: psrld $16, %xmm1		; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [4.503599627370496E+15,4.503599627370496E+15]
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1		; SSE41-NEXT: por %xmm2, %xmm0
; SSE41-NEXT: movapd {{.*#+}} xmm2 = [6.5536E+4,6.5536E+4]		; SSE41-NEXT: subpd %xmm2, %xmm0
; SSE41-NEXT: mulpd %xmm2, %xmm1		; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
; SSE41-NEXT: pxor %xmm3, %xmm3		; SSE41-NEXT: pmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]		; SSE41-NEXT: por %xmm2, %xmm1
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3],xmm0[4,5,6,7]		; SSE41-NEXT: subpd %xmm2, %xmm1
; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: movdqa %xmm4, %xmm1
; SSE41-NEXT: psrld $16, %xmm1
; SSE41-NEXT: cvtdq2pd %xmm1, %xmm5
; SSE41-NEXT: mulpd %xmm2, %xmm5
; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm4[0],xmm3[1],xmm4[2],xmm3[3],xmm4[4,5,6,7]
; SSE41-NEXT: cvtdq2pd %xmm4, %xmm1
; SSE41-NEXT: addpd %xmm5, %xmm1
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: uitofp_load_4i32_to_4f64:		; AVX1-LABEL: uitofp_load_4i32_to_4f64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa (%rdi), %xmm0		; AVX1-NEXT: vmovdqa (%rdi), %xmm0
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; AVX1-NEXT: vcvtdq2pd %xmm1, %ymm1		; AVX1-NEXT: vcvtdq2pd %xmm1, %ymm1
▲ Show 20 Lines • Show All 2,084 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-constrained-fp-intrinsics.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,776 Lines • ▼ Show 20 Lines	%result = call <1 x float>
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict") #0		metadata !"fpexcept.strict") #0
ret <1 x float> %result		ret <1 x float> %result
}		}

define <2 x double> @constrained_vector_uitofp_v2f64_v2i32(<2 x i32> %x) #0 {		define <2 x double> @constrained_vector_uitofp_v2f64_v2i32(<2 x i32> %x) #0 {
; CHECK-LABEL: constrained_vector_uitofp_v2f64_v2i32:		; CHECK-LABEL: constrained_vector_uitofp_v2f64_v2i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,0,65535,0,65535,0,65535,0]		; CHECK-NEXT: xorpd %xmm1, %xmm1
; CHECK-NEXT: pand %xmm0, %xmm1		; CHECK-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; CHECK-NEXT: cvtdq2pd %xmm1, %xmm1		; CHECK-NEXT: movapd {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; CHECK-NEXT: psrld $16, %xmm0		; CHECK-NEXT: orpd %xmm1, %xmm0
; CHECK-NEXT: cvtdq2pd %xmm0, %xmm0		; CHECK-NEXT: subpd %xmm1, %xmm0
; CHECK-NEXT: mulpd {{.*}}(%rip), %xmm0
; CHECK-NEXT: addpd %xmm1, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
;		;
; AVX1-LABEL: constrained_vector_uitofp_v2f64_v2i32:		; AVX1-LABEL: constrained_vector_uitofp_v2f64_v2i32:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [4.503599627370496E+15,4.503599627370496E+15]
; AVX1-NEXT: vcvtdq2pd %xmm1, %xmm1		; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0		; AVX1-NEXT: vsubpd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vcvtdq2pd %xmm0, %xmm0
; AVX1-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX512-LABEL: constrained_vector_uitofp_v2f64_v2i32:		; AVX512-LABEL: constrained_vector_uitofp_v2f64_v2i32:
; AVX512: # %bb.0: # %entry		; AVX512: # %bb.0: # %entry
; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero		; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
; AVX512-NEXT: vcvtudq2pd %ymm0, %zmm0		; AVX512-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
▲ Show 20 Lines • Show All 450 Lines • ▼ Show 20 Lines	%result = call <3 x float>
metadata !"round.dynamic",		metadata !"round.dynamic",
metadata !"fpexcept.strict") #0		metadata !"fpexcept.strict") #0
ret <3 x float> %result		ret <3 x float> %result
}		}

define <4 x double> @constrained_vector_uitofp_v4f64_v4i32(<4 x i32> %x) #0 {		define <4 x double> @constrained_vector_uitofp_v4f64_v4i32(<4 x i32> %x) #0 {
; CHECK-LABEL: constrained_vector_uitofp_v4f64_v4i32:		; CHECK-LABEL: constrained_vector_uitofp_v4f64_v4i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: movdqa %xmm0, %xmm1		; CHECK-NEXT: movapd %xmm0, %xmm1
; CHECK-NEXT: psrld $16, %xmm1		; CHECK-NEXT: xorpd %xmm2, %xmm2
; CHECK-NEXT: cvtdq2pd %xmm1, %xmm1		; CHECK-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; CHECK-NEXT: movapd {{.*#+}} xmm2 = [6.5536E+4,6.5536E+4]		; CHECK-NEXT: movapd {{.*#+}} xmm3 = [4.503599627370496E+15,4.503599627370496E+15]
; CHECK-NEXT: mulpd %xmm2, %xmm1		; CHECK-NEXT: orpd %xmm3, %xmm0
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]		; CHECK-NEXT: subpd %xmm3, %xmm0
; CHECK-NEXT: pand {{.*}}(%rip), %xmm0		; CHECK-NEXT: unpckhps {{.*#+}} xmm1 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; CHECK-NEXT: cvtdq2pd %xmm0, %xmm0		; CHECK-NEXT: orpd %xmm3, %xmm1
; CHECK-NEXT: addpd %xmm1, %xmm0		; CHECK-NEXT: subpd %xmm3, %xmm1
; CHECK-NEXT: movdqa %xmm3, %xmm1
; CHECK-NEXT: psrld $16, %xmm1
; CHECK-NEXT: cvtdq2pd %xmm1, %xmm4
; CHECK-NEXT: mulpd %xmm2, %xmm4
; CHECK-NEXT: pand {{.*}}(%rip), %xmm3
; CHECK-NEXT: cvtdq2pd %xmm3, %xmm1
; CHECK-NEXT: addpd %xmm4, %xmm1
; CHECK-NEXT: retq		; CHECK-NEXT: retq
;		;
; AVX1-LABEL: constrained_vector_uitofp_v4f64_v4i32:		; AVX1-LABEL: constrained_vector_uitofp_v4f64_v4i32:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0
; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0		; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0
▲ Show 20 Lines • Show All 534 Lines • Show Last 20 Lines