This is an archive of the discontinued LLVM Phabricator instance.

[x86] vectorize cast ops in lowering to avoid register file transfers
ClosedPublic

Authored by spatel on Jan 17 2019, 9:30 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
lebedev.ri
andreadb

Commits

rGe84fbb67a1f0: [x86] vectorize cast ops in lowering to avoid register file transfers
rL353302: [x86] vectorize cast ops in lowering to avoid register file transfers

Summary

The proposal in D56796 may cross the line because we're trying to avoid vectorization transforms in generic DAG combining. So this is an alternate, later, x86-specific translation of that patch.

I've avoided all potentially controversial transforms such as extraction from a non-zero element of a vector, so all test diffs here are a clear win AFAIK.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Jan 17 2019, 9:30 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptJan 17 2019, 9:30 AM

spatel marked an inline comment as done.Jan 17 2019, 9:36 AM

spatel added inline comments.

test/CodeGen/X86/vec_int_to_fp.ll
5685–5686 ↗	(On Diff #182314)	Not sure yet how this case became a "shuffle first and extract from 0 element", but we probably want to do that more generally to enable this transform more often.

We still seem to be missing many x86_64 cases?

In D56864#1362813, @RKSimon wrote:

We still seem to be missing many x86_64 cases?

In the knownbits tests, there are other problems. We have some other op(s) sitting between the extract and convert. Some of that would be fixed with a change for PR39975:
https://bugs.llvm.org/show_bug.cgi?id=39975
...but we may need more patches before that to avoid yet more regressions.

Do we have a SSE2/AVX1 cvtdq2pd test case?

In D56864#1365597, @RKSimon wrote:

Do we have a SSE2/AVX1 cvtdq2pd test case?

See inline comment for 'vec_int_to_fp.ll: extract0_sitofp_v4i32_f64().' Let me know if you're thinking of a different pattern.

test/CodeGen/X86/vec_int_to_fp.ll
5581 ↗	(On Diff #182314)	We miss this with SSE because the v4f64 type is not legal. We need to add another check to allow conversion to v2f64 directly if we're extracting from the zero or low elements of a 128-bit source vector.

spatel mentioned this in D56796: [DAGCombiner][x86] add transform/hook to vectorize: cast(extract V, Y).Jan 24 2019, 4:00 AM

spatel marked an inline comment as done.Jan 24 2019, 5:55 PM

spatel added inline comments.

test/CodeGen/X86/vec_int_to_fp.ll
5581 ↗	(On Diff #182314)	I have an ugly draft of a patch that would handle that case. It requires that we produce a X86ISD::CVTSI2P node rather than the generic SINT_TO_FP and that we return/adjust the destination type rather than assuming it's a vector with the same number of elements. I'd prefer to do that in a follow-up commit to reduce risk (assuming we're ok with this general direction).

RKSimon added inline comments.Jan 25 2019, 12:20 AM

lib/Target/X86/X86ISelLowering.cpp
17412 ↗	(On Diff #182314)	They're less common but add a TODO about smaller (extended) integer types?
17415 ↗	(On Diff #182314)	Is the one use necessary? This combine should replace the scalar conversion with a vector, whether there are other uses of the scalar isn't necessarily relevant (but maybe extra instructions if we support shuffles in the future)?
test/CodeGen/X86/vec_int_to_fp.ll
5685–5686 ↗	(On Diff #182314)	SSE2 only supports extractelement from index #0 so the shuffle gets added to move the element there.

spatel marked 3 inline comments as done.Feb 5 2019, 4:26 PM

spatel added inline comments.

lib/Target/X86/X86ISelLowering.cpp
17415 ↗	(On Diff #182314)	Yes, I was being conservative, but avoiding the register transfer is probably still enough to justify the transform regardless of other uses. We don't have any existing regression tests to cover that pattern, so I added some with rL353249

Patch updated:

Added TODO for handling smaller integers.
Removed one-use restriction (still looks worthwhile to avoid the transfer).

LGTM thanks

This revision is now accepted and ready to land.Feb 6 2019, 3:12 AM

Closed by commit rL353302: [x86] vectorize cast ops in lowering to avoid register file transfers (authored by spatel). · Explain WhyFeb 6 2019, 6:59 AM

This revision was automatically updated to reflect the committed changes.

Herald added a project: Restricted Project. · View Herald TranscriptFeb 6 2019, 6:59 AM

spatel mentioned this in D58197: [x86] vectorize more cast ops in lowering to avoid register file transfers.Feb 13 2019, 11:15 AM

spatel mentioned this in rL354619: [x86] vectorize more cast ops in lowering to avoid register file transfers.Feb 21 2019, 12:40 PM

spatel mentioned this in rG234a5e8ea422: [x86] vectorize more cast ops in lowering to avoid register file transfers.

spatel mentioned this in rL354675: [x86] allow narrowing of vector UINT_TO_FP.Feb 22 2019, 7:53 AM

spatel mentioned this in rGa9e289174a1c: [x86] allow narrowing of vector UINT_TO_FP.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

57 lines

test/

CodeGen/

X86/

known-bits-vector.ll

3 lines

known-signbits-vector.ll

15 lines

vec_int_to_fp.ll

93 lines

Diff 185545

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 17,534 Lines • ▼ Show 20 Lines	static SDValue LowerI64IntToFP_AVX512DQ(SDValue Op, SelectionDAG &DAG,

SDLoc dl(Op);		SDLoc dl(Op);
SDValue InVec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VecInVT, Src);		SDValue InVec = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VecInVT, Src);
SDValue CvtVec = DAG.getNode(Op.getOpcode(), dl, VecVT, InVec);		SDValue CvtVec = DAG.getNode(Op.getOpcode(), dl, VecVT, InVec);
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, VT, CvtVec,		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, VT, CvtVec,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
}		}

		static bool useVectorCast(unsigned Opcode, MVT FromVT, MVT ToVT,
		const X86Subtarget &Subtarget) {
		switch (Opcode) {
		case ISD::SINT_TO_FP:
		// TODO: Handle wider types with AVX/AVX512.
		if (!Subtarget.hasSSE2() \|\| FromVT != MVT::v4i32)
		return false;
		// CVTDQ2PS or (V)CVTDQ2PD
		return ToVT == MVT::v4f32 \|\| (Subtarget.hasAVX() && ToVT == MVT::v4f64);

		case ISD::UINT_TO_FP:
		// TODO: Handle wider types and i64 elements.
		if (!Subtarget.hasAVX512() \|\| FromVT != MVT::v4i32)
		return false;
		// VCVTUDQ2PS or VCVTUDQ2PD
		return ToVT == MVT::v4f32 \|\| ToVT == MVT::v4f64;

		default:
		return false;
		}
		}

		/// Given a scalar cast operation that is extracted from a vector, try to
		/// vectorize the cast op followed by extraction. This will avoid an expensive
		/// round-trip between XMM and GPR.
		static SDValue vectorizeExtractedCast(SDValue Cast, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		// TODO: The limitation for extracting from the 0-element is not required,
		// but if we extract from some other element, it will require shuffling to
		// get the result into the right place.
		// TODO: This could be enhanced to handle smaller integer types by peeking
		// through an extend.
		SDValue Extract = Cast.getOperand(0);
		MVT DestVT = Cast.getSimpleValueType();
		if (Extract.getOpcode() != ISD::EXTRACT_VECTOR_ELT \|\|
		!isNullConstant(Extract.getOperand(1)))
		return SDValue();

		SDValue VecOp = Extract.getOperand(0);
		MVT FromVT = VecOp.getSimpleValueType();
		MVT ToVT = MVT::getVectorVT(DestVT, FromVT.getVectorNumElements());
		if (!useVectorCast(Cast.getOpcode(), FromVT, ToVT, Subtarget))
		return SDValue();

		// cast (extract V, Y) --> extract (cast V), Y
		SDLoc DL(Cast);
		SDValue VCast = DAG.getNode(Cast.getOpcode(), DL, ToVT, VecOp);
		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, DestVT, VCast,
		Extract.getOperand(1));
		}

SDValue X86TargetLowering::LowerSINT_TO_FP(SDValue Op,		SDValue X86TargetLowering::LowerSINT_TO_FP(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDValue Src = Op.getOperand(0);		SDValue Src = Op.getOperand(0);
MVT SrcVT = Src.getSimpleValueType();		MVT SrcVT = Src.getSimpleValueType();
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
SDLoc dl(Op);		SDLoc dl(Op);

		if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))
		return Extract;

if (SrcVT.isVector()) {		if (SrcVT.isVector()) {
if (SrcVT == MVT::v2i32 && VT == MVT::v2f64) {		if (SrcVT == MVT::v2i32 && VT == MVT::v2f64) {
return DAG.getNode(X86ISD::CVTSI2P, dl, VT,		return DAG.getNode(X86ISD::CVTSI2P, dl, VT,
DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i32, Src,		DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4i32, Src,
DAG.getUNDEF(SrcVT)));		DAG.getUNDEF(SrcVT)));
}		}
return SDValue();		return SDValue();
}		}
▲ Show 20 Lines • Show All 346 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerUINT_TO_FP(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDValue N0 = Op.getOperand(0);		SDValue N0 = Op.getOperand(0);
SDLoc dl(Op);		SDLoc dl(Op);
auto PtrVT = getPointerTy(DAG.getDataLayout());		auto PtrVT = getPointerTy(DAG.getDataLayout());

if (Op.getSimpleValueType().isVector())		if (Op.getSimpleValueType().isVector())
return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);		return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);

		if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))
		return Extract;

MVT SrcVT = N0.getSimpleValueType();		MVT SrcVT = N0.getSimpleValueType();
MVT DstVT = Op.getSimpleValueType();		MVT DstVT = Op.getSimpleValueType();

if (Subtarget.hasAVX512() && isScalarFPTypeInSSEReg(DstVT) &&		if (Subtarget.hasAVX512() && isScalarFPTypeInSSEReg(DstVT) &&
(SrcVT == MVT::i32 \|\| (SrcVT == MVT::i64 && Subtarget.is64Bit()))) {		(SrcVT == MVT::i32 \|\| (SrcVT == MVT::i64 && Subtarget.is64Bit()))) {
// Conversions from unsigned i32 to f32/f64 are legal,		// Conversions from unsigned i32 to f32/f64 are legal,
// using VCVTUSI2SS/SD. Same for i64 in 64-bit mode.		// using VCVTUSI2SS/SD. Same for i64 in 64-bit mode.
return Op;		return Op;
▲ Show 20 Lines • Show All 25,365 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/known-bits-vector.ll

Show All 19 Lines	; X64-NEXT: retq
ret i32 %3		ret i32 %3
}		}

define float @knownbits_mask_extract_uitofp(<2 x i64> %a0) nounwind {		define float @knownbits_mask_extract_uitofp(<2 x i64> %a0) nounwind {
; X32-LABEL: knownbits_mask_extract_uitofp:		; X32-LABEL: knownbits_mask_extract_uitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero		; X32-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
; X32-NEXT: vmovd %xmm0, %eax		; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
; X32-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
; X32-NEXT: flds (%esp)		; X32-NEXT: flds (%esp)
; X32-NEXT: popl %eax		; X32-NEXT: popl %eax
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: knownbits_mask_extract_uitofp:		; X64-LABEL: knownbits_mask_extract_uitofp:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vmovq %xmm0, %rax		; X64-NEXT: vmovq %xmm0, %rax
▲ Show 20 Lines • Show All 631 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	define float @signbits_ashr_extract_sitofp_1(<2 x i64> %a0) nounwind {			define float @signbits_ashr_extract_sitofp_1(<2 x i64> %a0) nounwind {
	; X32-LABEL: signbits_ashr_extract_sitofp_1:			; X32-LABEL: signbits_ashr_extract_sitofp_1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pushl %eax			; X32-NEXT: pushl %eax
	; X32-NEXT: vpsrlq $32, %xmm0, %xmm0			; X32-NEXT: vpsrlq $32, %xmm0, %xmm0
	; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [0,32768,0,0,1,0,0,0]			; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [0,32768,0,0,1,0,0,0]
	; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0			; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; X32-NEXT: vmovd %xmm0, %eax			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_extract_sitofp_1:			; X64-LABEL: signbits_ashr_extract_sitofp_1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	Show All 10 Lines
	; X32-LABEL: signbits_ashr_shl_extract_sitofp:			; X32-LABEL: signbits_ashr_shl_extract_sitofp:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pushl %eax			; X32-NEXT: pushl %eax
	; X32-NEXT: vpsrlq $61, %xmm0, %xmm0			; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
	; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]			; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]
	; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0			; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; X32-NEXT: vpsllq $20, %xmm0, %xmm0			; X32-NEXT: vpsllq $20, %xmm0, %xmm0
	; X32-NEXT: vmovd %xmm0, %eax			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_shl_extract_sitofp:			; X64-LABEL: signbits_ashr_shl_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	Show All 14 Lines
	; X32-NEXT: pushl %eax			; X32-NEXT: pushl %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: shrdl $30, %ecx, %eax			; X32-NEXT: shrdl $30, %ecx, %eax
	; X32-NEXT: sarl $30, %ecx			; X32-NEXT: sarl $30, %ecx
	; X32-NEXT: vmovd %eax, %xmm0			; X32-NEXT: vmovd %eax, %xmm0
	; X32-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0			; X32-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; X32-NEXT: vpsrlq $3, %xmm0, %xmm0			; X32-NEXT: vpsrlq $3, %xmm0, %xmm0
	; X32-NEXT: vmovd %xmm0, %eax			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm0
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_insert_ashr_extract_sitofp:			; X64-LABEL: signbits_ashr_insert_ashr_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: sarq $30, %rdi			; X64-NEXT: sarq $30, %rdi
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pushl %eax			; X32-NEXT: pushl %eax
	; X32-NEXT: vpsrlq $61, %xmm0, %xmm0			; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
	; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]			; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]
	; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0			; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; X32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X32-NEXT: vpand %xmm1, %xmm0, %xmm0			; X32-NEXT: vpand %xmm1, %xmm0, %xmm0
	; X32-NEXT: vmovd %xmm0, %eax			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:			; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpsrlq $61, %xmm0, %xmm0			; X64-NEXT: vpsrlq $61, %xmm0, %xmm0
	Show All 26 Lines
	; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [4,0,0,0,8,0,0,0]			; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [4,0,0,0,8,0,0,0]
	; X32-NEXT: vpxor %xmm2, %xmm0, %xmm0			; X32-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; X32-NEXT: vpsubq %xmm2, %xmm0, %xmm0			; X32-NEXT: vpsubq %xmm2, %xmm0, %xmm0
	; X32-NEXT: vpmovsxdq %xmm1, %xmm1			; X32-NEXT: vpmovsxdq %xmm1, %xmm1
	; X32-NEXT: vpand %xmm1, %xmm0, %xmm2			; X32-NEXT: vpand %xmm1, %xmm0, %xmm2
	; X32-NEXT: vpor %xmm1, %xmm2, %xmm1			; X32-NEXT: vpor %xmm1, %xmm2, %xmm1
	; X32-NEXT: vpxor %xmm0, %xmm1, %xmm0			; X32-NEXT: vpxor %xmm0, %xmm1, %xmm0
	; X32-NEXT: vmovd %xmm0, %eax			; X32-NEXT: vcvtdq2ps %xmm0, %xmm0
	; X32-NEXT: vcvtsi2ssl %eax, %xmm3, %xmm0
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:			; X64-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpsrlq $60, %xmm0, %xmm2			; X64-NEXT: vpsrlq $60, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 140 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_int_to_fp.ll

Show First 20 Lines • Show All 5,550 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <4 x float> %res		ret <4 x float> %res
}		}

; Extract from int vector and convert to FP.		; Extract from int vector and convert to FP.

define float @extract0_sitofp_v4i32_f32(<4 x i32> %x) nounwind {		define float @extract0_sitofp_v4i32_f32(<4 x i32> %x) nounwind {
; SSE-LABEL: extract0_sitofp_v4i32_f32:		; SSE-LABEL: extract0_sitofp_v4i32_f32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssl %eax, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: extract0_sitofp_v4i32_f32:		; AVX-LABEL: extract0_sitofp_v4i32_f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; AVX-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%r = sitofp i32 %e to float		%r = sitofp i32 %e to float
ret float %r		ret float %r
}		}

define float @extract0_sitofp_v4i32_f32i_multiuse1(<4 x i32> %x) nounwind {		define float @extract0_sitofp_v4i32_f32i_multiuse1(<4 x i32> %x) nounwind {
; SSE-LABEL: extract0_sitofp_v4i32_f32i_multiuse1:		; SSE-LABEL: extract0_sitofp_v4i32_f32i_multiuse1:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: cvtdq2ps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssl %eax, %xmm0
; SSE-NEXT: incl %eax		; SSE-NEXT: incl %eax
; SSE-NEXT: cvtsi2ssl %eax, %xmm1		; SSE-NEXT: cvtsi2ssl %eax, %xmm1
; SSE-NEXT: divss %xmm1, %xmm0		; SSE-NEXT: divss %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: extract0_sitofp_v4i32_f32i_multiuse1:		; AVX-LABEL: extract0_sitofp_v4i32_f32i_multiuse1:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vmovd %xmm0, %eax
; AVX-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm0		; AVX-NEXT: vcvtdq2ps %xmm0, %xmm0
; AVX-NEXT: incl %eax		; AVX-NEXT: incl %eax
; AVX-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm1		; AVX-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm1
; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0		; AVX-NEXT: vdivss %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%f = sitofp i32 %e to float		%f = sitofp i32 %e to float
%e1 = add i32 %e, 1		%e1 = add i32 %e, 1
%f1 = sitofp i32 %e1 to float		%f1 = sitofp i32 %e1 to float
%r = fdiv float %f, %f1		%r = fdiv float %f, %f1
ret float %r		ret float %r
}		}

define float @extract0_sitofp_v4i32_f32_multiuse2(<4 x i32> %x, i32* %p) nounwind {		define float @extract0_sitofp_v4i32_f32_multiuse2(<4 x i32> %x, i32* %p) nounwind {
; SSE-LABEL: extract0_sitofp_v4i32_f32_multiuse2:		; SSE-LABEL: extract0_sitofp_v4i32_f32_multiuse2:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: cvtdq2ps %xmm0, %xmm1
; SSE-NEXT: cvtsi2ssl %eax, %xmm1		; SSE-NEXT: movss %xmm0, (%rdi)
; SSE-NEXT: movd %xmm0, (%rdi)
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: extract0_sitofp_v4i32_f32_multiuse2:		; AVX-LABEL: extract0_sitofp_v4i32_f32_multiuse2:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vcvtdq2ps %xmm0, %xmm1
; AVX-NEXT: vcvtsi2ssl %eax, %xmm1, %xmm1		; AVX-NEXT: vmovss %xmm0, (%rdi)
; AVX-NEXT: vmovd %xmm0, (%rdi)
; AVX-NEXT: vmovaps %xmm1, %xmm0		; AVX-NEXT: vmovaps %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%r = sitofp i32 %e to float		%r = sitofp i32 %e to float
store i32 %e, i32* %p		store i32 %e, i32* %p
ret float %r		ret float %r
}		}

define double @extract0_sitofp_v4i32_f64(<4 x i32> %x) nounwind {		define double @extract0_sitofp_v4i32_f64(<4 x i32> %x) nounwind {
; SSE-LABEL: extract0_sitofp_v4i32_f64:		; SSE-LABEL: extract0_sitofp_v4i32_f64:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdl %eax, %xmm0		; SSE-NEXT: cvtsi2sdl %eax, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: extract0_sitofp_v4i32_f64:		; AVX-LABEL: extract0_sitofp_v4i32_f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vcvtdq2pd %xmm0, %xmm0
; AVX-NEXT: vcvtsi2sdl %eax, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%r = sitofp i32 %e to double		%r = sitofp i32 %e to double
ret double %r		ret double %r
}		}

define float @extract0_uitofp_v4i32_f32(<4 x i32> %x) nounwind {		define float @extract0_uitofp_v4i32_f32(<4 x i32> %x) nounwind {
; SSE-LABEL: extract0_uitofp_v4i32_f32:		; SSE-LABEL: extract0_uitofp_v4i32_f32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2ssq %rax, %xmm0		; SSE-NEXT: cvtsi2ssq %rax, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: extract0_uitofp_v4i32_f32:		; VEX-LABEL: extract0_uitofp_v4i32_f32:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovd %xmm0, %eax		; VEX-NEXT: vmovd %xmm0, %eax
; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm0		; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512-LABEL: extract0_uitofp_v4i32_f32:		; AVX512F-LABEL: extract0_uitofp_v4i32_f32:
; AVX512: # %bb.0:		; AVX512F: # %bb.0:
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
; AVX512-NEXT: vcvtusi2ssl %eax, %xmm1, %xmm0		; AVX512F-NEXT: vcvtudq2ps %zmm0, %zmm0
; AVX512-NEXT: retq		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
		; AVX512F-NEXT: vzeroupper
		; AVX512F-NEXT: retq
		;
		; AVX512VL-LABEL: extract0_uitofp_v4i32_f32:
		; AVX512VL: # %bb.0:
		; AVX512VL-NEXT: vcvtudq2ps %xmm0, %xmm0
		; AVX512VL-NEXT: retq
		;
		; AVX512DQ-LABEL: extract0_uitofp_v4i32_f32:
		; AVX512DQ: # %bb.0:
		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
		; AVX512DQ-NEXT: vcvtudq2ps %zmm0, %zmm0
		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
		; AVX512DQ-NEXT: vzeroupper
		; AVX512DQ-NEXT: retq
		;
		; AVX512VLDQ-LABEL: extract0_uitofp_v4i32_f32:
		; AVX512VLDQ: # %bb.0:
		; AVX512VLDQ-NEXT: vcvtudq2ps %xmm0, %xmm0
		; AVX512VLDQ-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%r = uitofp i32 %e to float		%r = uitofp i32 %e to float
ret float %r		ret float %r
}		}

define double @extract0_uitofp_v4i32_f64(<4 x i32> %x) nounwind {		define double @extract0_uitofp_v4i32_f64(<4 x i32> %x) nounwind {
; SSE-LABEL: extract0_uitofp_v4i32_f64:		; SSE-LABEL: extract0_uitofp_v4i32_f64:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE-NEXT: xorps %xmm0, %xmm0		; SSE-NEXT: xorps %xmm0, %xmm0
; SSE-NEXT: cvtsi2sdq %rax, %xmm0		; SSE-NEXT: cvtsi2sdq %rax, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; VEX-LABEL: extract0_uitofp_v4i32_f64:		; VEX-LABEL: extract0_uitofp_v4i32_f64:
; VEX: # %bb.0:		; VEX: # %bb.0:
; VEX-NEXT: vmovd %xmm0, %eax		; VEX-NEXT: vmovd %xmm0, %eax
; VEX-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm0		; VEX-NEXT: vcvtsi2sdq %rax, %xmm1, %xmm0
; VEX-NEXT: retq		; VEX-NEXT: retq
;		;
; AVX512-LABEL: extract0_uitofp_v4i32_f64:		; AVX512F-LABEL: extract0_uitofp_v4i32_f64:
; AVX512: # %bb.0:		; AVX512F: # %bb.0:
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
; AVX512-NEXT: vcvtusi2sdl %eax, %xmm1, %xmm0		; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
; AVX512-NEXT: retq		; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
		; AVX512F-NEXT: vzeroupper
		; AVX512F-NEXT: retq
		;
		; AVX512VL-LABEL: extract0_uitofp_v4i32_f64:
		; AVX512VL: # %bb.0:
		; AVX512VL-NEXT: vcvtudq2pd %xmm0, %ymm0
		; AVX512VL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
		; AVX512VL-NEXT: vzeroupper
		; AVX512VL-NEXT: retq
		;
		; AVX512DQ-LABEL: extract0_uitofp_v4i32_f64:
		; AVX512DQ: # %bb.0:
		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
		; AVX512DQ-NEXT: vcvtudq2pd %ymm0, %zmm0
		; AVX512DQ-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
		; AVX512DQ-NEXT: vzeroupper
		; AVX512DQ-NEXT: retq
		;
		; AVX512VLDQ-LABEL: extract0_uitofp_v4i32_f64:
		; AVX512VLDQ: # %bb.0:
		; AVX512VLDQ-NEXT: vcvtudq2pd %xmm0, %ymm0
		; AVX512VLDQ-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
		; AVX512VLDQ-NEXT: vzeroupper
		; AVX512VLDQ-NEXT: retq
%e = extractelement <4 x i32> %x, i32 0		%e = extractelement <4 x i32> %x, i32 0
%r = uitofp i32 %e to double		%r = uitofp i32 %e to double
ret double %r		ret double %r
}		}

; Extract non-zero element from int vector and convert to FP.		; Extract non-zero element from int vector and convert to FP.

define float @extract3_sitofp_v4i32_f32(<4 x i32> %x) nounwind {		define float @extract3_sitofp_v4i32_f32(<4 x i32> %x) nounwind {
; SSE2-LABEL: extract3_sitofp_v4i32_f32:		; SSE2-LABEL: extract3_sitofp_v4i32_f32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
; SSE2-NEXT: movd %xmm0, %eax		; SSE2-NEXT: cvtdq2ps %xmm0, %xmm0
; SSE2-NEXT: xorps %xmm0, %xmm0
; SSE2-NEXT: cvtsi2ssl %eax, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: extract3_sitofp_v4i32_f32:		; SSE41-LABEL: extract3_sitofp_v4i32_f32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: extractps $3, %xmm0, %eax		; SSE41-NEXT: extractps $3, %xmm0, %eax
; SSE41-NEXT: xorps %xmm0, %xmm0		; SSE41-NEXT: xorps %xmm0, %xmm0
; SSE41-NEXT: cvtsi2ssl %eax, %xmm0		; SSE41-NEXT: cvtsi2ssl %eax, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] vectorize cast ops in lowering to avoid register file transfersClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 185545

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/known-bits-vector.ll

llvm/trunk/test/CodeGen/X86/known-signbits-vector.ll

llvm/trunk/test/CodeGen/X86/vec_int_to_fp.ll

[x86] vectorize cast ops in lowering to avoid register file transfers
ClosedPublic