This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Enable ISD::EXTRACT_SUBVECTOR SimplifyMultipleUseDemandedBits handling
ClosedPublic

Authored by RKSimon on Jan 20 2020, 3:17 AM.

Download Raw Diff

Details

Reviewers

efriedma
lebedev.ri
spatel
craig.topper

Summary

This allows SimplifyDemandedBits to call SimplifyMultipleUseDemandedBits to create a simpler ISD::EXTRACT_SUBVECTOR, which is particularly useful for cases where we're splitting into subvectors anyhow.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Jan 20 2020, 3:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 20 2020, 3:17 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

spatel added inline comments.Jan 23 2020, 10:20 AM

llvm/test/CodeGen/X86/pr31956.ll
13–14	Looked at this a bit, and I think this is ok. We are intentionally being aggressive about duplicating multi-use loads because eliminating the dependency and reducing register pressure (assuming load-folding) is probably better for perf if this code is in a loop. In this particular case, there seems to be an opportunity to commute the shufps masks in lowerShuffleWithSHUFPS() in the case where we create 2 shufps ops. I'm guessing that's a very rare occurrence, so not sure if it's worth a TODO comment/bug report.

RKSimon marked an inline comment as done.Jan 23 2020, 12:21 PM

RKSimon added inline comments.

llvm/test/CodeGen/X86/pr31956.ll
13–14	That shouldn't be a problem, I'll deal with that first.

RKSimon mentioned this in rGe37cdbeeabfb: [X86][SSE] Add shufps+shufps test for fold through commutation.Jan 24 2020, 3:22 AM

RKSimon mentioned this in rG30fcd29fe479: [X86][SSE] lowerShuffleWithSHUFPS - commute '2*V1+2*V2 elements' mask if it….Jan 24 2020, 4:08 AM

rebase

RKSimon edited the summary of this revision. (Show Details)Jan 24 2020, 10:38 AM

any more comments?

LGTM

This revision is now accepted and ready to land.Jan 27 2020, 9:23 AM

rGe7e043724e7b

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

TargetLowering.cpp

11 lines

test/

CodeGen/

AArch64/

vecreduce-and-legalization.ll

2 lines

X86/

avx-vperm2x128.ll

17 lines

bitcast-setcc-256.ll

2 lines

bitcast-vector-bool.ll

2 lines

masked_load.ll

2 lines

movmsk-cmp.ll

4 lines

pr31956.ll

5 lines

vec-strict-inttofp-256.ll

38 lines

vec_int_to_fp.ll

142 lines

Diff 240201

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 964 Lines • ▼ Show 20 Lines	case ISD::EXTRACT_SUBVECTOR: {
APInt SrcElts = APInt::getAllOnesValue(NumSrcElts);		APInt SrcElts = APInt::getAllOnesValue(NumSrcElts);
if (SubIdx && SubIdx->getAPIntValue().ule(NumSrcElts - NumElts)) {		if (SubIdx && SubIdx->getAPIntValue().ule(NumSrcElts - NumElts)) {
// Offset the demanded elts by the subvector index.		// Offset the demanded elts by the subvector index.
uint64_t Idx = SubIdx->getZExtValue();		uint64_t Idx = SubIdx->getZExtValue();
SrcElts = DemandedElts.zextOrSelf(NumSrcElts).shl(Idx);		SrcElts = DemandedElts.zextOrSelf(NumSrcElts).shl(Idx);
}		}
if (SimplifyDemandedBits(Src, DemandedBits, SrcElts, Known, TLO, Depth + 1))		if (SimplifyDemandedBits(Src, DemandedBits, SrcElts, Known, TLO, Depth + 1))
return true;		return true;

		// Attempt to avoid multi-use src if we don't need anything from it.
		if (!DemandedBits.isAllOnesValue() \|\| !SrcElts.isAllOnesValue()) {
		SDValue DemandedSrc = SimplifyMultipleUseDemandedBits(
		Src, DemandedBits, SrcElts, TLO.DAG, Depth + 1);
		if (DemandedSrc) {
		SDValue NewOp = TLO.DAG.getNode(Op.getOpcode(), dl, VT, DemandedSrc,
		Op.getOperand(1));
		return TLO.CombineTo(Op, NewOp);
		}
		}
break;		break;
}		}
case ISD::CONCAT_VECTORS: {		case ISD::CONCAT_VECTORS: {
Known.Zero.setAllBits();		Known.Zero.setAllBits();
Known.One.setAllBits();		Known.One.setAllBits();
EVT SubVT = Op.getOperand(0).getValueType();		EVT SubVT = Op.getOperand(0).getValueType();
unsigned NumSubVecs = Op.getNumOperands();		unsigned NumSubVecs = Op.getNumOperands();
unsigned NumSubElts = SubVT.getVectorNumElements();		unsigned NumSubElts = SubVT.getVectorNumElements();
▲ Show 20 Lines • Show All 6,641 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/vecreduce-and-legalization.ll

	Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call i8 @llvm.experimental.vector.reduce.and.v9i8(<9 x i8> %a)			%b = call i8 @llvm.experimental.vector.reduce.and.v9i8(<9 x i8> %a)
	ret i8 %b			ret i8 %b
	}			}

	define i32 @test_v3i32(<3 x i32> %a) nounwind {			define i32 @test_v3i32(<3 x i32> %a) nounwind {
	; CHECK-LABEL: test_v3i32:			; CHECK-LABEL: test_v3i32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: mov w8, #-1
	; CHECK-NEXT: mov v0.s[3], w8
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: and v1.8b, v0.8b, v1.8b			; CHECK-NEXT: and v1.8b, v0.8b, v1.8b
	; CHECK-NEXT: mov w8, v0.s[1]			; CHECK-NEXT: mov w8, v0.s[1]
	; CHECK-NEXT: fmov w9, s1			; CHECK-NEXT: fmov w9, s1
	; CHECK-NEXT: and w0, w9, w8			; CHECK-NEXT: and w0, w9, w8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call i32 @llvm.experimental.vector.reduce.and.v3i32(<3 x i32> %a)			%b = call i32 @llvm.experimental.vector.reduce.and.v3i32(<3 x i32> %a)
	ret i32 %b			ret i32 %b
	▲ Show 20 Lines • Show All 57 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-vperm2x128.ll

Show First 20 Lines • Show All 621 Lines • ▼ Show 20 Lines	entry:
%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 3, i32 4, i32 5>		%shuffle = shufflevector <4 x i64> %a, <4 x i64> %b, <4 x i32> <i32 2, i32 3, i32 4, i32 5>
%res = add <4 x i64> %shuffle, <i64 1, i64 2, i64 3, i64 4>		%res = add <4 x i64> %shuffle, <i64 1, i64 2, i64 3, i64 4>
ret <4 x i64> %res		ret <4 x i64> %res
}		}

define <4 x i64> @ld1_hi0_hi1_4i64(<4 x i64> %a, <4 x i64> * %pb) nounwind uwtable readnone ssp {		define <4 x i64> @ld1_hi0_hi1_4i64(<4 x i64> %a, <4 x i64> * %pb) nounwind uwtable readnone ssp {
; AVX1-LABEL: ld1_hi0_hi1_4i64:		; AVX1-LABEL: ld1_hi0_hi1_4i64:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
		; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: ld1_hi0_hi1_4i64:		; AVX2-LABEL: ld1_hi0_hi1_4i64:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]		; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
entry:		entry:
Show All 24 Lines	entry:
%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11>		%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11>
%res = add <8 x i32> %shuffle, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4>		%res = add <8 x i32> %shuffle, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4>
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i32> @ld1_hi0_hi1_8i32(<8 x i32> %a, <8 x i32> * %pb) nounwind uwtable readnone ssp {		define <8 x i32> @ld1_hi0_hi1_8i32(<8 x i32> %a, <8 x i32> * %pb) nounwind uwtable readnone ssp {
; AVX1-LABEL: ld1_hi0_hi1_8i32:		; AVX1-LABEL: ld1_hi0_hi1_8i32:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,2,3,4]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,2,3,4]		; AVX1-NEXT: vpaddd 16(%rdi), %xmm1, %xmm2
; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: ld1_hi0_hi1_8i32:		; AVX2-LABEL: ld1_hi0_hi1_8i32:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]		; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
entry:		entry:
%b = load <8 x i32>, <8 x i32> * %pb		%b = load <8 x i32>, <8 x i32> * %pb
%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 12, i32 13, i32 14, i32 15>		%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 12, i32 13, i32 14, i32 15>
%res = add <8 x i32> %shuffle, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4>		%res = add <8 x i32> %shuffle, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4>
ret <8 x i32> %res		ret <8 x i32> %res
}		}

llvm/test/CodeGen/X86/bitcast-setcc-256.ll

	Show First 20 Lines • Show All 369 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: movw %ax, (%rdi)			; AVX1-NEXT: movw %ax, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: bitcast_16i16_store:			; AVX2-LABEL: bitcast_16i16_store:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: movw %ax, (%rdi)			; AVX2-NEXT: movw %ax, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: bitcast_16i16_store:			; AVX512F-LABEL: bitcast_16i16_store:
	▲ Show 20 Lines • Show All 97 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

	Show First 20 Lines • Show All 290 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: shrl $8, %eax			; AVX1-NEXT: shrl $8, %eax
	; AVX1-NEXT: addb %cl, %al			; AVX1-NEXT: addb %cl, %al
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: bitcast_v16i16_to_v2i8:			; AVX2-LABEL: bitcast_v16i16_to_v2i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %ecx			; AVX2-NEXT: vpmovmskb %xmm0, %ecx
	; AVX2-NEXT: movl %ecx, %eax			; AVX2-NEXT: movl %ecx, %eax
	; AVX2-NEXT: shrl $8, %eax			; AVX2-NEXT: shrl $8, %eax
	; AVX2-NEXT: addb %cl, %al			; AVX2-NEXT: addb %cl, %al
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 1,073 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_load.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,192 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0			; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm1
	; AVX1-NEXT: vmovaps %ymm1, %ymm0			; AVX1-NEXT: vmovaps %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_v16i16_v16i16:			; AVX2-LABEL: load_v16i16_v16i16:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtw %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpacksswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: jne LBB22_1			; AVX2-NEXT: jne LBB22_1
	; AVX2-NEXT: ## %bb.2: ## %else			; AVX2-NEXT: ## %bb.2: ## %else
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: jne LBB22_3			; AVX2-NEXT: jne LBB22_3
	▲ Show 20 Lines • Show All 3,659 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/movmsk-cmp.ll

	Show First 20 Lines • Show All 412 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: cmpw $-1, %ax			; AVX1-NEXT: cmpw $-1, %ax
	; AVX1-NEXT: sete %al			; AVX1-NEXT: sete %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: allones_v16i16_sign:			; AVX2-LABEL: allones_v16i16_sign:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: cmpw $-1, %ax			; AVX2-NEXT: cmpw $-1, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 37 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: testw %ax, %ax			; AVX1-NEXT: testw %ax, %ax
	; AVX1-NEXT: sete %al			; AVX1-NEXT: sete %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: allzeros_v16i16_sign:			; AVX2-LABEL: allzeros_v16i16_sign:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: testw %ax, %ax			; AVX2-NEXT: testw %ax, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 4,175 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr31956.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mattr=+avx < %s \| FileCheck %s			; RUN: llc -mattr=+avx < %s \| FileCheck %s
	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-scei-ps4"			target triple = "x86_64-scei-ps4"

	@G1 = common global <2 x float> zeroinitializer, align 8			@G1 = common global <2 x float> zeroinitializer, align 8
	@G2 = common global <8 x float> zeroinitializer, align 32			@G2 = common global <8 x float> zeroinitializer, align 32

	define <4 x float> @foo() {			define <4 x float> @foo() {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2,3,4,5,6,7]			; CHECK-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],mem[2,3,4,5,6,7]
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vshufps {{.*#+}} xmm0 = xmm0[2,0],mem[0,2]
				spatelUnsubmitted Not Done Reply Inline Actions Looked at this a bit, and I think this is ok. We are intentionally being aggressive about duplicating multi-use loads because eliminating the dependency and reducing register pressure (assuming load-folding) is probably better for perf if this code is in a loop. In this particular case, there seems to be an opportunity to commute the shufps masks in lowerShuffleWithSHUFPS() in the case where we create 2 shufps ops. I'm guessing that's a very rare occurrence, so not sure if it's worth a TODO comment/bug report. spatel: Looked at this a bit, and I think this is ok. We are intentionally being aggressive about…
				RKSimonAuthorUnsubmitted Done Reply Inline Actions That shouldn't be a problem, I'll deal with that first. RKSimon: That shouldn't be a problem, I'll deal with that first.
	; CHECK-NEXT: vshufps {{.*#+}} xmm0 = xmm1[0,2],xmm0[2,0]			; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,0,3,1]
	; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%V = load <2 x float>, <2 x float>* @G1, align 8			%V = load <2 x float>, <2 x float>* @G1, align 8
	%shuffle = shufflevector <2 x float> %V, <2 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <2 x float> %V, <2 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 undef, i32 undef, i32 undef>
	%L = load <8 x float>, <8 x float>* @G2, align 32			%L = load <8 x float>, <8 x float>* @G2, align 32
	%shuffle1 = shufflevector <8 x float> %shuffle, <8 x float> %L, <4 x i32> <i32 12, i32 10, i32 14, i32 4>			%shuffle1 = shufflevector <8 x float> %shuffle, <8 x float> %L, <4 x i32> <i32 12, i32 10, i32 14, i32 4>
	ret <4 x float> %shuffle1			ret <4 x float> %shuffle1
	}			}

llvm/test/CodeGen/X86/vec-strict-inttofp-256.ll

	Show First 20 Lines • Show All 1,062 Lines • ▼ Show 20 Lines
	; AVX1-64-NEXT: vaddps %xmm1, %xmm1, %xmm3			; AVX1-64-NEXT: vaddps %xmm1, %xmm1, %xmm3
	; AVX1-64-NEXT: vpackssdw %xmm2, %xmm0, %xmm0			; AVX1-64-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX1-64-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0			; AVX1-64-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0
	; AVX1-64-NEXT: vzeroupper			; AVX1-64-NEXT: vzeroupper
	; AVX1-64-NEXT: retq			; AVX1-64-NEXT: retq
	;			;
	; AVX2-64-LABEL: uitofp_v4i64_v4f32:			; AVX2-64-LABEL: uitofp_v4i64_v4f32:
	; AVX2-64: # %bb.0:			; AVX2-64: # %bb.0:
	; AVX2-64-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-64-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; AVX2-64-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm1			; AVX2-64-NEXT: vpand %ymm1, %ymm0, %ymm1
	; AVX2-64-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-64-NEXT: vpsrlq $1, %ymm0, %ymm2
	; AVX2-64-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX2-64-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-64-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1,1,1,1]			; AVX2-64-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX2-64-NEXT: vpand %ymm2, %ymm0, %ymm2			; AVX2-64-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-64-NEXT: vpsrlq $1, %ymm0, %ymm3			; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm3, %xmm2
	; AVX2-64-NEXT: vpor %ymm2, %ymm3, %ymm2			; AVX2-64-NEXT: vmovq %xmm1, %rax
	; AVX2-64-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm0			; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm3, %xmm3
	; AVX2-64-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm2
	; AVX2-64-NEXT: vmovq %xmm0, %rax
	; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3
	; AVX2-64-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX2-64-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-64-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-64-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-64-NEXT: vmovq %xmm0, %rax			; AVX2-64-NEXT: vmovq %xmm1, %rax
	; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3			; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3
	; AVX2-64-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX2-64-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-64-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-64-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm0			; AVX2-64-NEXT: vcvtsi2ss %rax, %xmm4, %xmm1
	; AVX2-64-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX2-64-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-64-NEXT: vaddps %xmm0, %xmm0, %xmm2			; AVX2-64-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; AVX2-64-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; AVX2-64-NEXT: vextracti128 $1, %ymm0, %xmm3
				; AVX2-64-NEXT: vpackssdw %xmm3, %xmm0, %xmm0
				; AVX2-64-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-64-NEXT: vzeroupper			; AVX2-64-NEXT: vzeroupper
	; AVX2-64-NEXT: retq			; AVX2-64-NEXT: retq
	;			;
	; AVX512F-64-LABEL: uitofp_v4i64_v4f32:			; AVX512F-64-LABEL: uitofp_v4i64_v4f32:
	; AVX512F-64: # %bb.0:			; AVX512F-64: # %bb.0:
	; AVX512F-64-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-64-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-64-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1			; AVX512F-64-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1
	; AVX512F-64-NEXT: vmovq %xmm0, %rax			; AVX512F-64-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 2,188 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm1			; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm1
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2			; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; AVX2-NEXT: vxorps %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpackssdw %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpackssdw %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0			; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:			; AVX512F-LABEL: uitofp_4i64_to_4f32_undef:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 379 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vaddps %xmm1, %xmm1, %xmm3			; AVX1-NEXT: vaddps %xmm1, %xmm1, %xmm3
	; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0			; AVX1-NEXT: vblendvps %xmm0, %xmm3, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_4i64_to_4f32:			; AVX2-LABEL: uitofp_4i64_to_4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1,1,1,1]			; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm2
	; AVX2-NEXT: vpor %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm3
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm0			; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm1
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-NEXT: vaddps %xmm0, %xmm0, %xmm2			; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm2
	; AVX2-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
				; AVX2-NEXT: vpackssdw %xmm3, %xmm0, %xmm0
				; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i64_to_4f32:			; AVX512F-LABEL: uitofp_4i64_to_4f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1			; AVX512F-NEXT: vcvtusi2ss %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 1,880 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vblendvps %xmm1, %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vblendvps %xmm1, %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_load_4i64_to_4f32:			; AVX2-LABEL: uitofp_load_4i64_to_4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0			; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1,1,1,1]			; AVX2-NEXT: vblendvpd %ymm0, %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm3
	; AVX2-NEXT: vpor %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm2			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm1
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm2
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm2
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm4, %xmm0			; AVX2-NEXT: vcvtsi2ss %rax, %xmm3, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vaddps %xmm0, %xmm0, %xmm2			; AVX2-NEXT: vaddps %xmm0, %xmm0, %xmm1
	; AVX2-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vmovdqa (%rdi), %xmm2
				; AVX2-NEXT: vpackssdw 16(%rdi), %xmm2, %xmm2
				; AVX2-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_4i64_to_4f32:			; AVX512F-LABEL: uitofp_load_4i64_to_4f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovdqa (%rdi), %xmm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	▲ Show 20 Lines • Show All 442 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vblendvps %xmm1, %xmm3, %xmm2, %xmm1			; AVX1-NEXT: vblendvps %xmm1, %xmm3, %xmm2, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: uitofp_load_8i64_to_8f32:			; AVX2-LABEL: uitofp_load_8i64_to_8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovaps (%rdi), %ymm0			; AVX2-NEXT: vmovaps (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1			; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1,1,1,1]
	; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm3
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm4
	; AVX2-NEXT: vpackssdw %xmm4, %xmm3, %xmm3			; AVX2-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [1,1,1,1]			; AVX2-NEXT: vblendvpd %ymm1, %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm5
	; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm6
	; AVX2-NEXT: vpor %ymm5, %ymm6, %ymm5
	; AVX2-NEXT: vblendvpd %ymm1, %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm5			; AVX2-NEXT: vcvtsi2ss %rax, %xmm5, %xmm3
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm6			; AVX2-NEXT: vcvtsi2ss %rax, %xmm5, %xmm4
	; AVX2-NEXT: vinsertps {{.*#+}} xmm5 = xmm6[0],xmm5[0],xmm6[2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm6			; AVX2-NEXT: vcvtsi2ss %rax, %xmm5, %xmm4
	; AVX2-NEXT: vinsertps {{.*#+}} xmm5 = xmm5[0,1],xmm6[0],xmm5[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0],xmm3[3]
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm1			; AVX2-NEXT: vcvtsi2ss %rax, %xmm5, %xmm1
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm5[0,1,2],xmm1[0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1,2],xmm1[0]
	; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm5			; AVX2-NEXT: vaddps %xmm1, %xmm1, %xmm3
	; AVX2-NEXT: vblendvps %xmm3, %xmm5, %xmm1, %xmm1			; AVX2-NEXT: vmovdqa (%rdi), %xmm4
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm2			; AVX2-NEXT: vmovdqa 32(%rdi), %xmm5
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpackssdw 48(%rdi), %xmm5, %xmm5
	; AVX2-NEXT: vpackssdw %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vblendvps %xmm5, %xmm3, %xmm1, %xmm1
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm3			; AVX2-NEXT: vandps %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm4			; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm3
	; AVX2-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX2-NEXT: vpor %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vblendvpd %ymm0, %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vblendvpd %ymm0, %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm3			; AVX2-NEXT: vcvtsi2ss %rax, %xmm6, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm4			; AVX2-NEXT: vcvtsi2ss %rax, %xmm6, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm4[0],xmm3[0],xmm4[2,3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm4			; AVX2-NEXT: vcvtsi2ss %rax, %xmm6, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0,1],xmm4[0],xmm3[3]			; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ss %rax, %xmm7, %xmm0			; AVX2-NEXT: vcvtsi2ss %rax, %xmm6, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm3[0,1,2],xmm0[0]			; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]
	; AVX2-NEXT: vaddps %xmm0, %xmm0, %xmm3			; AVX2-NEXT: vaddps %xmm0, %xmm0, %xmm2
	; AVX2-NEXT: vblendvps %xmm2, %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpackssdw 16(%rdi), %xmm4, %xmm3
				; AVX2-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_8i64_to_8f32:			; AVX512F-LABEL: uitofp_load_8i64_to_8f32:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vmovaps (%rdi), %xmm0			; AVX512F-NEXT: vmovaps (%rdi), %xmm0
	; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2
	▲ Show 20 Lines • Show All 708 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] Enable ISD::EXTRACT_SUBVECTOR SimplifyMultipleUseDemandedBits handlingClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 240201

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/test/CodeGen/AArch64/vecreduce-and-legalization.ll

llvm/test/CodeGen/X86/avx-vperm2x128.ll

llvm/test/CodeGen/X86/bitcast-setcc-256.ll

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

llvm/test/CodeGen/X86/masked_load.ll

llvm/test/CodeGen/X86/movmsk-cmp.ll

llvm/test/CodeGen/X86/pr31956.ll

llvm/test/CodeGen/X86/vec-strict-inttofp-256.ll

llvm/test/CodeGen/X86/vec_int_to_fp.ll

[DAG] Enable ISD::EXTRACT_SUBVECTOR SimplifyMultipleUseDemandedBits handling
ClosedPublic