This is an archive of the discontinued LLVM Phabricator instance.

[TargetLowering] Add ISD::AND handling to SimplifyDemandedVectorElts
ClosedPublic

Authored by RKSimon on Dec 11 2018, 7:39 AM.

Download Raw Diff

Details

Reviewers

craig.topper
spatel
jonpa
andreadb

Commits

rGf6c898e12f7f: [TargetLowering] Add ISD::AND handling to SimplifyDemandedVectorElts
rL348926: [TargetLowering] Add ISD::AND handling to SimplifyDemandedVectorElts

Summary

If either of the operand elements are zero then we know the result element is going to be zero (even if the other element is undef).

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Dec 11 2018, 7:39 AM

Looks good to me.

test/CodeGen/X86/known-bits-vector.ll
8–11	Unrelated to this patch: If we know that only element 0 is goign to be used, then - in this case - it is better to move the computation in the Integer unit. Something like: vpextrw $0, %xmm0, %eax and $15, %eax In this case, we could avoid to move data back and forth from the integer unit to the floating point unit.
test/CodeGen/X86/known-signbits-vector.ll
280–283	Similar problem. However, this time we can keep the computation in the FP unit, and avoid data to be bounced back and forth from the two units. vmovq %rax, %xmm1 vpand %xmm1, %xmm0, %xmm0 vcvtdq2ps %xmm0, %xmm0 That being said, I suspect that this code can be further simplified (as in: scalarized) if we keep improving the knowledge about demanded vector elements.

This revision is now accepted and ready to land.Dec 12 2018, 4:33 AM

Closed by commit rL348926: [TargetLowering] Add ISD::AND handling to SimplifyDemandedVectorElts (authored by RKSimon). · Explain WhyDec 12 2018, 5:46 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D55722: [DAGCombiner] scalarize binop followed by extractelement.Dec 14 2018, 2:39 PM

spatel mentioned this in rL350354: [DAGCombiner][x86] scalarize binop followed by extractelement.Jan 3 2019, 1:35 PM

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

	TargetLowering.cpp
	TargetLowering.cpp (revision 348839)

16 lines

test/

CodeGen/

SystemZ/

	vec-trunc-to-i1.ll
	vec-trunc-to-i1.ll (revision 348836)

22 lines

X86/

	copysign-constant-magnitude.ll
	copysign-constant-magnitude.ll (revision 348836)

2 lines

	known-bits-vector.ll
	known-bits-vector.ll (revision 348836)

8 lines

	known-signbits-vector.ll
	known-signbits-vector.ll (revision 348839)

28 lines

	vector-shift-lshr-sub128.ll
	vector-shift-lshr-sub128.ll (revision 348836)

12 lines

	vector-shift-shl-sub128.ll
	vector-shift-shl-sub128.ll (revision 348836)

15 lines

Diff 177707

lib/CodeGen/SelectionDAG/TargetLowering.cpp

Show First 20 Lines • Show All 1,781 Lines • ▼ Show 20 Lines	if (SimplifyDemandedVectorElts(Op.getOperand(1), DemandedElts, SrcUndef,
return true;		return true;
if (SimplifyDemandedVectorElts(Op.getOperand(0), DemandedElts, KnownUndef,		if (SimplifyDemandedVectorElts(Op.getOperand(0), DemandedElts, KnownUndef,
KnownZero, TLO, Depth + 1))		KnownZero, TLO, Depth + 1))
return true;		return true;
KnownZero &= SrcZero;		KnownZero &= SrcZero;
KnownUndef &= SrcUndef;		KnownUndef &= SrcUndef;
break;		break;
}		}
		case ISD::AND: {
		APInt SrcUndef, SrcZero;
		if (SimplifyDemandedVectorElts(Op.getOperand(1), DemandedElts, SrcUndef,
		SrcZero, TLO, Depth + 1))
		return true;
		if (SimplifyDemandedVectorElts(Op.getOperand(0), DemandedElts, KnownUndef,
		KnownZero, TLO, Depth + 1))
		return true;

		// If either side has a zero element, then the result element is zero, even
		// if the other is an UNDEF.
		KnownZero \|= SrcZero;
		KnownUndef &= SrcUndef;
		KnownUndef &= ~KnownZero;
		break;
		}
case ISD::TRUNCATE:		case ISD::TRUNCATE:
case ISD::SIGN_EXTEND:		case ISD::SIGN_EXTEND:
case ISD::ZERO_EXTEND:		case ISD::ZERO_EXTEND:
if (SimplifyDemandedVectorElts(Op.getOperand(0), DemandedElts, KnownUndef,		if (SimplifyDemandedVectorElts(Op.getOperand(0), DemandedElts, KnownUndef,
KnownZero, TLO, Depth + 1))		KnownZero, TLO, Depth + 1))
return true;		return true;
break;		break;
default: {		default: {
▲ Show 20 Lines • Show All 3,403 Lines • Show Last 20 Lines

test/CodeGen/SystemZ/vec-trunc-to-i1.ll

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z13 \| FileCheck %s			; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z13 \| FileCheck %s
	;			;
	; Check that a widening truncate to a vector of i1 elements can be handled.			; Check that a widening truncate to a vector of i1 elements can be handled.

	define void @pr32275(<4 x i8> %B15) {			define void @pr32275(<4 x i8> %B15) {
	; CHECK-LABEL: pr32275:			; CHECK-LABEL: pr32275:
	; CHECK: # %bb.0: # %BB			; CHECK: # %bb.0: # %BB
	; CHECK: vlgvb %r0, %v24, 3			; CHECK-NEXT: vlgvb %r0, %v24, 3
	; CHECK-NEXT: vlgvb %r1, %v24, 1			; CHECK-NEXT: vlvgp %v0, %r0, %r0
	; CHECK-NEXT: vlvgp [[REG1:%v[0-9]]], %r1, %r0			; CHECK-NEXT: vrepif %v1, 1
	; CHECK-NEXT: vlgvb %r0, %v24, 0			; CHECK-NEXT: vn %v0, %v0, %v1
	; CHECK-NEXT: vlgvb [[REG3:%r[0-9]]], %v24, 2			; CHECK-NEXT: vlgvf %r0, %v0, 3
	; CHECK-NEXT: vrepif [[REG0:%v[0-9]]], 1			; CHECK-NEXT: .LBB0_1: # %CF34
	; CHECK: .LBB0_1:			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-DAG: vlr [[REG2:%v[0-9]]], [[REG1]]			; CHECK-NEXT: cijlh %r0, 0, .LBB0_1
	; CHECK-DAG: vlvgf [[REG2]], %r0, 0
	; CHECK-NEXT: vlvgf [[REG2]], [[REG3]], 2
	; CHECK-NEXT: vn [[REG2]], [[REG2]], [[REG0]]
	; CHECK-NEXT: vlgvf [[REG4:%r[0-9]]], [[REG2]], 3
	; CHECK-NEXT: cijlh [[REG4]], 0, .LBB0_1
	; CHECK-NEXT: # %bb.2: # %CF36			; CHECK-NEXT: # %bb.2: # %CF36
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	BB:			BB:
	br label %CF34			br label %CF34

	CF34:			CF34:
	%Tr24 = trunc <4 x i8> %B15 to <4 x i1>			%Tr24 = trunc <4 x i8> %B15 to <4 x i1>
	%E28 = extractelement <4 x i1> %Tr24, i32 3			%E28 = extractelement <4 x i1> %Tr24, i32 3
	br i1 %E28, label %CF34, label %CF36			br i1 %E28, label %CF34, label %CF36

	CF36:			CF36:
	ret void			ret void
	}			}

test/CodeGen/X86/copysign-constant-magnitude.ll

	Show All 20 Lines

	; CHECK: [[SIGNMASK2:L.+]]:			; CHECK: [[SIGNMASK2:L.+]]:
	; CHECK-NEXT: .quad -9223372036854775808 ## double -0			; CHECK-NEXT: .quad -9223372036854775808 ## double -0

	define double @mag_neg0_double(double %x) nounwind {			define double @mag_neg0_double(double %x) nounwind {
	; CHECK-LABEL: mag_neg0_double:			; CHECK-LABEL: mag_neg0_double:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movsd [[SIGNMASK2]](%rip), %xmm1			; CHECK-NEXT: movsd [[SIGNMASK2]](%rip), %xmm1
	; CHECK-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0,0]
	; CHECK-NEXT: andps %xmm1, %xmm0			; CHECK-NEXT: andps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	%y = call double @copysign(double -0.0, double %x)			%y = call double @copysign(double -0.0, double %x)
	ret double %y			ret double %y
	}			}

	; CHECK: [[SIGNMASK3:L.+]]:			; CHECK: [[SIGNMASK3:L.+]]:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines

	; CHECK: [[SIGNMASK6:L.+]]:			; CHECK: [[SIGNMASK6:L.+]]:
	; CHECK-NEXT: .long 2147483648 ## float -0			; CHECK-NEXT: .long 2147483648 ## float -0

	define float @mag_neg0_float(float %x) nounwind {			define float @mag_neg0_float(float %x) nounwind {
	; CHECK-LABEL: mag_neg0_float:			; CHECK-LABEL: mag_neg0_float:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movss [[SIGNMASK6]](%rip), %xmm1			; CHECK-NEXT: movss [[SIGNMASK6]](%rip), %xmm1
	; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0,0,0]
	; CHECK-NEXT: andps %xmm1, %xmm0			; CHECK-NEXT: andps %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	%y = call float @copysignf(float -0.0, float %x)			%y = call float @copysignf(float -0.0, float %x)
	ret float %y			ret float %y
	}			}

	; CHECK: [[SIGNMASK7:L.+]]:			; CHECK: [[SIGNMASK7:L.+]]:
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

test/CodeGen/X86/known-bits-vector.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64

	define i32 @knownbits_mask_extract_sext(<8 x i16> %a0) nounwind {			define i32 @knownbits_mask_extract_sext(<8 x i16> %a0) nounwind {
	; X32-LABEL: knownbits_mask_extract_sext:			; X32-LABEL: knownbits_mask_extract_sext:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0			; X32-NEXT: movl $15, %eax
				; X32-NEXT: vmovd %eax, %xmm1
				; X32-NEXT: vpand %xmm1, %xmm0, %xmm0
	; X32-NEXT: vpextrw $0, %xmm0, %eax			; X32-NEXT: vpextrw $0, %xmm0, %eax
				andreadbUnsubmitted Not Done Reply Inline Actions Unrelated to this patch: If we know that only element 0 is goign to be used, then - in this case - it is better to move the computation in the Integer unit. Something like: vpextrw $0, %xmm0, %eax and $15, %eax In this case, we could avoid to move data back and forth from the integer unit to the floating point unit. andreadb: Unrelated to this patch: If we know that only element 0 is goign to be used, then - in this…
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: knownbits_mask_extract_sext:			; X64-LABEL: knownbits_mask_extract_sext:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; X64-NEXT: movl $15, %eax
				; X64-NEXT: vmovd %eax, %xmm1
				; X64-NEXT: vpand %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpextrw $0, %xmm0, %eax			; X64-NEXT: vpextrw $0, %xmm0, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = and <8 x i16> %a0, <i16 15, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>			%1 = and <8 x i16> %a0, <i16 15, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1, i16 -1>
	%2 = extractelement <8 x i16> %1, i32 0			%2 = extractelement <8 x i16> %1, i32 0
	%3 = sext i16 %2 to i32			%3 = sext i16 %2 to i32
	ret i32 %3			ret i32 %3
	}			}

	▲ Show 20 Lines • Show All 648 Lines • Show Last 20 Lines

test/CodeGen/X86/known-signbits-vector.ll

Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%6 = sitofp <2 x i64> %5 to <2 x double>		%6 = sitofp <2 x i64> %5 to <2 x double>
ret <2 x double> %6		ret <2 x double> %6
}		}

define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {		define float @signbits_ashr_sext_sextinreg_and_extract_sitofp(<2 x i64> %a0, <2 x i64> %a1, i32 %a2) nounwind {
; X32-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:		; X32-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: pushl %eax		; X32-NEXT: pushl %eax
; X32-NEXT: vpsrlq $60, %xmm0, %xmm2		; X32-NEXT: vpsrlq $60, %xmm0, %xmm1
; X32-NEXT: vpsrlq $61, %xmm0, %xmm0		; X32-NEXT: vpsrlq $61, %xmm0, %xmm0
; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]		; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X32-NEXT: vmovdqa {{.*#+}} xmm2 = [4,0,0,0,8,0,0,0]		; X32-NEXT: vmovdqa {{.*#+}} xmm1 = [4,0,0,0,8,0,0,0]
; X32-NEXT: vpxor %xmm2, %xmm0, %xmm0		; X32-NEXT: vpxor %xmm1, %xmm0, %xmm0
; X32-NEXT: vpsubq %xmm2, %xmm0, %xmm0		; X32-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X32-NEXT: vpinsrd $0, {{[0-9]+}}(%esp), %xmm1, %xmm1		; X32-NEXT: vmovd {{.*#+}} xmm1 = mem[0],zero,zero,zero
; X32-NEXT: vpand %xmm1, %xmm0, %xmm0		; X32-NEXT: vpand %xmm1, %xmm0, %xmm0
; X32-NEXT: vmovd %xmm0, %eax		; X32-NEXT: vmovd %xmm0, %eax
; X32-NEXT: vcvtsi2ssl %eax, %xmm3, %xmm0		; X32-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
; X32-NEXT: vmovss %xmm0, (%esp)		; X32-NEXT: vmovss %xmm0, (%esp)
; X32-NEXT: flds (%esp)		; X32-NEXT: flds (%esp)
; X32-NEXT: popl %eax		; X32-NEXT: popl %eax
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:		; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpsrlq $60, %xmm0, %xmm2		; X64-NEXT: vpsrlq $60, %xmm0, %xmm1
; X64-NEXT: vpsrlq $61, %xmm0, %xmm0		; X64-NEXT: vpsrlq $61, %xmm0, %xmm0
; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]		; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; X64-NEXT: vmovdqa {{.*#+}} xmm2 = [4,8]		; X64-NEXT: vmovdqa {{.*#+}} xmm1 = [4,8]
; X64-NEXT: vpxor %xmm2, %xmm0, %xmm0		; X64-NEXT: vpxor %xmm1, %xmm0, %xmm0
; X64-NEXT: vpsubq %xmm2, %xmm0, %xmm0		; X64-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; X64-NEXT: movslq %edi, %rax		; X64-NEXT: movslq %edi, %rax
; X64-NEXT: vpinsrq $0, %rax, %xmm1, %xmm1		; X64-NEXT: vmovq %rax, %xmm1
; X64-NEXT: vpand %xmm1, %xmm0, %xmm0		; X64-NEXT: vpand %xmm1, %xmm0, %xmm0
; X64-NEXT: vmovq %xmm0, %rax		; X64-NEXT: vmovq %xmm0, %rax
; X64-NEXT: vcvtsi2ssl %eax, %xmm3, %xmm0		; X64-NEXT: vcvtsi2ssl %eax, %xmm2, %xmm0
		andreadbUnsubmitted Not Done Reply Inline Actions Similar problem. However, this time we can keep the computation in the FP unit, and avoid data to be bounced back and forth from the two units. vmovq %rax, %xmm1 vpand %xmm1, %xmm0, %xmm0 vcvtdq2ps %xmm0, %xmm0 That being said, I suspect that this code can be further simplified (as in: scalarized) if we keep improving the knowledge about demanded vector elements. andreadb: Similar problem. However, this time we can keep the computation in the FP unit, and avoid data…
; X64-NEXT: retq		; X64-NEXT: retq
%1 = ashr <2 x i64> %a0, <i64 61, i64 60>		%1 = ashr <2 x i64> %a0, <i64 61, i64 60>
%2 = sext i32 %a2 to i64		%2 = sext i32 %a2 to i64
%3 = insertelement <2 x i64> %a1, i64 %2, i32 0		%3 = insertelement <2 x i64> %a1, i64 %2, i32 0
%4 = shl <2 x i64> %3, <i64 20, i64 20>		%4 = shl <2 x i64> %3, <i64 20, i64 20>
%5 = ashr <2 x i64> %4, <i64 20, i64 20>		%5 = ashr <2 x i64> %4, <i64 20, i64 20>
%6 = and <2 x i64> %1, %5		%6 = and <2 x i64> %1, %5
%7 = extractelement <2 x i64> %6, i32 0		%7 = extractelement <2 x i64> %6, i32 0
▲ Show 20 Lines • Show All 128 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-lshr-sub128.ll

	Show First 20 Lines • Show All 855 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX512VL-NEXT: vpsrlvq %xmm1, %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlvq %xmm1, %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatvar_shift_v2i32:			; X32-SSE-LABEL: splatvar_shift_v2i32:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]
	; X32-SSE-NEXT: pand %xmm2, %xmm0			; X32-SSE-NEXT: pand %xmm2, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,1,0,1]			; X32-SSE-NEXT: pand %xmm1, %xmm2
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
				; X32-SSE-NEXT: psrlq %xmm2, %xmm3
	; X32-SSE-NEXT: pxor %xmm2, %xmm2			; X32-SSE-NEXT: pxor %xmm2, %xmm2
	; X32-SSE-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]			; X32-SSE-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: psrlq %xmm2, %xmm0
	; X32-SSE-NEXT: psrlq %xmm2, %xmm1			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: psrlq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]
	; X32-SSE-NEXT: movapd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i32> %b, <2 x i32> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i32> %b, <2 x i32> undef, <2 x i32> zeroinitializer
	%shift = lshr <2 x i32> %a, %splat			%shift = lshr <2 x i32> %a, %splat
	ret <2 x i32> %shift			ret <2 x i32> %shift
	}			}

	define <4 x i16> @splatvar_shift_v4i16(<4 x i16> %a, <4 x i16> %b) nounwind {			define <4 x i16> @splatvar_shift_v4i16(<4 x i16> %a, <4 x i16> %b) nounwind {
	; SSE2-LABEL: splatvar_shift_v4i16:			; SSE2-LABEL: splatvar_shift_v4i16:
	▲ Show 20 Lines • Show All 1,462 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-shl-sub128.ll

	Show First 20 Lines • Show All 633 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpbroadcastq %xmm1, %xmm1			; AVX512VL-NEXT: vpbroadcastq %xmm1, %xmm1
	; AVX512VL-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512VL-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; AVX512VL-NEXT: vpsllvq %xmm1, %xmm0, %xmm0			; AVX512VL-NEXT: vpsllvq %xmm1, %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatvar_shift_v2i32:			; X32-SSE-LABEL: splatvar_shift_v2i32:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,1,0,1]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,0,4294967295,0]
	; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm2			; X32-SSE-NEXT: pand %xmm1, %xmm2
	; X32-SSE-NEXT: xorps %xmm3, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: movss {{.*#+}} xmm3 = xmm1[0],xmm3[1,2,3]			; X32-SSE-NEXT: psllq %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: pxor %xmm2, %xmm2
	; X32-SSE-NEXT: psllq %xmm3, %xmm1			; X32-SSE-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: movapd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i32> %b, <2 x i32> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i32> %b, <2 x i32> undef, <2 x i32> zeroinitializer
	%shift = shl <2 x i32> %a, %splat			%shift = shl <2 x i32> %a, %splat
	ret <2 x i32> %shift			ret <2 x i32> %shift
	}			}

	define <4 x i16> @splatvar_shift_v4i16(<4 x i16> %a, <4 x i16> %b) nounwind {			define <4 x i16> @splatvar_shift_v4i16(<4 x i16> %a, <4 x i16> %b) nounwind {
	; SSE2-LABEL: splatvar_shift_v4i16:			; SSE2-LABEL: splatvar_shift_v4i16:
	▲ Show 20 Lines • Show All 1,058 Lines • Show Last 20 Lines