Diff 17026

lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 717 Lines • ▼ Show 20 Lines
let Predicates = [UseSSE1] in {		let Predicates = [UseSSE1] in {
let Predicates = [NoSSE41], AddedComplexity = 15 in {		let Predicates = [NoSSE41], AddedComplexity = 15 in {
// Move scalar to XMM zero-extended, zeroing a VR128 then do a		// Move scalar to XMM zero-extended, zeroing a VR128 then do a
// MOVSS to the lower bits.		// MOVSS to the lower bits.
def : Pat<(v4f32 (X86vzmovl (v4f32 (scalar_to_vector FR32:$src)))),		def : Pat<(v4f32 (X86vzmovl (v4f32 (scalar_to_vector FR32:$src)))),
(MOVSSrr (v4f32 (V_SET0)), FR32:$src)>;		(MOVSSrr (v4f32 (V_SET0)), FR32:$src)>;
def : Pat<(v4f32 (X86vzmovl (v4f32 VR128:$src))),		def : Pat<(v4f32 (X86vzmovl (v4f32 VR128:$src))),
(MOVSSrr (v4f32 (V_SET0)), (COPY_TO_REGCLASS VR128:$src, FR32))>;		(MOVSSrr (v4f32 (V_SET0)), (COPY_TO_REGCLASS VR128:$src, FR32))>;
def : Pat<(v4i32 (X86vzmovl (v4i32 VR128:$src))),
(MOVSSrr (v4i32 (V_SET0)), (COPY_TO_REGCLASS VR128:$src, FR32))>;
}		}

let AddedComplexity = 20 in {		let AddedComplexity = 20 in {
// MOVSSrm already zeros the high parts of the register.		// MOVSSrm already zeros the high parts of the register.
def : Pat<(v4f32 (X86vzmovl (v4f32 (scalar_to_vector (loadf32 addr:$src))))),		def : Pat<(v4f32 (X86vzmovl (v4f32 (scalar_to_vector (loadf32 addr:$src))))),
(COPY_TO_REGCLASS (MOVSSrm addr:$src), VR128)>;		(COPY_TO_REGCLASS (MOVSSrm addr:$src), VR128)>;
def : Pat<(v4f32 (scalar_to_vector (loadf32 addr:$src))),		def : Pat<(v4f32 (scalar_to_vector (loadf32 addr:$src))),
(COPY_TO_REGCLASS (MOVSSrm addr:$src), VR128)>;		(COPY_TO_REGCLASS (MOVSSrm addr:$src), VR128)>;
▲ Show 20 Lines • Show All 4,596 Lines • ▼ Show 20 Lines	def MOVZPQILo2PQIrm : I<0x7E, MRMSrcMem, (outs VR128:$dst), (ins i128mem:$src),
"movq\t{$src, $dst\|$dst, $src}",		"movq\t{$src, $dst\|$dst, $src}",
[(set VR128:$dst, (v2i64 (X86vzmovl		[(set VR128:$dst, (v2i64 (X86vzmovl
(loadv2i64 addr:$src))))],		(loadv2i64 addr:$src))))],
IIC_SSE_MOVDQ>,		IIC_SSE_MOVDQ>,
XS, Requires<[UseSSE2]>;		XS, Requires<[UseSSE2]>;
}		}
} // isCodeGenOnly, SchedRW		} // isCodeGenOnly, SchedRW

		let Predicates = [UseSSE2] in {
		let Predicates = [NoSSE41], AddedComplexity = 15 in
		def : Pat<(v4i32 (X86vzmovl (v4i32 VR128:$src))),
		(PSHUFDri (MOVZPQILo2PQIrr $src), 0xA8)>;
		}

let AddedComplexity = 20 in {		let AddedComplexity = 20 in {
let Predicates = [UseAVX] in {		let Predicates = [UseAVX] in {
def : Pat<(v2f64 (X86vzmovl (v2f64 VR128:$src))),		def : Pat<(v2f64 (X86vzmovl (v2f64 VR128:$src))),
(VMOVZPQILo2PQIrr VR128:$src)>;		(VMOVZPQILo2PQIrr VR128:$src)>;
}		}
let Predicates = [UseSSE2] in {		let Predicates = [UseSSE2] in {
def : Pat<(v2f64 (X86vzmovl (v2f64 VR128:$src))),		def : Pat<(v2f64 (X86vzmovl (v2f64 VR128:$src))),
(MOVZPQILo2PQIrr VR128:$src)>;		(MOVZPQILo2PQIrr VR128:$src)>;
▲ Show 20 Lines • Show All 3,715 Lines • Show Last 20 Lines

test/CodeGen/X86/lower-vec-shift-2.ll

Show All 19 Lines	entry:
%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer		%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer
%shl = shl <8 x i16> %A, %vecinit14		%shl = shl <8 x i16> %A, %vecinit14
ret <8 x i16> %shl		ret <8 x i16> %shl
}		}

define <4 x i32> @test2(<4 x i32> %A, <4 x i32> %B) {		define <4 x i32> @test2(<4 x i32> %A, <4 x i32> %B) {
; SSE2-LABEL: test2:		; SSE2-LABEL: test2:
; SSE2: # BB#0		; SSE2: # BB#0
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: movq %xmm1, %xmm1
; SSE2-NEXT: movss %xmm1, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,2]
; SSE2-NEXT: pslld %xmm2, %xmm0		; SSE2-NEXT: pslld %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
; AVX-LABEL: test2:		; AVX-LABEL: test2:
; AVX: # BB#0		; AVX: # BB#0
; AVX-NEXT: vpxor %xmm2, %xmm2		; AVX-NEXT: vpxor %xmm2, %xmm2
; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]		; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]
; AVX-NEXT: vpslld %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpslld %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
entry:		entry:
Show All 36 Lines	entry:
%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer		%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer
%shr = lshr <8 x i16> %A, %vecinit14		%shr = lshr <8 x i16> %A, %vecinit14
ret <8 x i16> %shr		ret <8 x i16> %shr
}		}

define <4 x i32> @test5(<4 x i32> %A, <4 x i32> %B) {		define <4 x i32> @test5(<4 x i32> %A, <4 x i32> %B) {
; SSE2-LABEL: test5:		; SSE2-LABEL: test5:
; SSE2: # BB#0		; SSE2: # BB#0
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: movq %xmm1, %xmm1
; SSE2-NEXT: movss %xmm1, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,2]
; SSE2-NEXT: psrld %xmm2, %xmm0		; SSE2-NEXT: psrld %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
; AVX-LABEL: test5:		; AVX-LABEL: test5:
; AVX: # BB#0		; AVX: # BB#0
; AVX-NEXT: vpxor %xmm2, %xmm2		; AVX-NEXT: vpxor %xmm2, %xmm2
; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]		; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]
; AVX-NEXT: vpsrld %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpsrld %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
entry:		entry:
Show All 36 Lines	entry:
%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer		%vecinit14 = shufflevector <8 x i16> %B, <8 x i16> undef, <8 x i32> zeroinitializer
%shr = ashr <8 x i16> %A, %vecinit14		%shr = ashr <8 x i16> %A, %vecinit14
ret <8 x i16> %shr		ret <8 x i16> %shr
}		}

define <4 x i32> @test8(<4 x i32> %A, <4 x i32> %B) {		define <4 x i32> @test8(<4 x i32> %A, <4 x i32> %B) {
; SSE2-LABEL: test8:		; SSE2-LABEL: test8:
; SSE2: # BB#0		; SSE2: # BB#0
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: movq %xmm1, %xmm1
; SSE2-NEXT: movss %xmm1, %xmm2		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,2]
; SSE2-NEXT: psrad %xmm2, %xmm0		; SSE2-NEXT: psrad %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
; AVX-LABEL: test8:		; AVX-LABEL: test8:
; AVX: # BB#0		; AVX: # BB#0
; AVX-NEXT: vpxor %xmm2, %xmm2		; AVX-NEXT: vpxor %xmm2, %xmm2
; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]		; AVX-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3,4,5,6,7]
; AVX-NEXT: vpsrad %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpsrad %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
entry:		entry:
%vecinit6 = shufflevector <4 x i32> %B, <4 x i32> undef, <4 x i32> zeroinitializer		%vecinit6 = shufflevector <4 x i32> %B, <4 x i32> undef, <4 x i32> zeroinitializer
%shr = ashr <4 x i32> %A, %vecinit6		%shr = ashr <4 x i32> %A, %vecinit6
ret <4 x i32> %shr		ret <4 x i32> %shr
}		}

test/CodeGen/X86/uint_to_fp-2.ll

Show All 19 Lines	entry:
ret float %0		ret float %0
}		}

; PR10802		; PR10802
define float @test2(<4 x i32> %x) nounwind readnone ssp {		define float @test2(<4 x i32> %x) nounwind readnone ssp {
; CHECK-LABEL: test2:		; CHECK-LABEL: test2:
; CHECK: # BB#0: # %entry		; CHECK: # BB#0: # %entry
; CHECK-NEXT: pushl %eax		; CHECK-NEXT: pushl %eax
; CHECK-NEXT: xorps %xmm1, %xmm1		; CHECK-NEXT: movq %xmm0, %xmm0
; CHECK-NEXT: movss %xmm0, %xmm1		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
; CHECK-NEXT: movsd .LCPI1_0, %xmm0		; CHECK-NEXT: movsd .LCPI1_0, %xmm1
; CHECK-NEXT: orps %xmm0, %xmm1		; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: subsd %xmm0, %xmm1		; CHECK-NEXT: subsd %xmm1, %xmm0
; CHECK-NEXT: xorps %xmm0, %xmm0		; CHECK-NEXT: cvtsd2ss %xmm0, %xmm0
; CHECK-NEXT: cvtsd2ss %xmm1, %xmm0
; CHECK-NEXT: movss %xmm0, (%esp)		; CHECK-NEXT: movss %xmm0, (%esp)
; CHECK-NEXT: flds (%esp)		; CHECK-NEXT: flds (%esp)
; CHECK-NEXT: popl %eax		; CHECK-NEXT: popl %eax
; CHECK-NEXT: retl		; CHECK-NEXT: retl
entry:		entry:
%vecext = extractelement <4 x i32> %x, i32 0		%vecext = extractelement <4 x i32> %x, i32 0
%conv = uitofp i32 %vecext to float		%conv = uitofp i32 %vecext to float
ret float %conv		ret float %conv
}		}

test/CodeGen/X86/vector-shuffle-128-v4.ll

	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
				chandlercUnsubmitted Not Done Reply Inline Actions I think an even better pattern is: movq, pshufd 0,2,2,2? Also, do we correctly match to movd when the source is a foldable load? I can't remember if there is a test case for that, but its really important to not do a shuffle when just loading a single i32 from memory into an xmm register. chandlerc: I think an even better pattern is: movq, pshufd 0,2,2,2? Also, do we correctly match to movd…
				chandlercUnsubmitted Not Done Reply Inline Actions This highlights that our lowering for this is completely wrong. movq + pshufd is better even with SEE4.1, and movd + pshufd is better when we can fold the load.... chandlerc: This highlights that our lowering for this is completely wrong. movq + pshufd is better even…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Yup - that'd be a nicer pattern (single register!) - easy enough to change. There is an existing movd folded load pattern using VMOVDI2PDIrm - I haven't seen any tests for it but it does seem to work alright. RKSimon: Yup - that'd be a nicer pattern (single register!) - easy enough to change. There is an…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions I am seeing lowerVectorShuffleAsElementInsertion interfere with a number of better shuffles candidates for these kind of patterns. I'm also finding that we don't do a good job of tracking elements that are known to be zero - X86ISelLowering has computeZeroableShuffleElements but I'm starting to think about providing a better implementation inside the DAGCombiner instead. It'd need to know the difference between known zeros and zeroable, peek inside more ops etc. - but it could help a lot and there is no reason for this to be target specific. RKSimon: I am seeing lowerVectorShuffleAsElementInsertion interfere with a number of better shuffles…
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse3 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE3			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse3 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE3
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 -x86-experimental-vector-shuffle-lowering \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	▲ Show 20 Lines • Show All 646 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 6, i32 2, i32 3>			%shuffle = shufflevector <4 x float> zeroinitializer, <4 x float> %a, <4 x i32> <i32 0, i32 6, i32 2, i32 3>
	ret <4 x float> %shuffle			ret <4 x float> %shuffle
	}			}

	define <4 x i32> @shuffle_v4i32_4zzz(<4 x i32> %a) {			define <4 x i32> @shuffle_v4i32_4zzz(<4 x i32> %a) {
	; SSE2-LABEL: shuffle_v4i32_4zzz:			; SSE2-LABEL: shuffle_v4i32_4zzz:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: movq %xmm0, %xmm0
	; SSE2-NEXT: movss %xmm0, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: shuffle_v4i32_4zzz:			; SSE3-LABEL: shuffle_v4i32_4zzz:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: xorps %xmm1, %xmm1			; SSE3-NEXT: movq %xmm0, %xmm0
	; SSE3-NEXT: movss %xmm0, %xmm1			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE3-NEXT: movaps %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v4i32_4zzz:			; SSSE3-LABEL: shuffle_v4i32_4zzz:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: xorps %xmm1, %xmm1			; SSSE3-NEXT: movq %xmm0, %xmm0
	; SSSE3-NEXT: movss %xmm0, %xmm1			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSSE3-NEXT: movaps %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v4i32_4zzz:			; SSE41-LABEL: shuffle_v4i32_4zzz:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v4i32_4zzz:			; AVX-LABEL: shuffle_v4i32_4zzz:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 4, i32 1, i32 2, i32 3>			%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	}			}

	define <4 x i32> @shuffle_v4i32_z4zz(<4 x i32> %a) {			define <4 x i32> @shuffle_v4i32_z4zz(<4 x i32> %a) {
	; SSE2-LABEL: shuffle_v4i32_z4zz:			; SSE2-LABEL: shuffle_v4i32_z4zz:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: movq %xmm0, %xmm0
	; SSE2-NEXT: movss %xmm0, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,0,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: shuffle_v4i32_z4zz:			; SSE3-LABEL: shuffle_v4i32_z4zz:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: xorps %xmm1, %xmm1			; SSE3-NEXT: movq %xmm0, %xmm0
	; SSE3-NEXT: movss %xmm0, %xmm1			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,0,1,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v4i32_z4zz:			; SSSE3-LABEL: shuffle_v4i32_z4zz:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: xorps %xmm1, %xmm1			; SSSE3-NEXT: movq %xmm0, %xmm0
	; SSSE3-NEXT: movss %xmm0, %xmm1			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,0,1,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq

	;			;
	; SSE41-LABEL: shuffle_v4i32_z4zz:			; SSE41-LABEL: shuffle_v4i32_z4zz:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,0,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,0,1,1]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: shuffle_v4i32_z4zz:			; AVX-LABEL: shuffle_v4i32_z4zz:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,0,1,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 2, i32 4, i32 3, i32 0>			%shuffle = shufflevector <4 x i32> zeroinitializer, <4 x i32> %a, <4 x i32> <i32 2, i32 4, i32 3, i32 0>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	}			}

	define <4 x i32> @shuffle_v4i32_zz4z(<4 x i32> %a) {			define <4 x i32> @shuffle_v4i32_zz4z(<4 x i32> %a) {
	; SSE2-LABEL: shuffle_v4i32_zz4z:			; SSE2-LABEL: shuffle_v4i32_zz4z:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: movq %xmm0, %xmm0
	; SSE2-NEXT: movss %xmm0, %xmm1			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: shuffle_v4i32_zz4z:			; SSE3-LABEL: shuffle_v4i32_zz4z:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: xorps %xmm1, %xmm1			; SSE3-NEXT: movq %xmm0, %xmm0
	; SSE3-NEXT: movss %xmm0, %xmm1			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,0,1]			; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: shuffle_v4i32_zz4z:			; SSSE3-LABEL: shuffle_v4i32_zz4z:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: xorps %xmm1, %xmm1			; SSSE3-NEXT: movq %xmm0, %xmm0
	; SSSE3-NEXT: movss %xmm0, %xmm1			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,2]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,0,1]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,0,1]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v4i32_zz4z:			; SSE41-LABEL: shuffle_v4i32_zz4z:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,0,1]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 613 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-zmov.ll

				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2
				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 \| FileCheck %s --check-prefix=SSE --check-prefix=SSSE3
				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE41
				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2

				define <4 x i32> @load_zmov_4i32_to_0zzz(<4 x i32> *%ptr) {
				; SSE-LABEL: load_zmov_4i32_to_0zzz:
				; SSE: # BB#0: # %entry
				; SSE-NEXT: movd (%rdi), %xmm0
				; SSE-NEXT: retq

				; AVX-LABEL: load_zmov_4i32_to_0zzz:
				; AVX: # BB#0: # %entry
				; AVX-NEXT: vmovd (%rdi), %xmm0
				; AVX-NEXT: retq
				entry:
				%X = load <4 x i32>* %ptr
				%Y = shufflevector <4 x i32> %X, <4 x i32> zeroinitializer, <4 x i32> <i32 0, i32 4, i32 4, i32 4>
				ret <4 x i32>%Y
				}

				define <2 x i64> @load_zmov_2i64_to_0z(<2 x i64> *%ptr) {
				; SSE-LABEL: load_zmov_2i64_to_0z:
				; SSE: # BB#0: # %entry
				; SSE-NEXT: movq (%rdi), %xmm0
				; SSE-NEXT: retq

				; AVX-LABEL: load_zmov_2i64_to_0z:
				; AVX: # BB#0: # %entry
				; AVX-NEXT: vmovq (%rdi), %xmm0
				; AVX-NEXT: retq
				entry:
				%X = load <2 x i64>* %ptr
				%Y = shufflevector <2 x i64> %X, <2 x i64> zeroinitializer, <2 x i32> <i32 0, i32 2>
				ret <2 x i64>%Y
				}

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Keep 4i32 vector insertions in integer domain on pre-SSE4.1 targets
AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 17026

lib/Target/X86/X86InstrSSE.td

test/CodeGen/X86/lower-vec-shift-2.ll

test/CodeGen/X86/uint_to_fp-2.ll

test/CodeGen/X86/vector-shuffle-128-v4.ll

test/CodeGen/X86/vector-zmov.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Keep 4i32 vector insertions in integer domain on pre-SSE4.1 targetsAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 17026

lib/Target/X86/X86InstrSSE.td

test/CodeGen/X86/lower-vec-shift-2.ll

test/CodeGen/X86/uint_to_fp-2.ll

test/CodeGen/X86/vector-shuffle-128-v4.ll

test/CodeGen/X86/vector-zmov.ll

[X86][SSE] Keep 4i32 vector insertions in integer domain on pre-SSE4.1 targets
AbandonedPublic