This is an archive of the discontinued LLVM Phabricator instance.

[x86] add movddup specialization for build vector lowering (PR37502)
ClosedPublic

Authored by spatel on Dec 19 2018, 12:51 PM.

Download Raw Diff

Details

Reviewers

craig.topper
andreadb
RKSimon

Commits

rG80187b8a17ed: [x86] add movddup specialization for build vector lowering (PR37502)
rL349937: [x86] add movddup specialization for build vector lowering (PR37502)

Summary

This is admittedly a narrow fix for the problem:
https://bugs.llvm.org/show_bug.cgi?id=37502
...but as the XOP restriction shows, it's a maze to get this right. In the motivating example, note that we have movddup before SSE4.1 and again with AVX2. That's because insertps isn't available pre-SSE41 and vbroadcast is (more generally) available with AVX2 (and the splat is reduced to movddup somehow).

Diff Detail

Event Timeline

spatel created this revision.Dec 19 2018, 12:51 PM

Herald added a subscriber: mcrosier. · View Herald TranscriptDec 19 2018, 12:51 PM

I tried to do something more general back on D31373/rL299387 "[X86][SSE]] Lower BUILD_VECTOR with repeated elts as BUILD_VECTOR + VECTOR_SHUFFLE" - but that caused infinite loops (PR32558) and had to be reverted at rL299720 - we should probably revisit that.

test/CodeGen/X86/build-vector-128.ll
530	Why didn't this fold the load?

spatel marked an inline comment as done.Dec 20 2018, 6:25 AM

spatel added inline comments.

test/CodeGen/X86/build-vector-128.ll
530	I think we're missing a tablegen pattern for this? t30: v2f64,ch = X86ISD::VZEXT_LOAD<(load 8 from %fixed-stack.1, align 4)> t0, FrameIndex:i32<-1> t28: v2f64 = X86ISD::MOVDDUP t30

I'm happy to accept this - getting the MOVDDUP fold fixed as a followup would be very useful. Hopefully if D31373 can be resurrected we can replace this with the more general case.

This revision is now accepted and ready to land.Dec 20 2018, 9:01 AM

spatel mentioned this in D55936: [x86] add load fold patterns for movddup with vzext_load.Dec 20 2018, 9:17 AM

Proposal for load folding improvement is here:
D55936

Also, I reviewed the diffs from:
https://bugs.llvm.org/show_bug.cgi?id=32558
...which was a perf reason for reverting the earlier and more general fix. This patch won't hit that same problem because we are checking that the 2 operands are different (if all 4 operands are the same, then we should defer that to more general splat lowering). AFAICT, the code for that benchmark is going to improve via this fix + the load folding...at least it looks better on paper, no telling what will happen in practice. :)

Closed by commit rL349937: [x86] add movddup specialization for build vector lowering (PR37502) (authored by spatel). · Explain WhyDec 21 2018, 10:52 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in rL350005: [x86] add load fold patterns for movddup with vzext_load.Dec 22 2018, 9:02 AM

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

20 lines

test/

CodeGen/

X86/

avx-intrinsics-fast-isel.ll

9 lines

avx-vbroadcast.ll

52 lines

build-vector-128.ll

32 lines

sse2-intrinsics-fast-isel.ll

11 lines

Diff 178945

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,942 Lines • ▼ Show 20 Lines	static SDValue LowerBuildVectorv8i16(SDValue Op, unsigned NonZeros,
// Use PINSRW to insert each byte directly.		// Use PINSRW to insert each byte directly.
return LowerBuildVectorAsInsert(Op, NonZeros, NumNonZero, NumZero, DAG,		return LowerBuildVectorAsInsert(Op, NonZeros, NumNonZero, NumZero, DAG,
Subtarget);		Subtarget);
}		}

/// Custom lower build_vector of v4i32 or v4f32.		/// Custom lower build_vector of v4i32 or v4f32.
static SDValue LowerBuildVectorv4x32(SDValue Op, SelectionDAG &DAG,		static SDValue LowerBuildVectorv4x32(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
		// If this is a splat of a pair of elements, use MOVDDUP (unless the target
		// has XOP; in that case defer lowering to potentially use VPERMIL2PS).
		// Because we're creating a less complicated build vector here, we may enable
		// further folding of the MOVDDUP via shuffle transforms.
		if (Subtarget.hasSSE3() && !Subtarget.hasXOP() &&
		Op.getOperand(0) == Op.getOperand(2) &&
		Op.getOperand(1) == Op.getOperand(3) &&
		Op.getOperand(0) != Op.getOperand(1)) {
		SDLoc DL(Op);
		MVT VT = Op.getSimpleValueType();
		MVT EltVT = VT.getVectorElementType();
		// Create a new build vector with the first 2 elements followed by undef
		// padding, bitcast to v2f64, duplicate, and bitcast back.
		SDValue Ops[4] = { Op.getOperand(0), Op.getOperand(1),
		DAG.getUNDEF(EltVT), DAG.getUNDEF(EltVT) };
		SDValue NewBV = DAG.getBitcast(MVT::v2f64, DAG.getBuildVector(VT, DL, Ops));
		SDValue Dup = DAG.getNode(X86ISD::MOVDDUP, DL, MVT::v2f64, NewBV);
		return DAG.getBitcast(VT, Dup);
		}

// Find all zeroable elements.		// Find all zeroable elements.
std::bitset<4> Zeroable;		std::bitset<4> Zeroable;
for (int i=0; i < 4; ++i) {		for (int i=0; i < 4; ++i) {
SDValue Elt = Op->getOperand(i);		SDValue Elt = Op->getOperand(i);
Zeroable[i] = (Elt.isUndef() \|\| X86::isZeroNode(Elt));		Zeroable[i] = (Elt.isUndef() \|\| X86::isZeroNode(Elt));
}		}
assert(Zeroable.size() - Zeroable.count() > 1 &&		assert(Zeroable.size() - Zeroable.count() > 1 &&
"We expect at least two non-zero elements!");		"We expect at least two non-zero elements!");
▲ Show 20 Lines • Show All 35,552 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-intrinsics-fast-isel.ll

Show First 20 Lines • Show All 1,950 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%res7 = insertelement <8 x i32> %res6, i32 %a0, i32 7		%res7 = insertelement <8 x i32> %res6, i32 %a0, i32 7
%res = bitcast <8 x i32> %res7 to <4 x i64>		%res = bitcast <8 x i32> %res7 to <4 x i64>
ret <4 x i64> %res		ret <4 x i64> %res
}		}

define <4 x i64> @test_mm256_set1_epi64x(i64 %a0) nounwind {		define <4 x i64> @test_mm256_set1_epi64x(i64 %a0) nounwind {
; X86-LABEL: test_mm256_set1_epi64x:		; X86-LABEL: test_mm256_set1_epi64x:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0
; X86-NEXT: vmovd %ecx, %xmm0		; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; X86-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
; X86-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0
; X86-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
; X86-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; X86-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_mm256_set1_epi64x:		; X64-LABEL: test_mm256_set1_epi64x:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vmovq %rdi, %xmm0		; X64-NEXT: vmovq %rdi, %xmm0
; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]		; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
▲ Show 20 Lines • Show All 1,134 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-vbroadcast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefix=X64

	define <4 x i64> @A(i64* %ptr) nounwind uwtable readnone ssp {			define <4 x i64> @A(i64* %ptr) nounwind uwtable readnone ssp {
	; X32-LABEL: A:			; X32-LABEL: A:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl (%eax), %ecx			; X32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X32-NEXT: movl 4(%eax), %eax			; X32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: vmovd %ecx, %xmm0
	; X32-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; X32-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0
	; X32-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
	; X32-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X32-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: A:			; X64-LABEL: A:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: vbroadcastsd (%rdi), %ymm0			; X64-NEXT: vbroadcastsd (%rdi), %ymm0
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%q = load i64, i64* %ptr, align 8			%q = load i64, i64* %ptr, align 8
	%vecinit.i = insertelement <4 x i64> undef, i64 %q, i32 0			%vecinit.i = insertelement <4 x i64> undef, i64 %q, i32 0
	%vecinit2.i = insertelement <4 x i64> %vecinit.i, i64 %q, i32 1			%vecinit2.i = insertelement <4 x i64> %vecinit.i, i64 %q, i32 1
	%vecinit4.i = insertelement <4 x i64> %vecinit2.i, i64 %q, i32 2			%vecinit4.i = insertelement <4 x i64> %vecinit2.i, i64 %q, i32 2
	%vecinit6.i = insertelement <4 x i64> %vecinit4.i, i64 %q, i32 3			%vecinit6.i = insertelement <4 x i64> %vecinit4.i, i64 %q, i32 3
	ret <4 x i64> %vecinit6.i			ret <4 x i64> %vecinit6.i
	}			}

	define <4 x i64> @A2(i64* %ptr, i64* %ptr2) nounwind uwtable readnone ssp {			define <4 x i64> @A2(i64* %ptr, i64* %ptr2) nounwind uwtable readnone ssp {
	; X32-LABEL: A2:			; X32-LABEL: A2:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
				; X32-NEXT: pushl %esi
				; X32-NEXT: .cfi_def_cfa_offset 8
				; X32-NEXT: .cfi_offset %esi, -8
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl (%ecx), %edx			; X32-NEXT: movl (%ecx), %edx
	; X32-NEXT: movl 4(%ecx), %ecx			; X32-NEXT: movl 4(%ecx), %esi
	; X32-NEXT: movl %ecx, 4(%eax)			; X32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X32-NEXT: movl %edx, (%eax)			; X32-NEXT: movl %edx, (%eax)
	; X32-NEXT: vmovd %edx, %xmm0			; X32-NEXT: movl %esi, 4(%eax)
	; X32-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0			; X32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: vpinsrd $2, %edx, %xmm0, %xmm0
	; X32-NEXT: vpinsrd $3, %ecx, %xmm0, %xmm0
	; X32-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X32-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
				; X32-NEXT: popl %esi
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: A2:			; X64-LABEL: A2:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: movq (%rdi), %rax			; X64-NEXT: movq (%rdi), %rax
	; X64-NEXT: vmovq %rax, %xmm0			; X64-NEXT: vmovq %rax, %xmm0
	; X64-NEXT: movq %rax, (%rsi)			; X64-NEXT: movq %rax, (%rsi)
	; X64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; X64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	▲ Show 20 Lines • Show All 534 Lines • ▼ Show 20 Lines
	}			}

	; Unsupported vbroadcasts			; Unsupported vbroadcasts

	define <2 x i64> @G(i64* %ptr) nounwind uwtable readnone ssp {			define <2 x i64> @G(i64* %ptr) nounwind uwtable readnone ssp {
	; X32-LABEL: G:			; X32-LABEL: G:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl (%eax), %ecx			; X32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X32-NEXT: movl 4(%eax), %eax			; X32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: vmovd %ecx, %xmm0
	; X32-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0
	; X32-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0
	; X32-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: G:			; X64-LABEL: G:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%q = load i64, i64* %ptr, align 8			%q = load i64, i64* %ptr, align 8
	%vecinit.i = insertelement <2 x i64> undef, i64 %q, i32 0			%vecinit.i = insertelement <2 x i64> undef, i64 %q, i32 0
	%vecinit2.i = insertelement <2 x i64> %vecinit.i, i64 %q, i32 1			%vecinit2.i = insertelement <2 x i64> %vecinit.i, i64 %q, i32 1
	ret <2 x i64> %vecinit2.i			ret <2 x i64> %vecinit2.i
	}			}

	define <2 x i64> @G2(i64* %ptr, i64* %ptr2) nounwind uwtable readnone ssp {			define <2 x i64> @G2(i64* %ptr, i64* %ptr2) nounwind uwtable readnone ssp {
	; X32-LABEL: G2:			; X32-LABEL: G2:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
				; X32-NEXT: pushl %esi
				; X32-NEXT: .cfi_def_cfa_offset 8
				; X32-NEXT: .cfi_offset %esi, -8
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movl (%ecx), %edx			; X32-NEXT: movl (%ecx), %edx
	; X32-NEXT: movl 4(%ecx), %ecx			; X32-NEXT: movl 4(%ecx), %esi
	; X32-NEXT: movl %ecx, 4(%eax)			; X32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X32-NEXT: movl %edx, (%eax)			; X32-NEXT: movl %edx, (%eax)
	; X32-NEXT: vmovd %edx, %xmm0			; X32-NEXT: movl %esi, 4(%eax)
	; X32-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0			; X32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: vpinsrd $2, %edx, %xmm0, %xmm0			; X32-NEXT: popl %esi
	; X32-NEXT: vpinsrd $3, %ecx, %xmm0, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: G2:			; X64-LABEL: G2:
	; X64: ## %bb.0: ## %entry			; X64: ## %bb.0: ## %entry
	; X64-NEXT: movq (%rdi), %rax			; X64-NEXT: movq (%rdi), %rax
	; X64-NEXT: movq %rax, (%rsi)			; X64-NEXT: movq %rax, (%rsi)
	; X64-NEXT: vmovq %rax, %xmm0			; X64-NEXT: vmovq %rax, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	▲ Show 20 Lines • Show All 238 Lines • ▼ Show 20 Lines
	; X32-LABEL: broadcast_lifetime:			; X32-LABEL: broadcast_lifetime:
	; X32: ## %bb.0:			; X32: ## %bb.0:
	; X32-NEXT: pushl %esi			; X32-NEXT: pushl %esi
	; X32-NEXT: subl $40, %esp			; X32-NEXT: subl $40, %esp
	; X32-NEXT: leal {{[0-9]+}}(%esp), %esi			; X32-NEXT: leal {{[0-9]+}}(%esp), %esi
	; X32-NEXT: movl %esi, (%esp)			; X32-NEXT: movl %esi, (%esp)
	; X32-NEXT: calll _gfunc			; X32-NEXT: calll _gfunc
	; X32-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp) ## 4-byte Spill			; X32-NEXT: vmovss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
	; X32-NEXT: movl %esi, (%esp)			; X32-NEXT: movl %esi, (%esp)
	; X32-NEXT: calll _gfunc			; X32-NEXT: calll _gfunc
	; X32-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: vsubss {{[0-9]+}}(%esp), %xmm0, %xmm0 ## 4-byte Folded Reload			; X32-NEXT: vsubss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 4-byte Folded Reload
	; X32-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp)			; X32-NEXT: vmovss %xmm0, {{[0-9]+}}(%esp)
	; X32-NEXT: flds {{[0-9]+}}(%esp)			; X32-NEXT: flds {{[0-9]+}}(%esp)
	; X32-NEXT: addl $40, %esp			; X32-NEXT: addl $40, %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: broadcast_lifetime:			; X64-LABEL: broadcast_lifetime:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: subq $40, %rsp			; X64-NEXT: subq $40, %rsp
	; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi			; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi
	; X64-NEXT: callq _gfunc			; X64-NEXT: callq _gfunc
	; X64-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: vmovss %xmm0, {{[0-9]+}}(%rsp) ## 4-byte Spill			; X64-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Spill
	; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi			; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi
	; X64-NEXT: callq _gfunc			; X64-NEXT: callq _gfunc
	; X64-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X64-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: vsubss {{[0-9]+}}(%rsp), %xmm0, %xmm0 ## 4-byte Folded Reload			; X64-NEXT: vsubss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 ## 4-byte Folded Reload
	; X64-NEXT: addq $40, %rsp			; X64-NEXT: addq $40, %rsp
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = alloca <4 x float>, align 16			%1 = alloca <4 x float>, align 16
	%2 = alloca <4 x float>, align 16			%2 = alloca <4 x float>, align 16
	%3 = bitcast <4 x float>* %1 to i8*			%3 = bitcast <4 x float>* %1 to i8*
	%4 = bitcast <4 x float>* %2 to i8*			%4 = bitcast <4 x float>* %2 to i8*

	call void @llvm.lifetime.start.p0i8(i64 16, i8* %3)			call void @llvm.lifetime.start.p0i8(i64 16, i8* %3)
	Show All 18 Lines

test/CodeGen/X86/build-vector-128.ll

	Show First 20 Lines • Show All 521 Lines • ▼ Show 20 Lines
	; SSE2-64: # %bb.0:			; SSE2-64: # %bb.0:
	; SSE2-64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-64-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]			; SSE2-64-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]
	; SSE2-64-NEXT: retq			; SSE2-64-NEXT: retq
	;			;
	; SSE41-32-LABEL: PR37502:			; SSE41-32-LABEL: PR37502:
	; SSE41-32: # %bb.0:			; SSE41-32: # %bb.0:
	; SSE41-32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE41-32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE41-32-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]			; SSE41-32-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
				RKSimonUnsubmitted Not Done Reply Inline Actions Why didn't this fold the load? RKSimon: Why didn't this fold the load?
				spatelAuthorUnsubmitted Done Reply Inline Actions I think we're missing a tablegen pattern for this? t30: v2f64,ch = X86ISD::VZEXT_LOAD<(load 8 from %fixed-stack.1, align 4)> t0, FrameIndex:i32<-1> t28: v2f64 = X86ISD::MOVDDUP t30 spatel: I think we're missing a tablegen pattern for this? t30: v2f64,ch = X86ISD::VZEXT_LOAD<…
	; SSE41-32-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
	; SSE41-32-NEXT: retl			; SSE41-32-NEXT: retl
	;			;
	; SSE41-64-LABEL: PR37502:			; SSE41-64-LABEL: PR37502:
	; SSE41-64: # %bb.0:			; SSE41-64: # %bb.0:
	; SSE41-64-NEXT: movaps %xmm0, %xmm2			; SSE41-64-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; SSE41-64-NEXT: insertps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[2,3]			; SSE41-64-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
	; SSE41-64-NEXT: insertps {{.*#+}} xmm2 = xmm2[0,1],xmm0[0],xmm2[3]
	; SSE41-64-NEXT: insertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm1[0]
	; SSE41-64-NEXT: movaps %xmm2, %xmm0
	; SSE41-64-NEXT: retq			; SSE41-64-NEXT: retq
	;			;
	; AVX1-32-LABEL: PR37502:			; AVX-32-LABEL: PR37502:
	; AVX1-32: # %bb.0:			; AVX-32: # %bb.0:
	; AVX1-32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; AVX-32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX1-32-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]			; AVX-32-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-32-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]			; AVX-32-NEXT: retl
	; AVX1-32-NEXT: retl
	;			;
	; AVX1-64-LABEL: PR37502:			; AVX1-64-LABEL: PR37502:
	; AVX1-64: # %bb.0:			; AVX1-64: # %bb.0:
	; AVX1-64-NEXT: vinsertps {{.*#+}} xmm2 = xmm0[0],xmm1[0],xmm0[2,3]			; AVX1-64-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[2,3]
	; AVX1-64-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1],xmm0[0],xmm2[3]			; AVX1-64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-64-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX1-64-NEXT: retq			; AVX1-64-NEXT: retq
	;			;
	; AVX2-32-LABEL: PR37502:
	; AVX2-32: # %bb.0:
	; AVX2-32-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; AVX2-32-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX2-32-NEXT: retl
	;
	; AVX2-64-LABEL: PR37502:			; AVX2-64-LABEL: PR37502:
	; AVX2-64: # %bb.0:			; AVX2-64: # %bb.0:
	; AVX2-64-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX2-64-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]			; AVX2-64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX2-64-NEXT: retq			; AVX2-64-NEXT: retq
	%i0 = insertelement <4 x float> undef, float %x, i32 0			%i0 = insertelement <4 x float> undef, float %x, i32 0
	%i1 = insertelement <4 x float> %i0, float %y, i32 1			%i1 = insertelement <4 x float> %i0, float %y, i32 1
	%i2 = insertelement <4 x float> %i1, float %x, i32 2			%i2 = insertelement <4 x float> %i1, float %x, i32 2
	%i3 = insertelement <4 x float> %i2, float %y, i32 3			%i3 = insertelement <4 x float> %i2, float %y, i32 3
	ret <4 x float> %i3			ret <4 x float> %i3
	}			}

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,973 Lines • ▼ Show 20 Lines
	; X86-SSE-NEXT: punpckldq %xmm1, %xmm0 # encoding: [0x66,0x0f,0x62,0xc1]			; X86-SSE-NEXT: punpckldq %xmm1, %xmm0 # encoding: [0x66,0x0f,0x62,0xc1]
	; X86-SSE-NEXT: # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X86-SSE-NEXT: # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X86-SSE-NEXT: pshufd $68, %xmm0, %xmm0 # encoding: [0x66,0x0f,0x70,0xc0,0x44]			; X86-SSE-NEXT: pshufd $68, %xmm0, %xmm0 # encoding: [0x66,0x0f,0x70,0xc0,0x44]
	; X86-SSE-NEXT: # xmm0 = xmm0[0,1,0,1]			; X86-SSE-NEXT: # xmm0 = xmm0[0,1,0,1]
	; X86-SSE-NEXT: retl # encoding: [0xc3]			; X86-SSE-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX1-LABEL: test_mm_set1_epi64x:			; X86-AVX1-LABEL: test_mm_set1_epi64x:
	; X86-AVX1: # %bb.0:			; X86-AVX1: # %bb.0:
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]			; X86-AVX1-NEXT: vmovd {{[0-9]+}}(%esp), %xmm0 # encoding: [0xc5,0xf9,0x6e,0x44,0x24,0x04]
	; X86-AVX1-NEXT: movl {{[0-9]+}}(%esp), %ecx # encoding: [0x8b,0x4c,0x24,0x04]			; X86-AVX1-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X86-AVX1-NEXT: vmovd %ecx, %xmm0 # encoding: [0xc5,0xf9,0x6e,0xc1]			; X86-AVX1-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x22,0x44,0x24,0x08,0x01]
	; X86-AVX1-NEXT: vpinsrd $1, %eax, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x22,0xc0,0x01]			; X86-AVX1-NEXT: vpshufd $68, %xmm0, %xmm0 # encoding: [0xc5,0xf9,0x70,0xc0,0x44]
	; X86-AVX1-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x22,0xc1,0x02]			; X86-AVX1-NEXT: # xmm0 = xmm0[0,1,0,1]
	; X86-AVX1-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0x79,0x22,0xc0,0x03]
	; X86-AVX1-NEXT: retl # encoding: [0xc3]			; X86-AVX1-NEXT: retl # encoding: [0xc3]
	;			;
	; X86-AVX512-LABEL: test_mm_set1_epi64x:			; X86-AVX512-LABEL: test_mm_set1_epi64x:
	; X86-AVX512: # %bb.0:			; X86-AVX512: # %bb.0:
	; X86-AVX512-NEXT: vmovd {{[0-9]+}}(%esp), %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0x44,0x24,0x04]			; X86-AVX512-NEXT: vmovd {{[0-9]+}}(%esp), %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0x44,0x24,0x04]
	; X86-AVX512-NEXT: # xmm0 = mem[0],zero,zero,zero			; X86-AVX512-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X86-AVX512-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x22,0x44,0x24,0x08,0x01]			; X86-AVX512-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x22,0x44,0x24,0x08,0x01]
	; X86-AVX512-NEXT: vpbroadcastq %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x59,0xc0]			; X86-AVX512-NEXT: vpbroadcastq %xmm0, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x59,0xc0]
	▲ Show 20 Lines • Show All 2,719 Lines • Show Last 20 Lines