This is an archive of the discontinued LLVM Phabricator instance.

[x86] allow peeking through an extract_subvector to find a splatted operand
ClosedPublic

Authored by spatel on Feb 20 2020, 9:15 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
lebedev.ri

Commits

rG064cd2ecdb3d: [x86] allow peeking through an extract_subvector to find a splatted operand

Summary

The motivating case is seen in "splat4_v8f32_load_store" and based on code in PR42024:
https://bugs.llvm.org/show_bug.cgi?id=42024
(I haven't stepped through the v8i32 sibling test yet to see why that diverged.)

There are other potential improvements visible like allowing scalarization or vector narrowing. My reading of AVX512 is still weak, so please have a close look at those diffs to make sure that's good.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

spatel created this revision.Feb 20 2020, 9:15 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 20 2020, 9:15 AM

Herald added subscribers: arphaman, hiraditya, mcrosier. · View Herald Transcript

LGTM - as a future tidyup we may want to investigate merging the subvector tracking code with the "findEltLoadSrc" code used by EltsFromConsecutiveLoads (please can you add a TODO for now?)

This revision is now accepted and ready to land.Feb 20 2020, 9:34 AM

Closed by commit rG064cd2ecdb3d: [x86] allow peeking through an extract_subvector to find a splatted operand (authored by spatel). · Explain WhyFeb 20 2020, 11:06 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

15 lines

test/

CodeGen/

X86/

avx-intrinsics-fast-isel.ll

2 lines

avx-splat.ll

2 lines

avx512-shuffles/

partial_permute.ll

28 lines

bitcast-int-to-vector-bool-sext.ll

10 lines

bitcast-int-to-vector-bool-zext.ll

10 lines

extractelement-load.ll

6 lines

fma.ll

40 lines

insertelement-var-index.ll

2 lines

masked_gather.ll

97 lines

pr34653.ll

123 lines

vector-shuffle-512-v32.ll

3 lines

x86-interleaved-access.ll

69 lines

Diff 245694

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,861 Lines • ▼ Show 20 Lines	static SDValue lowerShuffleAsBroadcast(const SDLoc &DL, MVT VT, SDValue V1,
if (BroadcastIdx < 0)		if (BroadcastIdx < 0)
return SDValue();		return SDValue();
assert(BroadcastIdx < (int)Mask.size() && "We only expect to be called with "		assert(BroadcastIdx < (int)Mask.size() && "We only expect to be called with "
"a sorted mask where the broadcast "		"a sorted mask where the broadcast "
"comes from V1.");		"comes from V1.");

// Go up the chain of (vector) values to find a scalar load that we can		// Go up the chain of (vector) values to find a scalar load that we can
// combine with the broadcast.		// combine with the broadcast.
		// TODO: Combine this logic with findEltLoadSrc() used by
		// EltsFromConsecutiveLoads().
int BitOffset = BroadcastIdx * NumEltBits;		int BitOffset = BroadcastIdx * NumEltBits;
SDValue V = V1;		SDValue V = V1;
for (;;) {		for (;;) {
switch (V.getOpcode()) {		switch (V.getOpcode()) {
case ISD::BITCAST: {		case ISD::BITCAST: {
V = V.getOperand(0);		V = V.getOperand(0);
continue;		continue;
}		}
case ISD::CONCAT_VECTORS: {		case ISD::CONCAT_VECTORS: {
int OpBitWidth = V.getOperand(0).getValueSizeInBits();		int OpBitWidth = V.getOperand(0).getValueSizeInBits();
int OpIdx = BitOffset / OpBitWidth;		int OpIdx = BitOffset / OpBitWidth;
V = V.getOperand(OpIdx);		V = V.getOperand(OpIdx);
BitOffset %= OpBitWidth;		BitOffset %= OpBitWidth;
continue;		continue;
}		}
		case ISD::EXTRACT_SUBVECTOR: {
		auto *ConstantIdx = dyn_cast<ConstantSDNode>(V.getOperand(1));
		if (!ConstantIdx)
		break;

		// The extraction index adds to the existing offset.
		unsigned EltBitWidth = V.getScalarValueSizeInBits();
		unsigned Idx = ConstantIdx->getZExtValue();
		unsigned BeginOffset = Idx * EltBitWidth;
		BitOffset += BeginOffset;
		V = V.getOperand(0);
		continue;
		}
case ISD::INSERT_SUBVECTOR: {		case ISD::INSERT_SUBVECTOR: {
SDValue VOuter = V.getOperand(0), VInner = V.getOperand(1);		SDValue VOuter = V.getOperand(0), VInner = V.getOperand(1);
auto ConstantIdx = dyn_cast<ConstantSDNode>(V.getOperand(2));		auto ConstantIdx = dyn_cast<ConstantSDNode>(V.getOperand(2));
if (!ConstantIdx)		if (!ConstantIdx)
break;		break;

int EltBitWidth = VOuter.getScalarValueSizeInBits();		int EltBitWidth = VOuter.getScalarValueSizeInBits();
int Idx = (int)ConstantIdx->getZExtValue();		int Idx = (int)ConstantIdx->getZExtValue();
▲ Show 20 Lines • Show All 35,160 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 1,959 Lines • ▼ Show 20 Lines
	; X86-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0			; X86-NEXT: vpinsrd $1, {{[0-9]+}}(%esp), %xmm0, %xmm0
	; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X86-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X86-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X86-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm256_set1_epi64x:			; X64-LABEL: test_mm256_set1_epi64x:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vmovq %rdi, %xmm0			; X64-NEXT: vmovq %rdi, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%res0 = insertelement <4 x i64> undef, i64 %a0, i32 0			%res0 = insertelement <4 x i64> undef, i64 %a0, i32 0
	%res1 = insertelement <4 x i64> %res0, i64 %a0, i32 1			%res1 = insertelement <4 x i64> %res0, i64 %a0, i32 1
	%res2 = insertelement <4 x i64> %res1, i64 %a0, i32 2			%res2 = insertelement <4 x i64> %res1, i64 %a0, i32 2
	%res3 = insertelement <4 x i64> %res2, i64 %a0, i32 3			%res3 = insertelement <4 x i64> %res2, i64 %a0, i32 3
	ret <4 x i64> %res3			ret <4 x i64> %res3
	}			}
	▲ Show 20 Lines • Show All 1,127 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx-splat.ll

	Show All 28 Lines
	; X86-LABEL: funcC:			; X86-LABEL: funcC:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: vbroadcastsd {{[0-9]+}}(%esp), %ymm0			; X86-NEXT: vbroadcastsd {{[0-9]+}}(%esp), %ymm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: funcC:			; X64-LABEL: funcC:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vmovq %rdi, %xmm0			; X64-NEXT: vmovq %rdi, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X64-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X64-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%vecinit.i = insertelement <4 x i64> undef, i64 %q, i32 0			%vecinit.i = insertelement <4 x i64> undef, i64 %q, i32 0
	%vecinit2.i = insertelement <4 x i64> %vecinit.i, i64 %q, i32 1			%vecinit2.i = insertelement <4 x i64> %vecinit.i, i64 %q, i32 1
	%vecinit4.i = insertelement <4 x i64> %vecinit2.i, i64 %q, i32 2			%vecinit4.i = insertelement <4 x i64> %vecinit2.i, i64 %q, i32 2
	%vecinit6.i = insertelement <4 x i64> %vecinit4.i, i64 %q, i32 3			%vecinit6.i = insertelement <4 x i64> %vecinit4.i, i64 %q, i32 3
	ret <4 x i64> %vecinit6.i			ret <4 x i64> %vecinit6.i
	▲ Show 20 Lines • Show All 185 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

Show First 20 Lines • Show All 2,155 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 7, i32 6, i32 5, i32 3>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 7, i32 6, i32 5, i32 3>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer
ret <4 x i64> %res		ret <4 x i64> %res
}		}
define <4 x i64> @test_masked_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %vec2, <4 x i64> %mask) {		define <4 x i64> @test_masked_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %vec2, <4 x i64> %mask) {
; CHECK-LABEL: test_masked_8xi64_to_4xi64_perm_mask7:		; CHECK-LABEL: test_masked_8xi64_to_4xi64_perm_mask7:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm3		; CHECK-NEXT: vbroadcasti64x4 {{.*#+}} zmm3 = [2,0,3,4,2,0,3,4]
; CHECK-NEXT: vmovdqa {{.*#+}} ymm4 = [2,0,3,4]		; CHECK-NEXT: # zmm3 = mem[0,1,2,3,0,1,2,3]
; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm4		; CHECK-NEXT: vpermq %zmm0, %zmm3, %zmm0
; CHECK-NEXT: vptestnmq %ymm2, %ymm2, %k1		; CHECK-NEXT: vptestnmq %ymm2, %ymm2, %k1
; CHECK-NEXT: vpblendmq %ymm4, %ymm1, %ymm0 {%k1}		; CHECK-NEXT: vpblendmq %ymm0, %ymm1, %ymm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> %vec2		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> %vec2
ret <4 x i64> %res		ret <4 x i64> %res
}		}

define <4 x i64> @test_masked_z_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %mask) {		define <4 x i64> @test_masked_z_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %mask) {
; CHECK-LABEL: test_masked_z_8xi64_to_4xi64_perm_mask7:		; CHECK-LABEL: test_masked_z_8xi64_to_4xi64_perm_mask7:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm3
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [2,0,3,4]		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [2,0,3,4]
; CHECK-NEXT: vptestnmq %ymm1, %ymm1, %k1		; CHECK-NEXT: vptestnmq %ymm1, %ymm1, %k1
; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm2 {%k1} {z}		; CHECK-NEXT: vpermq %zmm0, %zmm2, %zmm0 {%k1} {z}
; CHECK-NEXT: vmovdqa %ymm2, %ymm0		; CHECK-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer
ret <4 x i64> %res		ret <4 x i64> %res
}		}
define <2 x i64> @test_8xi64_to_2xi64_perm_mask0(<8 x i64> %vec) {		define <2 x i64> @test_8xi64_to_2xi64_perm_mask0(<8 x i64> %vec) {
; CHECK-LABEL: test_8xi64_to_2xi64_perm_mask0:		; CHECK-LABEL: test_8xi64_to_2xi64_perm_mask0:
▲ Show 20 Lines • Show All 2,154 Lines • ▼ Show 20 Lines
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x double>, <8 x double>* %vp		%vec = load <8 x double>, <8 x double>* %vp
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 6>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 6>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer
ret <2 x double> %res		ret <2 x double> %res
}		}

; TODO - we'd be better off splitting the load to 2*xmm and performing a VSHUFPD.
define <2 x double> @test_masked_8xdouble_to_2xdouble_perm_mem_mask1(<8 x double>* %vp, <2 x double> %vec2, <2 x double> %mask) {		define <2 x double> @test_masked_8xdouble_to_2xdouble_perm_mem_mask1(<8 x double>* %vp, <2 x double> %vec2, <2 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_to_2xdouble_perm_mem_mask1:		; CHECK-LABEL: test_masked_8xdouble_to_2xdouble_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vbroadcasti32x4 {{.*#+}} zmm2 = [1,4,1,4,1,4,1,4]		; CHECK-NEXT: vmovddup 8(%rdi), %xmm2 # xmm2 = mem[0,0]
; CHECK-NEXT: # zmm2 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; CHECK-NEXT: vpermq (%rdi), %zmm2, %zmm2
; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqpd %xmm3, %xmm1, %k1		; CHECK-NEXT: vcmpeqpd %xmm3, %xmm1, %k1
; CHECK-NEXT: vmovapd %xmm2, %xmm0 {%k1}		; CHECK-NEXT: vunpcklpd 32(%rdi), %xmm2, %xmm0 {%k1} # xmm0 {%k1} = xmm2[0],mem[0]
; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x double>, <8 x double>* %vp		%vec = load <8 x double>, <8 x double>* %vp
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 4>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 4>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> %vec2
ret <2 x double> %res		ret <2 x double> %res
}		}

; TODO - we'd be better off splitting the load to 2*xmm and performing a VSHUFPD.
define <2 x double> @test_masked_z_8xdouble_to_2xdouble_perm_mem_mask1(<8 x double>* %vp, <2 x double> %mask) {		define <2 x double> @test_masked_z_8xdouble_to_2xdouble_perm_mem_mask1(<8 x double>* %vp, <2 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_to_2xdouble_perm_mem_mask1:		; CHECK-LABEL: test_masked_z_8xdouble_to_2xdouble_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovapd {{.*#+}} xmm1 = [1,4]		; CHECK-NEXT: vmovddup 8(%rdi), %xmm1 # xmm1 = mem[0,0]
; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %xmm2, %xmm0, %k1		; CHECK-NEXT: vcmpeqpd %xmm2, %xmm0, %k1
; CHECK-NEXT: vpermpd (%rdi), %zmm1, %zmm0 {%k1} {z}		; CHECK-NEXT: vunpcklpd 32(%rdi), %xmm1, %xmm0 {%k1} {z} # xmm0 {%k1} {z} = xmm1[0],mem[0]
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x double>, <8 x double>* %vp		%vec = load <8 x double>, <8 x double>* %vp
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 4>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <2 x i32> <i32 1, i32 4>
%cmp = fcmp oeq <2 x double> %mask, zeroinitializer		%cmp = fcmp oeq <2 x double> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer		%res = select <2 x i1> %cmp, <2 x double> %shuf, <2 x double> zeroinitializer
ret <2 x double> %res		ret <2 x double> %res
}		}

Show All 40 Lines

llvm/test/CodeGen/X86/bitcast-int-to-vector-bool-sext.ll

	Show First 20 Lines • Show All 198 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pand %xmm1, %xmm2			; SSE2-SSSE3-NEXT: pand %xmm1, %xmm2
	; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm2			; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm2
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,0,3,2]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,0,3,2]
	; SSE2-SSSE3-NEXT: pand %xmm2, %xmm1			; SSE2-SSSE3-NEXT: pand %xmm2, %xmm1
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: ext_i4_4i64:			; AVX1-LABEL: ext_i4_4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovd %edi, %xmm0			; AVX1-NEXT: # kill: def $edi killed $edi def $rdi
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX1-NEXT: vmovq %rdi, %xmm0
				; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pand %xmm3, %xmm4			; SSE2-SSSE3-NEXT: pand %xmm3, %xmm4
	; SSE2-SSSE3-NEXT: pcmpeqd %xmm3, %xmm4			; SSE2-SSSE3-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,0,3,2]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,0,3,2]
	; SSE2-SSSE3-NEXT: pand %xmm4, %xmm3			; SSE2-SSSE3-NEXT: pand %xmm4, %xmm3
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: ext_i8_8i64:			; AVX1-LABEL: ext_i8_8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovd %edi, %xmm0			; AVX1-NEXT: # kill: def $edi killed $edi def $rdi
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX1-NEXT: vmovq %rdi, %xmm0
				; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm1
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpeqq %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpcmpeqq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqq %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqq %xmm3, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 252 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitcast-int-to-vector-bool-zext.ll

	Show First 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm2			; SSE2-SSSE3-NEXT: pcmpeqd %xmm1, %xmm2
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,0,3,2]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,0,3,2]
	; SSE2-SSSE3-NEXT: pand %xmm2, %xmm1			; SSE2-SSSE3-NEXT: pand %xmm2, %xmm1
	; SSE2-SSSE3-NEXT: psrlq $63, %xmm1			; SSE2-SSSE3-NEXT: psrlq $63, %xmm1
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: ext_i4_4i64:			; AVX1-LABEL: ext_i4_4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovd %edi, %xmm0			; AVX1-NEXT: # kill: def $edi killed $edi def $rdi
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX1-NEXT: vmovq %rdi, %xmm0
				; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpcmpeqq %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vpcmpeqd %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pcmpeqd %xmm3, %xmm4			; SSE2-SSSE3-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,0,3,2]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm3 = xmm4[1,0,3,2]
	; SSE2-SSSE3-NEXT: pand %xmm4, %xmm3			; SSE2-SSSE3-NEXT: pand %xmm4, %xmm3
	; SSE2-SSSE3-NEXT: psrlq $63, %xmm3			; SSE2-SSSE3-NEXT: psrlq $63, %xmm3
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: ext_i8_8i64:			; AVX1-LABEL: ext_i8_8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovd %edi, %xmm0			; AVX1-NEXT: # kill: def $edi killed $edi def $rdi
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX1-NEXT: vmovq %rdi, %xmm0
				; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm1
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm1, %ymm0
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm3			; AVX1-NEXT: vpcmpeqq %xmm2, %xmm0, %xmm3
	; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $63, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $63, %xmm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	▲ Show 20 Lines • Show All 357 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/extractelement-load.ll

	Show First 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; X64-SSSE3-NEXT: movss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero			; X64-SSSE3-NEXT: movss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero
	; X64-SSSE3-NEXT: andps %xmm0, %xmm2			; X64-SSSE3-NEXT: andps %xmm0, %xmm2
	; X64-SSSE3-NEXT: andnps %xmm1, %xmm0			; X64-SSSE3-NEXT: andnps %xmm1, %xmm0
	; X64-SSSE3-NEXT: orps %xmm2, %xmm0			; X64-SSSE3-NEXT: orps %xmm2, %xmm0
	; X64-SSSE3-NEXT: retq			; X64-SSSE3-NEXT: retq
	;			;
	; X64-AVX-LABEL: t6:			; X64-AVX-LABEL: t6:
	; X64-AVX: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX-NEXT: vmovshdup (%rdi), %xmm0 # xmm0 = mem[1,1,3,3]			; X64-AVX-NEXT: vmovss 4(%rdi), %xmm0 # xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-AVX-NEXT: vcmpeqss %xmm1, %xmm0, %xmm1			; X64-AVX-NEXT: vcmpeqss %xmm1, %xmm0, %xmm1
	; X64-AVX-NEXT: vmovss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%vecload = load <8 x float>, <8 x float>* %a0, align 32			%vecload = load <8 x float>, <8 x float>* %a0, align 32
	%vecext = extractelement <8 x float> %vecload, i32 1			%vecext = extractelement <8 x float> %vecload, i32 1
	%cmp = fcmp oeq float %vecext, 0.000000e+00			%cmp = fcmp oeq float %vecext, 0.000000e+00
	Show All 26 Lines
	; X64-SSSE3-NEXT: andps %xmm1, %xmm2			; X64-SSSE3-NEXT: andps %xmm1, %xmm2
	; X64-SSSE3-NEXT: andnps %xmm0, %xmm1			; X64-SSSE3-NEXT: andnps %xmm0, %xmm1
	; X64-SSSE3-NEXT: orps %xmm2, %xmm1			; X64-SSSE3-NEXT: orps %xmm2, %xmm1
	; X64-SSSE3-NEXT: movss %xmm1, (%rsi)			; X64-SSSE3-NEXT: movss %xmm1, (%rsi)
	; X64-SSSE3-NEXT: retq			; X64-SSSE3-NEXT: retq
	;			;
	; X64-AVX-LABEL: PR43971:			; X64-AVX-LABEL: PR43971:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: vpermilpd $1, 16(%rdi), %xmm0 # xmm0 = mem[1,0]			; X64-AVX-NEXT: vmovss 24(%rdi), %xmm0 # xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-AVX-NEXT: vcmpltss %xmm0, %xmm1, %xmm1			; X64-AVX-NEXT: vcmpltss %xmm0, %xmm1, %xmm1
	; X64-AVX-NEXT: vmovss (%rsi), %xmm2 # xmm2 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovss (%rsi), %xmm2 # xmm2 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; X64-AVX-NEXT: vmovss %xmm0, (%rsi)			; X64-AVX-NEXT: vmovss %xmm0, (%rsi)
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%0 = load <8 x float>, <8 x float>* %a0, align 32			%0 = load <8 x float>, <8 x float>* %a0, align 32
	Show All 31 Lines
	; X64-SSSE3-NEXT: movss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero			; X64-SSSE3-NEXT: movss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero
	; X64-SSSE3-NEXT: andps %xmm0, %xmm2			; X64-SSSE3-NEXT: andps %xmm0, %xmm2
	; X64-SSSE3-NEXT: andnps %xmm1, %xmm0			; X64-SSSE3-NEXT: andnps %xmm1, %xmm0
	; X64-SSSE3-NEXT: orps %xmm2, %xmm0			; X64-SSSE3-NEXT: orps %xmm2, %xmm0
	; X64-SSSE3-NEXT: retq			; X64-SSSE3-NEXT: retq
	;			;
	; X64-AVX-LABEL: PR43971_1:			; X64-AVX-LABEL: PR43971_1:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: vmovshdup (%rdi), %xmm0 # xmm0 = mem[1,1,3,3]			; X64-AVX-NEXT: vmovss 4(%rdi), %xmm0 # xmm0 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-AVX-NEXT: vcmpeqss %xmm1, %xmm0, %xmm1			; X64-AVX-NEXT: vcmpeqss %xmm1, %xmm0, %xmm1
	; X64-AVX-NEXT: vmovss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero			; X64-AVX-NEXT: vmovss {{.*}}(%rip), %xmm2 # xmm2 = mem[0],zero,zero,zero
	; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0			; X64-AVX-NEXT: vblendvps %xmm1, %xmm2, %xmm0, %xmm0
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	entry:			entry:
	%0 = load <8 x float>, <8 x float>* %a0, align 32			%0 = load <8 x float>, <8 x float>* %a0, align 32
	%vecext = extractelement <8 x float> %0, i32 1			%vecext = extractelement <8 x float> %0, i32 1
	%cmp = fcmp oeq float %vecext, 0.000000e+00			%cmp = fcmp oeq float %vecext, 0.000000e+00
	%cond = select i1 %cmp, float 1.000000e+00, float %vecext			%cond = select i1 %cmp, float 1.000000e+00, float %vecext
	ret float %cond			ret float %cond
	}			}

llvm/test/CodeGen/X86/fma.ll

	Show First 20 Lines • Show All 1,830 Lines • ▼ Show 20 Lines
	; FMACALL32_BDVER2: ## %bb.0: ## %entry			; FMACALL32_BDVER2: ## %bb.0: ## %entry
	; FMACALL32_BDVER2-NEXT: pushl %ebp ## encoding: [0x55]			; FMACALL32_BDVER2-NEXT: pushl %ebp ## encoding: [0x55]
	; FMACALL32_BDVER2-NEXT: movl %esp, %ebp ## encoding: [0x89,0xe5]			; FMACALL32_BDVER2-NEXT: movl %esp, %ebp ## encoding: [0x89,0xe5]
	; FMACALL32_BDVER2-NEXT: andl $-32, %esp ## encoding: [0x83,0xe4,0xe0]			; FMACALL32_BDVER2-NEXT: andl $-32, %esp ## encoding: [0x83,0xe4,0xe0]
	; FMACALL32_BDVER2-NEXT: subl $352, %esp ## encoding: [0x81,0xec,0x60,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: subl $352, %esp ## encoding: [0x81,0xec,0x60,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## imm = 0x160			; FMACALL32_BDVER2-NEXT: ## imm = 0x160
	; FMACALL32_BDVER2-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x84,0x24,0xe0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x84,0x24,0xe0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovaps 56(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x38]			; FMACALL32_BDVER2-NEXT: vmovsd 56(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x38]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: vmovaps %ymm2, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %ymm2, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x94,0x24,0x00,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x94,0x24,0x00,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm3, %xmm2 ## encoding: [0xc4,0xe3,0x7d,0x19,0xda,0x01]			; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm3, %xmm2 ## encoding: [0xc4,0xe3,0x7d,0x19,0xda,0x01]
	; FMACALL32_BDVER2-NEXT: vmovaps %ymm3, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %ymm3, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x9c,0x24,0xc0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x9c,0x24,0xc0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovaps %ymm1, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %ymm1, {{[-0-9]+}}(%e{{[sb]}}p) ## 32-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x8c,0x24,0xa0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x29,0x8c,0x24,0xa0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %xmm2, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x94,0x24,0x30,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x94,0x24,0x30,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovlps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x13,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm1, %xmm0 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc8,0x01]			; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm1, %xmm0 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc8,0x01]
	; FMACALL32_BDVER2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x84,0x24,0x40,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x84,0x24,0x40,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovlhps %xmm2, %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x16,0xc2]			; FMACALL32_BDVER2-NEXT: vmovlhps %xmm2, %xmm0, %xmm0 ## encoding: [0xc5,0xf8,0x16,0xc2]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],xmm2[0]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],xmm2[0]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 40(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x28]			; FMACALL32_BDVER2-NEXT: vmovsd 48(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x30]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0x94,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0x94,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovhps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x17,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xa0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xa0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vunpckhpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vunpckhpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x15,0x84,0x24,0xc0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x15,0x84,0x24,0xc0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],mem[1]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],mem[1]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 40(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x28]			; FMACALL32_BDVER2-NEXT: vmovsd 40(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x28]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0x88,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0x88,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovlps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x13,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xa0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xa0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x84,0x24,0xc0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x84,0x24,0xc0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 24(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x18]			; FMACALL32_BDVER2-NEXT: vmovsd 32(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x20]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0xc0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0xc0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovhps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x17,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0x00,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0x00,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm0, %xmm1 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc1,0x01]			; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm0, %xmm1 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc1,0x01]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x4c,0x24,0x20]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x4c,0x24,0x20]
	; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm0, %xmm0 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc0,0x01]			; FMACALL32_BDVER2-NEXT: vextractf128 $1, %ymm0, %xmm0 ## encoding: [0xc4,0xe3,0x7d,0x19,0xc0,0x01]
	; FMACALL32_BDVER2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill			; FMACALL32_BDVER2-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) ## 16-byte Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x44,0x24,0x30]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x29,0x44,0x24,0x30]
	; FMACALL32_BDVER2-NEXT: vunpckhpd %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x15,0xc1]			; FMACALL32_BDVER2-NEXT: vunpckhpd %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x15,0xc1]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],xmm1[1]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],xmm1[1]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 24(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x18]			; FMACALL32_BDVER2-NEXT: vmovsd 24(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x18]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0xa0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0xbc,0x24,0xa0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovlps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x13,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 ## 16-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 ## 16-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x44,0x24,0x30]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x44,0x24,0x30]
	; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x44,0x24,0x20]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x44,0x24,0x20]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 8(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x08]			; FMACALL32_BDVER2-NEXT: vmovsd 16(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x10]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0x7c,0x24,0x30]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0x7c,0x24,0x30]
	; FMACALL32_BDVER2-NEXT: vmovhps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x17,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vunpckhpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vunpckhpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x15,0x84,0x24,0x00,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x15,0x84,0x24,0x00,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],mem[1]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[1],mem[1]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 8(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x08]			; FMACALL32_BDVER2-NEXT: vmovsd 8(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x08]
				; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
	; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill			; FMACALL32_BDVER2-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Spill
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0x7c,0x24,0x20]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xdb,0x7c,0x24,0x20]
	; FMACALL32_BDVER2-NEXT: vmovlps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x13,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %ymm0 ## 32-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xfc,0x28,0x84,0x24,0xe0,0x00,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vunpcklpd {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x84,0x24,0x00,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf9,0x14,0x84,0x24,0x00,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]			; FMACALL32_BDVER2-NEXT: ## xmm0 = xmm0[0],mem[0]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]			; FMACALL32_BDVER2-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
	; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]			; FMACALL32_BDVER2-NEXT: calll _fma ## encoding: [0xe8,A,A,A,A]
	; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4			; FMACALL32_BDVER2-NEXT: ## fixup A - offset: 1, value: _fma-4, kind: FK_PCRel_4
	; FMACALL32_BDVER2-NEXT: vmovaps 56(%ebp), %xmm0 ## encoding: [0xc5,0xf8,0x28,0x45,0x38]			; FMACALL32_BDVER2-NEXT: vmovsd 64(%ebp), %xmm0 ## encoding: [0xc5,0xfb,0x10,0x45,0x40]
	; FMACALL32_BDVER2-NEXT: vmovhps %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xf8,0x17,0x44,0x24,0x10]			; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0],zero
				; FMACALL32_BDVER2-NEXT: vmovsd %xmm0, {{[0-9]+}}(%esp) ## encoding: [0xc5,0xfb,0x11,0x44,0x24,0x10]
	; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 ## 16-byte Reload			; FMACALL32_BDVER2-NEXT: vmovaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 ## 16-byte Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x84,0x24,0x30,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x84,0x24,0x30,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: vmovlps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload			; FMACALL32_BDVER2-NEXT: vmovlps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0, %xmm0 ## 16-byte Folded Reload
	; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x12,0x84,0x24,0x48,0x01,0x00,0x00]			; FMACALL32_BDVER2-NEXT: ## encoding: [0xc5,0xf8,0x12,0x84,0x24,0x48,0x01,0x00,0x00]
	; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0,1],xmm0[2,3]			; FMACALL32_BDVER2-NEXT: ## xmm0 = mem[0,1],xmm0[2,3]
	; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]			; FMACALL32_BDVER2-NEXT: vmovups %xmm0, (%esp) ## encoding: [0xc5,0xf8,0x11,0x04,0x24]
	; FMACALL32_BDVER2-NEXT: fstpl {{[0-9]+}}(%esp) ## encoding: [0xdd,0x5c,0x24,0x60]			; FMACALL32_BDVER2-NEXT: fstpl {{[0-9]+}}(%esp) ## encoding: [0xdd,0x5c,0x24,0x60]
	; FMACALL32_BDVER2-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Reload			; FMACALL32_BDVER2-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) ## 10-byte Folded Reload
	▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/insertelement-var-index.ll

	Show First 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1			; SSE-NEXT: movaps {{[0-9]+}}(%rsp), %xmm1
	; SSE-NEXT: movq %rbp, %rsp			; SSE-NEXT: movq %rbp, %rsp
	; SSE-NEXT: popq %rbp			; SSE-NEXT: popq %rbp
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: arg_i64_v4i64:			; AVX1-LABEL: arg_i64_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovq %rdi, %xmm0			; AVX1-NEXT: vmovq %rdi, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; AVX1-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: arg_i64_v4i64:			; AVX2-LABEL: arg_i64_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovq %rdi, %xmm0			; AVX2-NEXT: vmovq %rdi, %xmm0
	; AVX2-NEXT: vpbroadcastq %xmm0, %ymm0			; AVX2-NEXT: vpbroadcastq %xmm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	▲ Show 20 Lines • Show All 266 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_gather.ll

	Show First 20 Lines • Show All 1,238 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pinsrd $3, (%rax), %xmm3			; SSE-NEXT: pinsrd $3, (%rax), %xmm3
	; SSE-NEXT: .LBB4_54: # %else118			; SSE-NEXT: .LBB4_54: # %else118
	; SSE-NEXT: paddd %xmm3, %xmm1			; SSE-NEXT: paddd %xmm3, %xmm1
	; SSE-NEXT: paddd %xmm2, %xmm0			; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: gather_v8i32_v8i32:			; AVX1-LABEL: gather_v8i32_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $c, %eax			; AVX1-NEXT: movl $c, %ecx
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rcx, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[0,1,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
	; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm3, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm1, %ymm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm9			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm9
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm9, %xmm5			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm9, %xmm4
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: vmovmskps %ymm1, %eax			; AVX1-NEXT: vmovmskps %ymm1, %eax
	; AVX1-NEXT: testb $1, %al			; AVX1-NEXT: testb $1, %al
	; AVX1-NEXT: # implicit-def: $ymm1			; AVX1-NEXT: # implicit-def: $ymm1
	; AVX1-NEXT: je .LBB4_2			; AVX1-NEXT: je .LBB4_2
	; AVX1-NEXT: # %bb.1: # %cond.load			; AVX1-NEXT: # %bb.1: # %cond.load
	; AVX1-NEXT: vmovq %xmm4, %rcx			; AVX1-NEXT: vmovq %xmm3, %rdx
	; AVX1-NEXT: vmovd (%rcx), %xmm1 # xmm1 = mem[0],zero,zero,zero			; AVX1-NEXT: vmovd (%rdx), %xmm1 # xmm1 = mem[0],zero,zero,zero
	; AVX1-NEXT: .LBB4_2: # %else			; AVX1-NEXT: .LBB4_2: # %else
	; AVX1-NEXT: testb $2, %al			; AVX1-NEXT: testb $2, %al
	; AVX1-NEXT: je .LBB4_4			; AVX1-NEXT: je .LBB4_4
	; AVX1-NEXT: # %bb.3: # %cond.load1			; AVX1-NEXT: # %bb.3: # %cond.load1
	; AVX1-NEXT: vpextrq $1, %xmm4, %rcx			; AVX1-NEXT: vpextrq $1, %xmm3, %rdx
	; AVX1-NEXT: vpinsrd $1, (%rcx), %xmm1, %xmm5			; AVX1-NEXT: vpinsrd $1, (%rdx), %xmm1, %xmm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm5[0,1,2,3],ymm1[4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm4[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: .LBB4_4: # %else2			; AVX1-NEXT: .LBB4_4: # %else2
	; AVX1-NEXT: testb $4, %al			; AVX1-NEXT: testb $4, %al
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX1-NEXT: jne .LBB4_5			; AVX1-NEXT: je .LBB4_6
	; AVX1-NEXT: # %bb.6: # %else5			; AVX1-NEXT: # %bb.5: # %cond.load4
				; AVX1-NEXT: vmovq %xmm4, %rdx
				; AVX1-NEXT: vpinsrd $2, (%rdx), %xmm1, %xmm5
				; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm5[0,1,2,3],ymm1[4,5,6,7]
				; AVX1-NEXT: .LBB4_6: # %else5
				; AVX1-NEXT: vmovq %rcx, %xmm5
	; AVX1-NEXT: testb $8, %al			; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: jne .LBB4_7			; AVX1-NEXT: je .LBB4_8
				; AVX1-NEXT: # %bb.7: # %cond.load7
				; AVX1-NEXT: vpextrq $1, %xmm4, %rcx
				; AVX1-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm6
				; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm6[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: .LBB4_8: # %else8			; AVX1-NEXT: .LBB4_8: # %else8
				; AVX1-NEXT: vmovddup {{.*#+}} xmm5 = xmm5[0,0]
	; AVX1-NEXT: testb $16, %al			; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: jne .LBB4_9			; AVX1-NEXT: je .LBB4_10
				; AVX1-NEXT: # %bb.9: # %cond.load10
				; AVX1-NEXT: vmovq %xmm3, %rcx
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6
				; AVX1-NEXT: vpinsrd $0, (%rcx), %xmm6, %xmm6
				; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_10: # %else11			; AVX1-NEXT: .LBB4_10: # %else11
	; AVX1-NEXT: testb $32, %al			; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: jne .LBB4_11			; AVX1-NEXT: je .LBB4_12
				; AVX1-NEXT: # %bb.11: # %cond.load13
				; AVX1-NEXT: vpextrq $1, %xmm3, %rcx
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
				; AVX1-NEXT: vpinsrd $1, (%rcx), %xmm3, %xmm3
				; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_12: # %else14			; AVX1-NEXT: .LBB4_12: # %else14
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm5, %ymm5
	; AVX1-NEXT: testb $64, %al			; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: je .LBB4_14			; AVX1-NEXT: je .LBB4_14
	; AVX1-NEXT: .LBB4_13: # %cond.load16			; AVX1-NEXT: # %bb.13: # %cond.load16
	; AVX1-NEXT: vmovq %xmm6, %rcx			; AVX1-NEXT: vmovq %xmm4, %rcx
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpinsrd $2, (%rcx), %xmm4, %xmm4			; AVX1-NEXT: vpinsrd $2, (%rcx), %xmm3, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_14: # %else17			; AVX1-NEXT: .LBB4_14: # %else17
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm5
	; AVX1-NEXT: testb $-128, %al			; AVX1-NEXT: testb $-128, %al
	; AVX1-NEXT: je .LBB4_16			; AVX1-NEXT: je .LBB4_16
	; AVX1-NEXT: # %bb.15: # %cond.load19			; AVX1-NEXT: # %bb.15: # %cond.load19
	; AVX1-NEXT: vpextrq $1, %xmm6, %rax			; AVX1-NEXT: vpextrq $1, %xmm4, %rax
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpinsrd $3, (%rax), %xmm3, %xmm3			; AVX1-NEXT: vpinsrd $3, (%rax), %xmm3, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: .LBB4_16: # %else20			; AVX1-NEXT: .LBB4_16: # %else20
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm10 = [28,28]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm10 = [28,28]
	; AVX1-NEXT: vpaddq %xmm3, %xmm10, %xmm3			; AVX1-NEXT: vpaddq %xmm3, %xmm10, %xmm3
	; AVX1-NEXT: vpaddq %xmm5, %xmm10, %xmm4			; AVX1-NEXT: vpaddq %xmm5, %xmm10, %xmm4
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: .LBB4_48: # %else118			; AVX1-NEXT: .LBB4_48: # %else118
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	; AVX1-NEXT: .LBB4_5: # %cond.load4
	; AVX1-NEXT: vmovq %xmm6, %rcx
	; AVX1-NEXT: vpinsrd $2, (%rcx), %xmm1, %xmm5
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm5[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: testb $8, %al
	; AVX1-NEXT: je .LBB4_8
	; AVX1-NEXT: .LBB4_7: # %cond.load7
	; AVX1-NEXT: vpextrq $1, %xmm6, %rcx
	; AVX1-NEXT: vpinsrd $3, (%rcx), %xmm1, %xmm5
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm5[0,1,2,3],ymm1[4,5,6,7]
	; AVX1-NEXT: testb $16, %al
	; AVX1-NEXT: je .LBB4_10
	; AVX1-NEXT: .LBB4_9: # %cond.load10
	; AVX1-NEXT: vmovq %xmm4, %rcx
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vpinsrd $0, (%rcx), %xmm5, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; AVX1-NEXT: testb $32, %al
	; AVX1-NEXT: je .LBB4_12
	; AVX1-NEXT: .LBB4_11: # %cond.load13
	; AVX1-NEXT: vpextrq $1, %xmm4, %rcx
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vpinsrd $1, (%rcx), %xmm4, %xmm4
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: testb $64, %al
	; AVX1-NEXT: jne .LBB4_13
	; AVX1-NEXT: jmp .LBB4_14
	;			;
	; AVX2-LABEL: gather_v8i32_v8i32:			; AVX2-LABEL: gather_v8i32_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: movl $c, %eax			; AVX2-NEXT: movl $c, %eax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpbroadcastq %xmm1, %ymm2			; AVX2-NEXT: vpbroadcastq %xmm1, %ymm2
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [12,12,12,12]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [12,12,12,12]
	; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm3			; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm3
	▲ Show 20 Lines • Show All 269 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr34653.ll

	Show All 11 Lines
	; CHECK-NEXT: movq %rsp, %rbp			; CHECK-NEXT: movq %rsp, %rbp
	; CHECK-NEXT: .cfi_def_cfa_register %rbp			; CHECK-NEXT: .cfi_def_cfa_register %rbp
	; CHECK-NEXT: andq $-512, %rsp # imm = 0xFE00			; CHECK-NEXT: andq $-512, %rsp # imm = 0xFE00
	; CHECK-NEXT: subq $1536, %rsp # imm = 0x600			; CHECK-NEXT: subq $1536, %rsp # imm = 0x600
	; CHECK-NEXT: leaq {{[0-9]+}}(%rsp), %rdi			; CHECK-NEXT: leaq {{[0-9]+}}(%rsp), %rdi
	; CHECK-NEXT: callq test			; CHECK-NEXT: callq test
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm1			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm1
	; CHECK-NEXT: vmovaps %xmm1, %xmm2			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm2
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm3			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm3
	; CHECK-NEXT: vmovaps %xmm3, %xmm4			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm4
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm5			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm5
	; CHECK-NEXT: vmovaps %xmm5, %xmm6			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm6
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm7			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm7
	; CHECK-NEXT: vmovaps %xmm7, %xmm8			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm8
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm9			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm9
	; CHECK-NEXT: vmovaps %xmm9, %xmm10			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm10
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm11			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm11
	; CHECK-NEXT: vmovaps %xmm11, %xmm12			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm12
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm13			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm13
	; CHECK-NEXT: vmovaps %xmm13, %xmm14			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm14
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm15			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm15
	; CHECK-NEXT: vmovaps %zmm15, %zmm16
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm17
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm18
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm19
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm20
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm21
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm22
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovaps %zmm0, %zmm23
	; CHECK-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm3 = xmm3[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm5 = xmm5[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm7 = xmm7[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm9 = xmm9[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm11 = xmm11[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm13 = xmm13[1,0]
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm15 = xmm15[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; CHECK-NEXT: vmovsd {{.*#+}} xmm16 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm17 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm18 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm19 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm20 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm21 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm22 = mem[0],zero
				; CHECK-NEXT: vmovsd {{.*#+}} xmm23 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm24 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm24 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm25 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm25 = mem[0],zero
	; CHECK-NEXT: # xmm25 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm26 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm26 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm27 = mem[0],zero
	; CHECK-NEXT: # xmm26 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm28 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm27 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm29 = mem[0],zero
	; CHECK-NEXT: # xmm27 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm30 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm28 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm31 = mem[0],zero
	; CHECK-NEXT: # xmm28 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm29 # 8-byte Reload
	; CHECK-NEXT: # xmm29 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm30 # 8-byte Reload
	; CHECK-NEXT: # xmm30 = mem[0],zero
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm31 # 8-byte Reload
	; CHECK-NEXT: # xmm31 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero			; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero			; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero			; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero			; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: movq %rbp, %rsp			; CHECK-NEXT: movq %rbp, %rsp
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: .cfi_def_cfa %rsp, 8			; CHECK-NEXT: .cfi_def_cfa %rsp, 8
	; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%v = call fastcc <38 x double> @test()			%v = call fastcc <38 x double> @test()
	%v.0 = extractelement <38 x double> %v, i32 0			%v.0 = extractelement <38 x double> %v, i32 0
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/vector-shuffle-512-v32.ll

	Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%c = shufflevector <32 x i16> %a, <32 x i16> undef, <32 x i32> <i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 1, i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 31>			%c = shufflevector <32 x i16> %a, <32 x i16> undef, <32 x i32> <i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 1, i32 2, i32 5, i32 undef, i32 undef, i32 7, i32 undef, i32 10, i32 1, i32 0, i32 5, i32 undef, i32 4, i32 7, i32 undef, i32 10, i32 31>
	ret <32 x i16> %c			ret <32 x i16> %c
	}			}

	define <32 x i16> @shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38(<32 x i16> %a, <32 x i16> %b) {
	; KNL-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:			; KNL-LABEL: shuffle_v32i16_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_18_0f_1f_0e_16_0d_1d_04_1e_0b_1b_0a_1a_09_19_08_38:
	; KNL: ## %bb.0:			; KNL: ## %bb.0:
	; KNL-NEXT: vextracti64x4 $1, %zmm1, %ymm1
	; KNL-NEXT: vextracti64x4 $1, %zmm0, %ymm2			; KNL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
	; KNL-NEXT: vpermq {{.*#+}} ymm3 = ymm2[2,3,0,1]			; KNL-NEXT: vpermq {{.*#+}} ymm3 = ymm2[2,3,0,1]
	; KNL-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5],ymm2[6],ymm3[7],ymm2[8,9,10,11],ymm3[12,13],ymm2[14],ymm3[15]			; KNL-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm3[4,5],ymm2[6],ymm3[7],ymm2[8,9,10,11],ymm3[12,13],ymm2[14],ymm3[15]
	; KNL-NEXT: vpshufb {{.*#+}} ymm3 = ymm2[u,u,14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,u,u]			; KNL-NEXT: vpshufb {{.*#+}} ymm3 = ymm2[u,u,14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,u,u]
	; KNL-NEXT: vextracti128 $1, %ymm0, %xmm4			; KNL-NEXT: vextracti128 $1, %ymm0, %xmm4
	; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5,6,7],ymm0[8,9,10,11,12],ymm4[13,14,15]			; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm4[5,6,7],ymm0[8,9,10,11,12],ymm4[13,14,15]
	; KNL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,16,17,u,u]			; KNL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,16,17,u,u]
	; KNL-NEXT: vpblendw {{.*#+}} ymm3 = ymm0[0],ymm3[1],ymm0[2],ymm3[3],ymm0[4],ymm3[5],ymm0[6],ymm3[7],ymm0[8],ymm3[9],ymm0[10],ymm3[11],ymm0[12],ymm3[13],ymm0[14],ymm3[15]			; KNL-NEXT: vpblendw {{.*#+}} ymm3 = ymm0[0],ymm3[1],ymm0[2],ymm3[3],ymm0[4],ymm3[5],ymm0[6],ymm3[7],ymm0[8],ymm3[9],ymm0[10],ymm3[11],ymm0[12],ymm3[13],ymm0[14],ymm3[15]
	; KNL-NEXT: vextracti128 $1, %ymm1, %xmm1			; KNL-NEXT: vextracti32x4 $3, %zmm1, %xmm1
	; KNL-NEXT: vpbroadcastw %xmm1, %ymm1			; KNL-NEXT: vpbroadcastw %xmm1, %ymm1
	; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm3[0,1,2,3,4,5,6],ymm1[7],ymm3[8,9,10,11,12,13,14],ymm1[15]			; KNL-NEXT: vpblendw {{.*#+}} ymm1 = ymm3[0,1,2,3,4,5,6],ymm1[7],ymm3[8,9,10,11,12,13,14],ymm1[15]
	; KNL-NEXT: vpblendd {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]			; KNL-NEXT: vpblendd {{.*#+}} ymm1 = ymm3[0,1,2,3],ymm1[4,5,6,7]
	; KNL-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,16,17]			; KNL-NEXT: vpshufb {{.*#+}} ymm2 = ymm2[u,u,14,15,u,u,12,13,u,u,10,11,u,u,8,9,u,u,22,23,u,u,20,21,u,u,18,19,u,u,16,17]
	; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]			; KNL-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]
	; KNL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; KNL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 288 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/x86-interleaved-access.ll

Show First 20 Lines • Show All 1,701 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%r = shufflevector <8 x i64> %x2, <8 x i64> undef, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>		%r = shufflevector <8 x i64> %x2, <8 x i64> undef, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>
store <8 x i64> %r, <8 x i64>* %d, align 8		store <8 x i64> %r, <8 x i64>* %d, align 8
ret void		ret void
}		}

define void @splat4_v8f32_load_store(<8 x float>* %s, <32 x float>* %d) {		define void @splat4_v8f32_load_store(<8 x float>* %s, <32 x float>* %d) {
; AVX1-LABEL: splat4_v8f32_load_store:		; AVX1-LABEL: splat4_v8f32_load_store:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovups (%rdi), %xmm0		; AVX1-NEXT: vbroadcastss 16(%rdi), %xmm0
; AVX1-NEXT: vmovups 16(%rdi), %xmm1		; AVX1-NEXT: vbroadcastss 20(%rdi), %xmm1
; AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,0,0]		; AVX1-NEXT: vbroadcastss 24(%rdi), %xmm2
; AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm1[1,1,1,1]		; AVX1-NEXT: vbroadcastss 28(%rdi), %xmm3
; AVX1-NEXT: vpermilps {{.*#+}} xmm4 = xmm1[2,2,2,2]		; AVX1-NEXT: vbroadcastss (%rdi), %xmm4
; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,3,3,3]		; AVX1-NEXT: vbroadcastss 4(%rdi), %xmm5
; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[0,0,0,0]		; AVX1-NEXT: vbroadcastss 8(%rdi), %xmm6
; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm0[1,1,1,1]		; AVX1-NEXT: vbroadcastss 12(%rdi), %xmm7
; AVX1-NEXT: vpermilps {{.*#+}} xmm7 = xmm0[2,2,2,2]		; AVX1-NEXT: vmovups %xmm7, 48(%rsi)
; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; AVX1-NEXT: vmovups %xmm6, 32(%rsi)
; AVX1-NEXT: vmovups %xmm0, 48(%rsi)		; AVX1-NEXT: vmovups %xmm5, 16(%rsi)
; AVX1-NEXT: vmovups %xmm7, 32(%rsi)		; AVX1-NEXT: vmovups %xmm4, (%rsi)
; AVX1-NEXT: vmovups %xmm6, 16(%rsi)		; AVX1-NEXT: vmovups %xmm3, 112(%rsi)
; AVX1-NEXT: vmovups %xmm5, (%rsi)		; AVX1-NEXT: vmovups %xmm2, 96(%rsi)
; AVX1-NEXT: vmovups %xmm1, 112(%rsi)		; AVX1-NEXT: vmovups %xmm1, 80(%rsi)
; AVX1-NEXT: vmovups %xmm4, 96(%rsi)		; AVX1-NEXT: vmovups %xmm0, 64(%rsi)
; AVX1-NEXT: vmovups %xmm3, 80(%rsi)
; AVX1-NEXT: vmovups %xmm2, 64(%rsi)
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splat4_v8f32_load_store:		; AVX2-LABEL: splat4_v8f32_load_store:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovups (%rdi), %ymm0		; AVX2-NEXT: vmovups (%rdi), %ymm0
; AVX2-NEXT: vmovups (%rdi), %xmm1		; AVX2-NEXT: vmovups (%rdi), %xmm1
; AVX2-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,1,1]		; AVX2-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,1,1]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,0,1,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,0,1,1]
Show All 27 Lines	; AVX512-NEXT: retq
%r = shufflevector <32 x float> %x4, <32 x float> undef, <32 x i32> <i32 0, i32 8, i32 16, i32 24, i32 1, i32 9, i32 17, i32 25, i32 2, i32 10, i32 18, i32 26, i32 3, i32 11, i32 19, i32 27, i32 4, i32 12, i32 20, i32 28, i32 5, i32 13, i32 21, i32 29, i32 6, i32 14, i32 22, i32 30, i32 7, i32 15, i32 23, i32 31>		%r = shufflevector <32 x float> %x4, <32 x float> undef, <32 x i32> <i32 0, i32 8, i32 16, i32 24, i32 1, i32 9, i32 17, i32 25, i32 2, i32 10, i32 18, i32 26, i32 3, i32 11, i32 19, i32 27, i32 4, i32 12, i32 20, i32 28, i32 5, i32 13, i32 21, i32 29, i32 6, i32 14, i32 22, i32 30, i32 7, i32 15, i32 23, i32 31>
store <32 x float> %r, <32 x float>* %d, align 4		store <32 x float> %r, <32 x float>* %d, align 4
ret void		ret void
}		}

define void @splat4_v8i32_load_store(<8 x i32>* %s, <32 x i32>* %d) {		define void @splat4_v8i32_load_store(<8 x i32>* %s, <32 x i32>* %d) {
; AVX1-LABEL: splat4_v8i32_load_store:		; AVX1-LABEL: splat4_v8i32_load_store:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vmovups (%rdi), %xmm0		; AVX1-NEXT: vbroadcastss (%rdi), %xmm0
; AVX1-NEXT: vmovups 16(%rdi), %xmm1		; AVX1-NEXT: vbroadcastss 4(%rdi), %xmm1
; AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,0,0]		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm1[1,1,1,1]		; AVX1-NEXT: vbroadcastss 8(%rdi), %xmm1
; AVX1-NEXT: vpermilps {{.*#+}} xmm4 = xmm1[2,2,2,2]		; AVX1-NEXT: vbroadcastss 12(%rdi), %xmm2
; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,3,3,3]		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[0,0,0,0]		; AVX1-NEXT: vbroadcastss 16(%rdi), %xmm2
; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm0[1,1,1,1]		; AVX1-NEXT: vbroadcastss 20(%rdi), %xmm3
; AVX1-NEXT: vpermilps {{.*#+}} xmm7 = xmm0[2,2,2,2]		; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; AVX1-NEXT: vbroadcastss 24(%rdi), %xmm3
; AVX1-NEXT: vmovups %xmm0, 48(%rsi)		; AVX1-NEXT: vbroadcastss 28(%rdi), %xmm4
; AVX1-NEXT: vmovups %xmm7, 32(%rsi)		; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
; AVX1-NEXT: vmovups %xmm6, 16(%rsi)		; AVX1-NEXT: vmovups %ymm3, 96(%rsi)
; AVX1-NEXT: vmovups %xmm5, (%rsi)		; AVX1-NEXT: vmovups %ymm2, 64(%rsi)
; AVX1-NEXT: vmovups %xmm1, 112(%rsi)		; AVX1-NEXT: vmovups %ymm1, 32(%rsi)
; AVX1-NEXT: vmovups %xmm4, 96(%rsi)		; AVX1-NEXT: vmovups %ymm0, (%rsi)
; AVX1-NEXT: vmovups %xmm3, 80(%rsi)		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: vmovups %xmm2, 64(%rsi)
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: splat4_v8i32_load_store:		; AVX2-LABEL: splat4_v8i32_load_store:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vmovups (%rdi), %ymm0		; AVX2-NEXT: vmovups (%rdi), %ymm0
; AVX2-NEXT: vmovups (%rdi), %xmm1		; AVX2-NEXT: vmovups (%rdi), %xmm1
; AVX2-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,1,1]		; AVX2-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[0,0,1,1]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,0,1,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,0,1,1]
▲ Show 20 Lines • Show All 135 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] allow peeking through an extract_subvector to find a splatted operandClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 245694

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avx-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/avx-splat.ll

llvm/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

llvm/test/CodeGen/X86/bitcast-int-to-vector-bool-sext.ll

llvm/test/CodeGen/X86/bitcast-int-to-vector-bool-zext.ll

llvm/test/CodeGen/X86/extractelement-load.ll

llvm/test/CodeGen/X86/fma.ll

llvm/test/CodeGen/X86/insertelement-var-index.ll

llvm/test/CodeGen/X86/masked_gather.ll

llvm/test/CodeGen/X86/pr34653.ll

llvm/test/CodeGen/X86/vector-shuffle-512-v32.ll

llvm/test/CodeGen/X86/x86-interleaved-access.ll

[x86] allow peeking through an extract_subvector to find a splatted operand
ClosedPublic