This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Generalize X86ISD::BLENDI support to more value types with fix for revert from r354713
ClosedPublic

Authored by craig.topper on Feb 23 2019, 1:58 AM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon

Commits

rG5532a9873765: [X86][SSE] Use pblendw for v4i32/v2i64 during isel.
rL354755: [X86][SSE] Use pblendw for v4i32/v2i64 during isel.

Summary

This is a modified version of D57888 which was reverted.

It now uses PBLENDW for 128-bit integer blends using SDNodeXForms to rewrite the immediate. This keeps the instruction in the integer domain and avoids the possiblity of it being commuted and becoming movss/movsd when optsize is enabled. See more information in D57888.

I plan to reduce the test case that came with the revert and include it, but its late here and I wanted to get this patch up so Simon could look at it. I'll also make a separate patch to fix the underlying issue in the two address instruction pass.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Feb 23 2019, 1:58 AM

Herald added a subscriber: jdoerfert. · View Herald TranscriptFeb 23 2019, 1:58 AM

Update comment to indicate use pblendw or an fp blend.

FWICT from the discussion on D57888, doesn't that mean the problem is really in the commutation code and we should be fixing that?

I will fix the commuting code too.

But doing only that means we’ll turn v4i32 blends into movss/movsd sometimes on pre-avx2 targets. For v2i64 it can happen on avx2 targets as well.

In D58574#1408061, @craig.topper wrote:

I will fix the commuting code too.

But doing only that means we’ll turn v4i32 blends into movss/movsd sometimes on pre-avx2 targets. For v2i64 it can happen on avx2 targets as well.

Good point - I imagine even for OptSize we typically want to avoid the domain swap.

I've put the original patch back in with the fix to the TwoAddressInstructionPass and a reduced test case. I'll rebase this to just the change to use PBLENDW instead.

Rebase. Now this just changes from blendps/blendpd to pblendw. The original patch was recommitted

Herald added a project: Restricted Project. · View Herald TranscriptFeb 23 2019, 7:22 PM

Harbormaster completed remote builds in B28454: Diff 188070.Feb 23 2019, 7:24 PM

LGTM

This revision is now accepted and ready to land.Feb 24 2019, 4:30 AM

As a follow up, its worth investigating how to get the domain pass to prefer pblendd for integers on avx2+ targets - afaict intel targets can dispatch it to more pipes than pblendw, and I don't think bdver4/znver1 cares as much.

Closed by commit rL354755: [X86][SSE] Use pblendw for v4i32/v2i64 during isel. (authored by ctopper). · Explain WhyFeb 24 2019, 11:25 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86InstrSSE.td

76 lines

test/

CodeGen/

X86/

avx512-shuffles/

partial_permute.ll

8 lines

combine-sdiv.ll

44 lines

commute-blend-sse41.ll

10 lines

insertelement-ones.ll

22 lines

lower-vec-shift.ll

38 lines

sse2.ll

25 lines

vector-narrow-binop.ll

30 lines

vector-shuffle-128-v4.ll

16 lines

vector-shuffle-128-v8.ll

55 lines

Diff 188087

llvm/trunk/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,391 Lines • ▼ Show 20 Lines	def BlendCommuteImm4 : SDNodeXForm<imm, [{
return getI8Imm(Imm ^ 0x0f, SDLoc(N));		return getI8Imm(Imm ^ 0x0f, SDLoc(N));
}]>;		}]>;

def BlendCommuteImm8 : SDNodeXForm<imm, [{		def BlendCommuteImm8 : SDNodeXForm<imm, [{
uint8_t Imm = N->getZExtValue() & 0xff;		uint8_t Imm = N->getZExtValue() & 0xff;
return getI8Imm(Imm ^ 0xff, SDLoc(N));		return getI8Imm(Imm ^ 0xff, SDLoc(N));
}]>;		}]>;

		// Turn a 4-bit blendi immediate to 8-bit for use with pblendw.
		def BlendScaleImm4 : SDNodeXForm<imm, [{
		uint8_t Imm = N->getZExtValue();
		uint8_t NewImm = 0;
		for (unsigned i = 0; i != 4; ++i) {
		if (Imm & (1 << i))
		NewImm \|= 0x3 << (i * 2);
		}
		return getI8Imm(NewImm, SDLoc(N));
		}]>;

		// Turn a 2-bit blendi immediate to 8-bit for use with pblendw.
		def BlendScaleImm2 : SDNodeXForm<imm, [{
		uint8_t Imm = N->getZExtValue();
		uint8_t NewImm = 0;
		for (unsigned i = 0; i != 2; ++i) {
		if (Imm & (1 << i))
		NewImm \|= 0xf << (i * 4);
		}
		return getI8Imm(NewImm, SDLoc(N));
		}]>;

		// Turn a 4-bit blendi immediate to 8-bit for use with pblendw and invert it.
		def BlendScaleCommuteImm4 : SDNodeXForm<imm, [{
		uint8_t Imm = N->getZExtValue();
		uint8_t NewImm = 0;
		for (unsigned i = 0; i != 4; ++i) {
		if (Imm & (1 << i))
		NewImm \|= 0x3 << (i * 2);
		}
		return getI8Imm(NewImm ^ 0xff, SDLoc(N));
		}]>;

		// Turn a 2-bit blendi immediate to 8-bit for use with pblendw and invert it.
		def BlendScaleCommuteImm2 : SDNodeXForm<imm, [{
		uint8_t Imm = N->getZExtValue();
		uint8_t NewImm = 0;
		for (unsigned i = 0; i != 2; ++i) {
		if (Imm & (1 << i))
		NewImm \|= 0xf << (i * 4);
		}
		return getI8Imm(NewImm ^ 0xff, SDLoc(N));
		}]>;

let Predicates = [HasAVX] in {		let Predicates = [HasAVX] in {
let isCommutable = 0 in {		let isCommutable = 0 in {
defm VMPSADBW : SS41I_binop_rmi_int<0x42, "vmpsadbw", int_x86_sse41_mpsadbw,		defm VMPSADBW : SS41I_binop_rmi_int<0x42, "vmpsadbw", int_x86_sse41_mpsadbw,
VR128, load, i128mem, 0,		VR128, load, i128mem, 0,
SchedWriteMPSAD.XMM>, VEX_4V, VEX_WIG;		SchedWriteMPSAD.XMM>, VEX_4V, VEX_WIG;
}		}

let ExeDomain = SSEPackedSingle in		let ExeDomain = SSEPackedSingle in
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines

let Predicates = [HasAVX2] in {		let Predicates = [HasAVX2] in {
defm VPBLENDWY : SS41I_blend_rmi<0x0E, "vpblendw", X86Blendi, v16i16,		defm VPBLENDWY : SS41I_blend_rmi<0x0E, "vpblendw", X86Blendi, v16i16,
VR256, load, i256mem, 0, SSEPackedInt,		VR256, load, i256mem, 0, SSEPackedInt,
SchedWriteBlend.YMM, BlendCommuteImm8>,		SchedWriteBlend.YMM, BlendCommuteImm8>,
VEX_4V, VEX_L, VEX_WIG;		VEX_4V, VEX_L, VEX_WIG;
}		}

// Emulate vXi32/vXi64 blends with vXf32/vXf64.		// Emulate vXi32/vXi64 blends with vXf32/vXf64 or pblendw.
// ExecutionDomainFixPass will cleanup domains later on.		// ExecutionDomainFixPass will cleanup domains later on.
let Predicates = [HasAVX] in {		let Predicates = [HasAVX] in {
def : Pat<(X86Blendi (v4i64 VR256:$src1), (v4i64 VR256:$src2), imm:$src3),		def : Pat<(X86Blendi (v4i64 VR256:$src1), (v4i64 VR256:$src2), imm:$src3),
(VBLENDPDYrri VR256:$src1, VR256:$src2, imm:$src3)>;		(VBLENDPDYrri VR256:$src1, VR256:$src2, imm:$src3)>;
def : Pat<(X86Blendi VR256:$src1, (loadv4i64 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR256:$src1, (loadv4i64 addr:$src2), imm:$src3),
(VBLENDPDYrmi VR256:$src1, addr:$src2, imm:$src3)>;		(VBLENDPDYrmi VR256:$src1, addr:$src2, imm:$src3)>;
def : Pat<(X86Blendi (loadv4i64 addr:$src2), VR256:$src1, imm:$src3),		def : Pat<(X86Blendi (loadv4i64 addr:$src2), VR256:$src1, imm:$src3),
(VBLENDPDYrmi VR256:$src1, addr:$src2, (BlendCommuteImm4 imm:$src3))>;		(VBLENDPDYrmi VR256:$src1, addr:$src2, (BlendCommuteImm4 imm:$src3))>;

		// Use pblendw for 128-bit integer to keep it in the integer domain and prevent
		// it from becoming movsd via commuting under optsize.
def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), imm:$src3),		def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), imm:$src3),
(VBLENDPDrri VR128:$src1, VR128:$src2, imm:$src3)>;		(VPBLENDWrri VR128:$src1, VR128:$src2, (BlendScaleImm2 imm:$src3))>;
def : Pat<(X86Blendi VR128:$src1, (loadv2i64 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR128:$src1, (loadv2i64 addr:$src2), imm:$src3),
(VBLENDPDrmi VR128:$src1, addr:$src2, imm:$src3)>;		(VPBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleImm2 imm:$src3))>;
def : Pat<(X86Blendi (loadv2i64 addr:$src2), VR128:$src1, imm:$src3),		def : Pat<(X86Blendi (loadv2i64 addr:$src2), VR128:$src1, imm:$src3),
(VBLENDPDrmi VR128:$src1, addr:$src2, (BlendCommuteImm2 imm:$src3))>;		(VPBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleCommuteImm2 imm:$src3))>;
}		}

let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
def : Pat<(X86Blendi (v8i32 VR256:$src1), (v8i32 VR256:$src2), imm:$src3),		def : Pat<(X86Blendi (v8i32 VR256:$src1), (v8i32 VR256:$src2), imm:$src3),
(VBLENDPSYrri VR256:$src1, VR256:$src2, imm:$src3)>;		(VBLENDPSYrri VR256:$src1, VR256:$src2, imm:$src3)>;
def : Pat<(X86Blendi VR256:$src1, (loadv8i32 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR256:$src1, (loadv8i32 addr:$src2), imm:$src3),
(VBLENDPSYrmi VR256:$src1, addr:$src2, imm:$src3)>;		(VBLENDPSYrmi VR256:$src1, addr:$src2, imm:$src3)>;
def : Pat<(X86Blendi (loadv8i32 addr:$src2), VR256:$src1, imm:$src3),		def : Pat<(X86Blendi (loadv8i32 addr:$src2), VR256:$src1, imm:$src3),
(VBLENDPSYrmi VR256:$src1, addr:$src2, (BlendCommuteImm8 imm:$src3))>;		(VBLENDPSYrmi VR256:$src1, addr:$src2, (BlendCommuteImm8 imm:$src3))>;

		// Use pblendw for 128-bit integer to keep it in the integer domain and prevent
		// it from becoming movss via commuting under optsize.
def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), imm:$src3),		def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), imm:$src3),
(VBLENDPSrri VR128:$src1, VR128:$src2, imm:$src3)>;		(VPBLENDWrri VR128:$src1, VR128:$src2, (BlendScaleImm4 imm:$src3))>;
def : Pat<(X86Blendi VR128:$src1, (loadv4i32 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR128:$src1, (loadv4i32 addr:$src2), imm:$src3),
(VBLENDPSrmi VR128:$src1, addr:$src2, imm:$src3)>;		(VPBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleImm4 imm:$src3))>;
def : Pat<(X86Blendi (loadv4i32 addr:$src2), VR128:$src1, imm:$src3),		def : Pat<(X86Blendi (loadv4i32 addr:$src2), VR128:$src1, imm:$src3),
(VBLENDPSrmi VR128:$src1, addr:$src2, (BlendCommuteImm4 imm:$src3))>;		(VPBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleCommuteImm4 imm:$src3))>;
}		}

defm BLENDPS : SS41I_blend_rmi<0x0C, "blendps", X86Blendi, v4f32,		defm BLENDPS : SS41I_blend_rmi<0x0C, "blendps", X86Blendi, v4f32,
VR128, memop, f128mem, 1, SSEPackedSingle,		VR128, memop, f128mem, 1, SSEPackedSingle,
SchedWriteFBlend.XMM, BlendCommuteImm4>;		SchedWriteFBlend.XMM, BlendCommuteImm4>;
defm BLENDPD : SS41I_blend_rmi<0x0D, "blendpd", X86Blendi, v2f64,		defm BLENDPD : SS41I_blend_rmi<0x0D, "blendpd", X86Blendi, v2f64,
VR128, memop, f128mem, 1, SSEPackedDouble,		VR128, memop, f128mem, 1, SSEPackedDouble,
SchedWriteFBlend.XMM, BlendCommuteImm2>;		SchedWriteFBlend.XMM, BlendCommuteImm2>;
defm PBLENDW : SS41I_blend_rmi<0x0E, "pblendw", X86Blendi, v8i16,		defm PBLENDW : SS41I_blend_rmi<0x0E, "pblendw", X86Blendi, v8i16,
VR128, memop, i128mem, 1, SSEPackedInt,		VR128, memop, i128mem, 1, SSEPackedInt,
SchedWriteBlend.XMM, BlendCommuteImm8>;		SchedWriteBlend.XMM, BlendCommuteImm8>;

let Predicates = [UseSSE41] in {		let Predicates = [UseSSE41] in {
		// Use pblendw for 128-bit integer to keep it in the integer domain and prevent
		// it from becoming movss via commuting under optsize.
def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), imm:$src3),		def : Pat<(X86Blendi (v2i64 VR128:$src1), (v2i64 VR128:$src2), imm:$src3),
(BLENDPDrri VR128:$src1, VR128:$src2, imm:$src3)>;		(PBLENDWrri VR128:$src1, VR128:$src2, (BlendScaleImm2 imm:$src3))>;
def : Pat<(X86Blendi VR128:$src1, (memopv2i64 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR128:$src1, (memopv2i64 addr:$src2), imm:$src3),
(BLENDPDrmi VR128:$src1, addr:$src2, imm:$src3)>;		(PBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleImm2 imm:$src3))>;
def : Pat<(X86Blendi (memopv2i64 addr:$src2), VR128:$src1, imm:$src3),		def : Pat<(X86Blendi (memopv2i64 addr:$src2), VR128:$src1, imm:$src3),
(BLENDPDrmi VR128:$src1, addr:$src2, (BlendCommuteImm2 imm:$src3))>;		(PBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleCommuteImm2 imm:$src3))>;

def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), imm:$src3),		def : Pat<(X86Blendi (v4i32 VR128:$src1), (v4i32 VR128:$src2), imm:$src3),
(BLENDPSrri VR128:$src1, VR128:$src2, imm:$src3)>;		(PBLENDWrri VR128:$src1, VR128:$src2, (BlendScaleImm4 imm:$src3))>;
def : Pat<(X86Blendi VR128:$src1, (memopv4i32 addr:$src2), imm:$src3),		def : Pat<(X86Blendi VR128:$src1, (memopv4i32 addr:$src2), imm:$src3),
(BLENDPSrmi VR128:$src1, addr:$src2, imm:$src3)>;		(PBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleImm4 imm:$src3))>;
def : Pat<(X86Blendi (memopv4i32 addr:$src2), VR128:$src1, imm:$src3),		def : Pat<(X86Blendi (memopv4i32 addr:$src2), VR128:$src1, imm:$src3),
(BLENDPSrmi VR128:$src1, addr:$src2, (BlendCommuteImm4 imm:$src3))>;		(PBLENDWrmi VR128:$src1, addr:$src2, (BlendScaleCommuteImm4 imm:$src3))>;
}		}

// For insertion into the zero index (low half) of a 256-bit vector, it is		// For insertion into the zero index (low half) of a 256-bit vector, it is
// more efficient to generate a blend with immediate instead of an insert*128.		// more efficient to generate a blend with immediate instead of an insert*128.
let Predicates = [HasAVX] in {		let Predicates = [HasAVX] in {
def : Pat<(insert_subvector (v4f64 VR256:$src1), (v2f64 VR128:$src2), (iPTR 0)),		def : Pat<(insert_subvector (v4f64 VR256:$src1), (v2f64 VR128:$src2), (iPTR 0)),
(VBLENDPDYrri VR256:$src1,		(VBLENDPDYrri VR256:$src1,
(INSERT_SUBREG (v4f64 (IMPLICIT_DEF)),		(INSERT_SUBREG (v4f64 (IMPLICIT_DEF)),
▲ Show 20 Lines • Show All 1,930 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

Show First 20 Lines • Show All 1,907 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {		define <2 x i64> @test_masked_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_4xi64_to_2xi64_perm_mem_mask1:		; CHECK-LABEL: test_masked_4xi64_to_2xi64_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm2		; CHECK-NEXT: vmovdqa 16(%rdi), %xmm2
; CHECK-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],mem[2,3]		; CHECK-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],mem[4,5,6,7]
; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1		; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1
; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}		; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <4 x i64>, <4 x i64>* %vp		%vec = load <4 x i64>, <4 x i64>* %vp
%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>		%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_z_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %mask) {		define <2 x i64> @test_masked_z_4xi64_to_2xi64_perm_mem_mask1(<4 x i64>* %vp, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_z_4xi64_to_2xi64_perm_mem_mask1:		; CHECK-LABEL: test_masked_z_4xi64_to_2xi64_perm_mem_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 16(%rdi), %xmm1		; CHECK-NEXT: vmovdqa 16(%rdi), %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1],mem[2,3]		; CHECK-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],mem[4,5,6,7]
; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1		; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1
; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <4 x i64>, <4 x i64>* %vp		%vec = load <4 x i64>, <4 x i64>* %vp
%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>		%shuf = shufflevector <4 x i64> %vec, <4 x i64> undef, <2 x i32> <i32 2, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
▲ Show 20 Lines • Show All 619 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%res = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%res = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
ret <2 x i64> %res		ret <2 x i64> %res
}		}
define <2 x i64> @test_masked_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {		define <2 x i64> @test_masked_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %vec2, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_8xi64_to_2xi64_perm_mem_mask0:		; CHECK-LABEL: test_masked_8xi64_to_2xi64_perm_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 32(%rdi), %xmm2		; CHECK-NEXT: vmovdqa 32(%rdi), %xmm2
; CHECK-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0,1],mem[2,3]		; CHECK-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],mem[4,5,6,7]
; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1		; CHECK-NEXT: vptestnmq %xmm1, %xmm1, %k1
; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}		; CHECK-NEXT: vmovdqa64 %xmm2, %xmm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> %vec2
ret <2 x i64> %res		ret <2 x i64> %res
}		}

define <2 x i64> @test_masked_z_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %mask) {		define <2 x i64> @test_masked_z_8xi64_to_2xi64_perm_mem_mask0(<8 x i64>* %vp, <2 x i64> %mask) {
; CHECK-LABEL: test_masked_z_8xi64_to_2xi64_perm_mem_mask0:		; CHECK-LABEL: test_masked_z_8xi64_to_2xi64_perm_mem_mask0:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovdqa 32(%rdi), %xmm1		; CHECK-NEXT: vmovdqa 32(%rdi), %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0,1],mem[2,3]		; CHECK-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],mem[4,5,6,7]
; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1		; CHECK-NEXT: vptestnmq %xmm0, %xmm0, %k1
; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}		; CHECK-NEXT: vmovdqa64 %xmm1, %xmm0 {%k1} {z}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%vec = load <8 x i64>, <8 x i64>* %vp		%vec = load <8 x i64>, <8 x i64>* %vp
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <2 x i32> <i32 4, i32 1>
%cmp = icmp eq <2 x i64> %mask, zeroinitializer		%cmp = icmp eq <2 x i64> %mask, zeroinitializer
%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer		%res = select <2 x i1> %cmp, <2 x i64> %shuf, <2 x i64> zeroinitializer
ret <2 x i64> %res		ret <2 x i64> %res
▲ Show 20 Lines • Show All 1,881 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-sdiv.ll

	Show First 20 Lines • Show All 1,574 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: movl $2, %eax			; AVX2-NEXT: movl $2, %eax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; AVX2-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; AVX2-NEXT: vpsrlvq %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsrlvq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpsubq %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpsubq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: movl $2, %eax			; AVX512F-NEXT: movl $2, %eax
	; AVX512F-NEXT: vmovq %rax, %xmm1			; AVX512F-NEXT: vmovq %rax, %xmm1
	; AVX512F-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]			; AVX512F-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
	; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2			; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2
	; AVX512F-NEXT: vpsrlvq {{.*}}(%rip), %xmm2, %xmm2			; AVX512F-NEXT: vpsrlvq {{.*}}(%rip), %xmm2, %xmm2
	; AVX512F-NEXT: vpaddq %xmm2, %xmm0, %xmm2			; AVX512F-NEXT: vpaddq %xmm2, %xmm0, %xmm2
	; AVX512F-NEXT: vpsravq %zmm1, %zmm2, %zmm1			; AVX512F-NEXT: vpsravq %zmm1, %zmm2, %zmm1
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512F-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; AVX512BW-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsraq $63, %xmm0, %xmm1			; AVX512BW-NEXT: vpsraq $63, %xmm0, %xmm1
	; AVX512BW-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; AVX512BW-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; AVX512BW-NEXT: movl $2, %eax			; AVX512BW-NEXT: movl $2, %eax
	; AVX512BW-NEXT: vmovq %rax, %xmm2			; AVX512BW-NEXT: vmovq %rax, %xmm2
	; AVX512BW-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]			; AVX512BW-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6,7]
	; AVX512BW-NEXT: vpsravq %xmm2, %xmm1, %xmm1			; AVX512BW-NEXT: vpsravq %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512BW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; XOP-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; XOP-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm1			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm1
	; XOP-NEXT: vpshlq {{.*}}(%rip), %xmm1, %xmm1			; XOP-NEXT: vpshlq {{.*}}(%rip), %xmm1, %xmm1
	; XOP-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; XOP-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; XOP-NEXT: movq $-2, %rax			; XOP-NEXT: movq $-2, %rax
	▲ Show 20 Lines • Show All 875 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_nonuniform2:			; AVX2-LABEL: combine_vec_sdiv_nonuniform2:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpsraw $1, %xmm0, %xmm1			; AVX2-NEXT: vpsraw $1, %xmm0, %xmm1
	; AVX2-NEXT: vpsraw $2, %xmm0, %xmm2			; AVX2-NEXT: vpsraw $2, %xmm0, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_nonuniform2:			; AVX512F-LABEL: combine_vec_sdiv_nonuniform2:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0			; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vpsraw $1, %xmm0, %xmm1			; AVX512F-NEXT: vpsraw $1, %xmm0, %xmm1
	; AVX512F-NEXT: vpsraw $2, %xmm0, %xmm2			; AVX512F-NEXT: vpsraw $2, %xmm0, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX512F-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: combine_vec_sdiv_nonuniform2:			; AVX512BW-LABEL: combine_vec_sdiv_nonuniform2:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrlw $15, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrlw $15, %xmm0, %xmm1
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_nonuniform3:			; AVX2-LABEL: combine_vec_sdiv_nonuniform3:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpsraw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsraw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpsraw $4, %xmm0, %xmm2			; AVX2-NEXT: vpsraw $4, %xmm0, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_nonuniform3:			; AVX512F-LABEL: combine_vec_sdiv_nonuniform3:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512F-NEXT: vpsraw $8, %xmm0, %xmm1			; AVX512F-NEXT: vpsraw $8, %xmm0, %xmm1
	; AVX512F-NEXT: vpsraw $4, %xmm0, %xmm2			; AVX512F-NEXT: vpsraw $4, %xmm0, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX512F-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: combine_vec_sdiv_nonuniform3:			; AVX512BW-LABEL: combine_vec_sdiv_nonuniform3:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX512BW-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_nonuniform4:			; AVX2-LABEL: combine_vec_sdiv_nonuniform4:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX2-NEXT: vpsubw %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpsubw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpsraw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsraw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpsraw $4, %xmm0, %xmm2			; AVX2-NEXT: vpsraw $4, %xmm0, %xmm2
	; AVX2-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX2-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_nonuniform4:			; AVX512F-LABEL: combine_vec_sdiv_nonuniform4:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX512F-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX512F-NEXT: vpsubw %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpsubw %xmm0, %xmm1, %xmm0
	; AVX512F-NEXT: vpsraw $8, %xmm0, %xmm1			; AVX512F-NEXT: vpsraw $8, %xmm0, %xmm1
	; AVX512F-NEXT: vpsraw $4, %xmm0, %xmm2			; AVX512F-NEXT: vpsraw $4, %xmm0, %xmm2
	; AVX512F-NEXT: vpblendd {{.*#+}} xmm1 = xmm2[0,1],xmm1[2,3]			; AVX512F-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0			; AVX512F-NEXT: vpsrlw $15, %xmm0, %xmm0
	; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: combine_vec_sdiv_nonuniform4:			; AVX512BW-LABEL: combine_vec_sdiv_nonuniform4:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1			; AVX512BW-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm1
	; AVX512BW-NEXT: vpsubw %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpsubw %xmm0, %xmm1, %xmm0
	▲ Show 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: combine_vec_sdiv_nonuniform7:			; SSE41-LABEL: combine_vec_sdiv_nonuniform7:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: psubw %xmm0, %xmm1			; SSE41-NEXT: psubw %xmm0, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_nonuniform7:			; AVX-LABEL: combine_vec_sdiv_nonuniform7:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpsubw %xmm0, %xmm1, %xmm1			; AVX-NEXT: vpsubw %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2ORLATER-LABEL: combine_vec_sdiv_nonuniform7:
	; AVX2ORLATER: # %bb.0:
	; AVX2ORLATER-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2ORLATER-NEXT: vpsubw %xmm0, %xmm1, %xmm1
	; AVX2ORLATER-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2ORLATER-NEXT: retq
	;
	; XOP-LABEL: combine_vec_sdiv_nonuniform7:
	; XOP: # %bb.0:
	; XOP-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; XOP-NEXT: vpsubw %xmm0, %xmm1, %xmm1
	; XOP-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; XOP-NEXT: retq
	%1 = sdiv <8 x i16> %x, <i16 -1, i16 -1, i16 -1, i16 -1, i16 1, i16 1, i16 1, i16 1>			%1 = sdiv <8 x i16> %x, <i16 -1, i16 -1, i16 -1, i16 -1, i16 1, i16 1, i16 1, i16 1>
	ret <8 x i16> %1			ret <8 x i16> %1
	}			}

	define <16 x i8> @pr38658(<16 x i8> %x) {			define <16 x i8> @pr38658(<16 x i8> %x) {
	; SSE2-LABEL: pr38658:			; SSE2-LABEL: pr38658:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
	▲ Show 20 Lines • Show All 154 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/commute-blend-sse41.ll

	Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; Test case for a crash that occurred due to blendi being commuted to			; Test case for a crash that occurred due to blendi being commuted to
	; movsd during two address instruction pass. The change in number of operands			; movsd during two address instruction pass. The change in number of operands
	; caused a bad call to getOperand. This caused the revert in r354713.			; caused a bad call to getOperand. This caused the revert in r354713.
	%struct.spam = type { i64, i64 }			%struct.spam = type { i64, i64 }

	define void @baz(<2 x i64>* %arg, %struct.spam* %arg1) optsize {			define void @baz(<2 x i64>* %arg, %struct.spam* %arg1) optsize {
	; CHECK-LABEL: baz:			; CHECK-LABEL: baz:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: movapd (%rdi), %xmm0			; CHECK-NEXT: movaps (%rdi), %xmm0
	; CHECK-NEXT: movapd {{.*#+}} xmm1 = [3,3]			; CHECK-NEXT: movaps {{.*#+}} xmm1 = [3,3]
	; CHECK-NEXT: andpd %xmm0, %xmm1			; CHECK-NEXT: andps %xmm0, %xmm1
	; CHECK-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]			; CHECK-NEXT: blendps {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3]
	; CHECK-NEXT: movupd %xmm1, (%rsi)			; CHECK-NEXT: movups %xmm1, (%rsi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	%tmp = load <2 x i64>, <2 x i64>* %arg, align 16			%tmp = load <2 x i64>, <2 x i64>* %arg, align 16
	%tmp2 = and <2 x i64> %tmp, <i64 3, i64 3>			%tmp2 = and <2 x i64> %tmp, <i64 3, i64 3>
	%tmp3 = getelementptr inbounds %struct.spam, %struct.spam* %arg1, i64 0, i32 0			%tmp3 = getelementptr inbounds %struct.spam, %struct.spam* %arg1, i64 0, i32 0
	%tmp4 = extractelement <2 x i64> %tmp, i32 0			%tmp4 = extractelement <2 x i64> %tmp, i32 0
	store i64 %tmp4, i64* %tmp3, align 8			store i64 %tmp4, i64* %tmp3, align 8
	%tmp5 = getelementptr inbounds %struct.spam, %struct.spam* %arg1, i64 0, i32 1			%tmp5 = getelementptr inbounds %struct.spam, %struct.spam* %arg1, i64 0, i32 1
	%tmp6 = extractelement <2 x i64> %tmp2, i32 1			%tmp6 = extractelement <2 x i64> %tmp2, i32 1
	store i64 %tmp6, i64* %tmp5, align 8			store i64 %tmp6, i64* %tmp5, align 8
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/insertelement-ones.ll

	Show All 24 Lines
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: insert_v2i64_x1:			; SSE41-LABEL: insert_v2i64_x1:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm1			; SSE41-NEXT: pcmpeqd %xmm1, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: insert_v2i64_x1:			; AVX-LABEL: insert_v2i64_x1:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: insert_v2i64_x1:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: insert_v2i64_x1:
	; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX512-NEXT: retq
	%1 = insertelement <2 x i64> %a, i64 -1, i32 0			%1 = insertelement <2 x i64> %a, i64 -1, i32 0
	ret <2 x i64> %1			ret <2 x i64> %1
	}			}

	define <4 x i64> @insert_v4i64_01x3(<4 x i64> %a) {			define <4 x i64> @insert_v4i64_01x3(<4 x i64> %a) {
	; SSE2-LABEL: insert_v4i64_01x3:			; SSE2-LABEL: insert_v4i64_01x3:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movlpd {{.*#+}} xmm1 = mem[0],xmm1[1]			; SSE2-NEXT: movlpd {{.*#+}} xmm1 = mem[0],xmm1[1]
	▲ Show 20 Lines • Show All 424 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/lower-vec-shift.ll

	Show All 37 Lines
	; SSE-LABEL: test2:			; SSE-LABEL: test2:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: psrlw $3, %xmm1			; SSE-NEXT: psrlw $3, %xmm1
	; SSE-NEXT: psrlw $2, %xmm0			; SSE-NEXT: psrlw $2, %xmm0
	; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test2:			; AVX-LABEL: test2:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX-NEXT: vpsrlw $2, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlw $3, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test2:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlw $2, %xmm0, %xmm1
	; AVX2-NEXT: vpsrlw $3, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: retq
	%lshr = lshr <8 x i16> %a, <i16 3, i16 3, i16 3, i16 3, i16 2, i16 2, i16 2, i16 2>			%lshr = lshr <8 x i16> %a, <i16 3, i16 3, i16 3, i16 3, i16 2, i16 2, i16 2, i16 2>
	ret <8 x i16> %lshr			ret <8 x i16> %lshr
	}			}

	define <4 x i32> @test3(<4 x i32> %a) {			define <4 x i32> @test3(<4 x i32> %a) {
	; SSE-LABEL: test3:			; SSE-LABEL: test3:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; SSE-LABEL: test6:			; SSE-LABEL: test6:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: psraw $3, %xmm1			; SSE-NEXT: psraw $3, %xmm1
	; SSE-NEXT: psraw $2, %xmm0			; SSE-NEXT: psraw $2, %xmm0
	; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test6:			; AVX-LABEL: test6:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpsraw $2, %xmm0, %xmm1			; AVX-NEXT: vpsraw $2, %xmm0, %xmm1
	; AVX1-NEXT: vpsraw $3, %xmm0, %xmm0			; AVX-NEXT: vpsraw $3, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: test6:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vpsraw $2, %xmm0, %xmm1
	; AVX2-NEXT: vpsraw $3, %xmm0, %xmm0
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: retq
	%lshr = ashr <8 x i16> %a, <i16 3, i16 3, i16 3, i16 3, i16 2, i16 2, i16 2, i16 2>			%lshr = ashr <8 x i16> %a, <i16 3, i16 3, i16 3, i16 3, i16 2, i16 2, i16 2, i16 2>
	ret <8 x i16> %lshr			ret <8 x i16> %lshr
	}			}

	define <4 x i32> @test7(<4 x i32> %a) {			define <4 x i32> @test7(<4 x i32> %a) {
	; SSE-LABEL: test7:			; SSE-LABEL: test7:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sse2.ll

	Show First 20 Lines • Show All 688 Lines • ▼ Show 20 Lines
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: movq %xmm0, %rax			; X64-SSE-NEXT: movq %xmm0, %rax
	; X64-SSE-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000			; X64-SSE-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-SSE-NEXT: andq %rax, %rcx			; X64-SSE-NEXT: andq %rax, %rcx
	; X64-SSE-NEXT: movq %rcx, %xmm1			; X64-SSE-NEXT: movq %rcx, %xmm1
	; X64-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X64-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX1-LABEL: PR19721:			; X64-AVX-LABEL: PR19721:
	; X64-AVX1: # %bb.0:			; X64-AVX: # %bb.0:
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000			; X64-AVX-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-AVX1-NEXT: andq %rax, %rcx			; X64-AVX-NEXT: andq %rax, %rcx
	; X64-AVX1-NEXT: vmovq %rcx, %xmm1			; X64-AVX-NEXT: vmovq %rcx, %xmm1
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; X64-AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; X64-AVX1-NEXT: retq			; X64-AVX-NEXT: retq
	;
	; X64-AVX512-LABEL: PR19721:
	; X64-AVX512: # %bb.0:
	; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: movabsq $-4294967296, %rcx # imm = 0xFFFFFFFF00000000
	; X64-AVX512-NEXT: andq %rax, %rcx
	; X64-AVX512-NEXT: vmovq %rcx, %xmm1
	; X64-AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; X64-AVX512-NEXT: retq
	%bc = bitcast <4 x i32> %i to i128			%bc = bitcast <4 x i32> %i to i128
	%insert = and i128 %bc, -4294967296			%insert = and i128 %bc, -4294967296
	%bc2 = bitcast i128 %insert to <4 x i32>			%bc2 = bitcast i128 %insert to <4 x i32>
	ret <4 x i32> %bc2			ret <4 x i32> %bc2
	}			}

	define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {			define <4 x i32> @test_mul(<4 x i32> %x, <4 x i32> %y) {
	; SSE-LABEL: test_mul:			; SSE-LABEL: test_mul:
	Show All 17 Lines

llvm/trunk/test/CodeGen/X86/vector-narrow-binop.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pxor %xmm2, %xmm2			; SSE-NEXT: pxor %xmm2, %xmm2
	; SSE-NEXT: psubd %xmm0, %xmm2			; SSE-NEXT: psubd %xmm0, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]			; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: movaps %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: PR39893:			; AVX-LABEL: PR39893:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm0			; AVX-NEXT: vpsubd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2],zero,xmm0[3],zero,xmm0[2],zero,xmm0[3],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2],zero,xmm0[3],zero,xmm0[2],zero,xmm0[3],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2-LABEL: PR39893:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpsubd %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2],zero,xmm0[3],zero,xmm0[2],zero,xmm0[3],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: PR39893:
	; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512-NEXT: vpsubd %xmm0, %xmm2, %xmm0
	; AVX512-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2],zero,xmm0[3],zero,xmm0[2],zero,xmm0[3],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero
	; AVX512-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX512-NEXT: retq
	%sub = sub <2 x i32> <i32 0, i32 undef>, %x			%sub = sub <2 x i32> <i32 0, i32 undef>, %x
	%bc = bitcast <2 x i32> %sub to <8 x i8>			%bc = bitcast <2 x i32> %sub to <8 x i8>
	%shuffle = shufflevector <8 x i8> %y, <8 x i8> %bc, <2 x i32> <i32 10, i32 4>			%shuffle = shufflevector <8 x i8> %y, <8 x i8> %bc, <2 x i32> <i32 10, i32 4>
	ret <2 x i8> %shuffle			ret <2 x i8> %shuffle
	}			}

	define <2 x i8> @PR39893_2(<2 x float> %x) {			define <2 x i8> @PR39893_2(<2 x float> %x) {
	; SSE-LABEL: PR39893_2:			; SSE-LABEL: PR39893_2:
	Show All 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v4.ll

	Show First 20 Lines • Show All 2,130 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: insert_reg_lo_v4i32:			; SSE41-LABEL: insert_reg_lo_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movq %rdi, %xmm1			; SSE41-NEXT: movq %rdi, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: insert_reg_lo_v4i32:			; AVX-LABEL: insert_reg_lo_v4i32:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vmovq %rdi, %xmm1			; AVX-NEXT: vmovq %rdi, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2OR512VL-LABEL: insert_reg_lo_v4i32:
	; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vmovq %rdi, %xmm1
	; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3]
	; AVX2OR512VL-NEXT: retq
	%a.cast = bitcast i64 %a to <2 x i32>			%a.cast = bitcast i64 %a to <2 x i32>
	%v = shufflevector <2 x i32> %a.cast, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>			%v = shufflevector <2 x i32> %a.cast, <2 x i32> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
	%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>			%shuffle = shufflevector <4 x i32> %v, <4 x i32> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 7>
	ret <4 x i32> %shuffle			ret <4 x i32> %shuffle
	}			}

	define <4 x i32> @insert_mem_lo_v4i32(<2 x i32>* %ptr, <4 x i32> %b) {			define <4 x i32> @insert_mem_lo_v4i32(<2 x i32>* %ptr, <4 x i32> %b) {
	; SSE2-LABEL: insert_mem_lo_v4i32:			; SSE2-LABEL: insert_mem_lo_v4i32:
	▲ Show 20 Lines • Show All 215 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-128-v8.ll

	Show First 20 Lines • Show All 1,149 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: shuffle_v8i16_0213cedf:			; AVX2-SLOW-LABEL: shuffle_v8i16_0213cedf:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]			; AVX2-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]
	; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX2-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX2-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: shuffle_v8i16_0213cedf:			; AVX2-FAST-LABEL: shuffle_v8i16_0213cedf:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]
	; AVX2-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX2-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512VL-SLOW-LABEL: shuffle_v8i16_0213cedf:			; AVX512VL-SLOW-LABEL: shuffle_v8i16_0213cedf:
	; AVX512VL-SLOW: # %bb.0:			; AVX512VL-SLOW: # %bb.0:
	; AVX512VL-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]			; AVX512VL-SLOW-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,5,7]
	; AVX512VL-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX512VL-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX512VL-SLOW-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX512VL-SLOW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX512VL-SLOW-NEXT: retq			; AVX512VL-SLOW-NEXT: retq
	;			;
	; AVX512VL-FAST-LABEL: shuffle_v8i16_0213cedf:			; AVX512VL-FAST-LABEL: shuffle_v8i16_0213cedf:
	; AVX512VL-FAST: # %bb.0:			; AVX512VL-FAST: # %bb.0:
	; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]			; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[8,9,12,13,10,11,14,15,8,9,12,13,10,11,14,15]
	; AVX512VL-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]			; AVX512VL-FAST-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,1,3,4,5,6,7]
	; AVX512VL-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512VL-FAST-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-FAST-NEXT: retq			; AVX512VL-FAST-NEXT: retq
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v8i16_032dXXXX:			; SSE41-LABEL: shuffle_v8i16_032dXXXX:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3]			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v8i16_032dXXXX:			; AVX-LABEL: shuffle_v8i16_032dXXXX:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3]			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2OR512VL-LABEL: shuffle_v8i16_032dXXXX:
	; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,6,7,4,5,10,11,0,1,10,11,0,1,2,3]
	; AVX2OR512VL-NEXT: retq
	%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 0, i32 3, i32 2, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 0, i32 3, i32 2, i32 13, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <8 x i16> %shuffle			ret <8 x i16> %shuffle
	}			}
	define <8 x i16> @shuffle_v8i16_XXXdXXXX(<8 x i16> %a, <8 x i16> %b) {			define <8 x i16> @shuffle_v8i16_XXXdXXXX(<8 x i16> %a, <8 x i16> %b) {
	; SSE-LABEL: shuffle_v8i16_XXXdXXXX:			; SSE-LABEL: shuffle_v8i16_XXXdXXXX:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,2,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,2,3,3]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: shuffle_v8i16_012dcde3:			; SSE41-LABEL: shuffle_v8i16_012dcde3:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v8i16_012dcde3:			; AVX-LABEL: shuffle_v8i16_012dcde3:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]			; AVX-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2OR512VL-LABEL: shuffle_v8i16_012dcde3:
	; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,2,3,4,5,10,11,8,9,10,11,12,13,6,7]
	; AVX2OR512VL-NEXT: retq
	%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 13, i32 12, i32 13, i32 14, i32 3>			%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 13, i32 12, i32 13, i32 14, i32 3>
	ret <8 x i16> %shuffle			ret <8 x i16> %shuffle
	}			}

	define <8 x i16> @shuffle_v8i16_0923cde7(<8 x i16> %a, <8 x i16> %b) {			define <8 x i16> @shuffle_v8i16_0923cde7(<8 x i16> %a, <8 x i16> %b) {
	; SSE2-LABEL: shuffle_v8i16_0923cde7:			; SSE2-LABEL: shuffle_v8i16_0923cde7:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps {{.*#+}} xmm2 = [65535,0,65535,65535,0,0,0,65535]			; SSE2-NEXT: movaps {{.*#+}} xmm2 = [65535,0,65535,65535,0,0,0,65535]
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: shuffle_v8i16_XX4X8acX:			; SSE41-LABEL: shuffle_v8i16_XX4X8acX:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]			; SSE41-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: shuffle_v8i16_XX4X8acX:			; AVX-LABEL: shuffle_v8i16_XX4X8acX:
	; AVX1: # %bb.0:			; AVX: # %bb.0:
	; AVX1-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]			; AVX-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX-NEXT: retq
	;
	; AVX2OR512VL-LABEL: shuffle_v8i16_XX4X8acX:
	; AVX2OR512VL: # %bb.0:
	; AVX2OR512VL-NEXT: vpshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,4,5]
	; AVX2OR512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; AVX2OR512VL-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2OR512VL-NEXT: retq
	%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 8, i32 10, i32 12, i32 undef>			%shuffle = shufflevector <8 x i16> %a, <8 x i16> %b, <8 x i32> <i32 undef, i32 undef, i32 4, i32 undef, i32 8, i32 10, i32 12, i32 undef>
	ret <8 x i16> %shuffle			ret <8 x i16> %shuffle
	}			}

	define <8 x i16> @shuffle_v8i16_8zzzzzzz(i16 %i) {			define <8 x i16> @shuffle_v8i16_8zzzzzzz(i16 %i) {
	; SSE-LABEL: shuffle_v8i16_8zzzzzzz:			; SSE-LABEL: shuffle_v8i16_8zzzzzzz:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movzwl %di, %eax			; SSE-NEXT: movzwl %di, %eax
	▲ Show 20 Lines • Show All 1,258 Lines • Show Last 20 Lines