This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] loosen restriction for creating narrow vector load from extract(wide load)
AbandonedPublic

Authored by spatel on Jun 3 2017, 9:10 AM.

Download Raw Diff

Details

Reviewers

niravd
RKSimon
efriedma
tstellar
t.p.northover
arsenm

Summary

This is a follow-up to the change in D33578 that introduced this transform:
(extract_subvector (load wide vector)) --> (load narrow vector)

Diff Detail

Event Timeline

spatel created this revision.Jun 3 2017, 9:10 AM

Herald added subscribers: kristof.beyls, tpr, javed.absar and 4 others. · View Herald TranscriptJun 3 2017, 9:10 AM

niravd added inline comments.Jun 3 2017, 8:53 PM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14674	This is condition looks like it's going to trigger differently on different indexes combining consecutive subvectors extracted from the same larger vector. This is why the vec_int_to_fp case still has a load to zmm0 (see other comment) It seems like what we'd like to do is check that all uses of Ld are cheap if there is more than one use (and then convert all uses simulatenously). That said, I think checking freeness/cheapness for each possible ExtIdxValue is the way to go.
test/CodeGen/X86/vec_int_to_fp.ll
3579–3580	We're only partially converting the load-extracts here. there should only be a load to zmmX and extracts or 4 direct loads to xmmX.

spatel added inline comments.Jun 4 2017, 7:34 AM

test/CodeGen/X86/vec_int_to_fp.ll
3579–3580	Agreed - that's what I meant in the description when I said that these diffs might be seen as bugs in isExtractSubvectorCheap(). In this case, x86 has made it cheap to extract from index 0 or one other index: return (Index == 0 \|\| Index == ResVT.getVectorNumElements()); Clearly, this was only tested with cases where we are extracting a half-sized vector. So it misses 2 out of the N/4 possibilities for AVX512 in this test. I think this change is still an improvement (but not ideal of course), but my goal with this patch was really to answer the questions for the non-x86 diffs. I could just skip this step and post the more liberal patch with more test diffs if that seems better.

All of the AMDGPU test changes are regressions.

It looks like most of the AMDGPU cases fail because:

TLI.isExtractSubvectorCheap(VT, ExtIdxValue) is not defined for AMDGPU.
Legalization breaks sign-/zero-extended vectors into a concat of smaller subvectors.

The former seems easy for someone who knows AMDGPU to correct.

In D33866#772755, @niravd wrote:

It looks like most of the AMDGPU cases fail because:

TLI.isExtractSubvectorCheap(VT, ExtIdxValue) is not defined for AMDGPU.

Legalization breaks sign-/zero-extended vectors into a concat of smaller subvectors.

The former seems easy for someone who knows AMDGPU to correct.

Actually, I see another way out. I missed this TLI hook:

// Return true if it is profitable to reduce the given load node to a smaller
// type.
//
// e.g. (i16 (trunc (i32 (load x))) -> i16 load x should be performed
virtual bool shouldReduceLoadWidth(SDNode *Load,
                                   ISD::LoadExtType ExtTy,
                                   EVT NewVT) const {
  return true;
}

This was originally added for AMDGPU (rL224084), so that should prevent the regressions.

Patch updated:

Remove the one-use restriction.
Add the TLI..shouldReduceLoadWidth() predicate.

So now we see the full effect on x86, sidestep the AMDGPU problems, but seem to have introduced some ARM regressions.

AFAICT, the x86 diffs are all wins. This includes an improvement to select non-temporal loads where we failed to do so before.

spatel mentioned this in D33728: [X86][SSE] Improve handling of non-temporal aligned loads.Jun 5 2017, 9:11 AM

Patch updated:
Rebased after rL304718 - the AVX1 non-temporal isel got fixed there, so now we just see different scheduling in those tests.

The diffs to the ARM tests are clearly no good: you're splitting 128-bit vector loads into two 64-bit vector loads for no benefit.

You're generating fewer instructions on x86, but it's not obvious it's beneficial; you get rid of the EXTRACT_SUBVECTOR operations, but the end result is a lot more instructions with memory operands.

test/CodeGen/AArch64/arm64-vabs.ll
141	We need to generate more complete checks for these tests... but I would guess this is adding extra instructions.

spatel mentioned this in D33938: [x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32-byte load.Jun 6 2017, 6:43 AM

spatel mentioned this in rL305171: [x86] use vperm2f128 rather than vinsertf128 when there's a chance to fold a 32….Jun 11 2017, 2:19 PM

arsenm resigned from this revision.Feb 21 2019, 6:57 PM

is this still relevant? abandon?

In D33866#1653879, @RKSimon wrote:

is this still relevant? abandon?

Abandoning. It's too big of a change even with the predicating TLI hook. We've probably already improved some of the x86 tests with other patches.

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

11 lines

test/

CodeGen/

AArch64/

arm64-vabs.ll

6 lines

merge-store.ll

2 lines

ARM/

3 lines

8 lines

41 lines

7 lines

X86/

10 lines

14 lines

68 lines

144 lines

59 lines

6 lines

5 lines

shuffle-vs-trunc-256.ll

218 lines

shuffle-vs-trunc-512.ll

32 lines

subvector-broadcast.ll

29 lines

vec_int_to_fp.ll

1119 lines

vector-compare-results.ll

70 lines

vector-shift-ashr-256.ll

46 lines

vector-shift-lshr-256.ll

20 lines

vector-shift-shl-256.ll

20 lines

viabs.ll

34 lines

x86-interleaved-access.ll

84 lines

Diff 101415

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 14,653 Lines • ▼ Show 20 Lines
	/// If we are extracting a subvector from a wide vector load, convert to a			/// If we are extracting a subvector from a wide vector load, convert to a
	/// narrow load to eliminate the extraction:			/// narrow load to eliminate the extraction:
	/// (extract_subvector (load wide vector)) --> (load narrow vector)			/// (extract_subvector (load wide vector)) --> (load narrow vector)
	static SDValue narrowExtractedVectorLoad(SDNode *Extract, SelectionDAG &DAG) {			static SDValue narrowExtractedVectorLoad(SDNode *Extract, SelectionDAG &DAG) {
	// TODO: Add support for big-endian. The offset calculation must be adjusted.			// TODO: Add support for big-endian. The offset calculation must be adjusted.
	if (DAG.getDataLayout().isBigEndian())			if (DAG.getDataLayout().isBigEndian())
	return SDValue();			return SDValue();

	// TODO: The one-use check is overly conservative. Check the cost of the
	// extract instead or remove that condition entirely.
	auto *Ld = dyn_cast<LoadSDNode>(Extract->getOperand(0));			auto *Ld = dyn_cast<LoadSDNode>(Extract->getOperand(0));
	auto *ExtIdx = dyn_cast<ConstantSDNode>(Extract->getOperand(1));			auto *ExtIdx = dyn_cast<ConstantSDNode>(Extract->getOperand(1));
	if (!Ld \|\| !Ld->hasOneUse() \|\| Ld->getExtensionType() \|\| Ld->isVolatile() \|\|			if (!ExtIdx \|\| !Ld \|\| Ld->getExtensionType() \|\| Ld->isVolatile())
	!ExtIdx)			return SDValue();

				const TargetLowering &TLI = DAG.getTargetLoweringInfo();
				EVT VT = Extract->getValueType(0);
				if (!TLI.shouldReduceLoadWidth(Ld, Ld->getExtensionType(), VT))
	return SDValue();			return SDValue();

	// The narrow load will be offset from the base address of the old load if			// The narrow load will be offset from the base address of the old load if
	// we are extracting from something besides index 0 (little-endian).			// we are extracting from something besides index 0 (little-endian).
	EVT VT = Extract->getValueType(0);
	SDLoc DL(Extract);			SDLoc DL(Extract);
				niravdUnsubmitted Not Done Reply Inline Actions This is condition looks like it's going to trigger differently on different indexes combining consecutive subvectors extracted from the same larger vector. This is why the vec_int_to_fp case still has a load to zmm0 (see other comment) It seems like what we'd like to do is check that all uses of Ld are cheap if there is more than one use (and then convert all uses simulatenously). That said, I think checking freeness/cheapness for each possible ExtIdxValue is the way to go. niravd: This is condition looks like it's going to trigger differently on different indexes combining…
	SDValue BaseAddr = Ld->getOperand(1);			SDValue BaseAddr = Ld->getOperand(1);
	unsigned Offset = ExtIdx->getZExtValue() * VT.getScalarType().getStoreSize();			unsigned Offset = ExtIdx->getZExtValue() * VT.getScalarType().getStoreSize();

	// TODO: Use "BaseIndexOffset" to make this more effective.			// TODO: Use "BaseIndexOffset" to make this more effective.
	SDValue NewAddr = DAG.getMemBasePlusOffset(BaseAddr, Offset, DL);			SDValue NewAddr = DAG.getMemBasePlusOffset(BaseAddr, Offset, DL);
	MachineFunction &MF = DAG.getMachineFunction();			MachineFunction &MF = DAG.getMachineFunction();
	MachineMemOperand *MMO = MF.getMachineMemOperand(Ld->getMemOperand(), Offset,			MachineMemOperand *MMO = MF.getMachineMemOperand(Ld->getMemOperand(), Offset,
	VT.getStoreSize());			VT.getStoreSize());
	▲ Show 20 Lines • Show All 2,216 Lines • Show Last 20 Lines

test/CodeGen/AArch64/arm64-vabs.ll

Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines	;CHECK: uabdl.2d
%tmp4 = zext <2 x i32> %tmp3 to <2 x i64>		%tmp4 = zext <2 x i32> %tmp3 to <2 x i64>
ret <2 x i64> %tmp4		ret <2 x i64> %tmp4
}		}

declare i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16>)		declare i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16>)

define i16 @uabdl8h_rdx(<16 x i8>* %a, <16 x i8>* %b) {		define i16 @uabdl8h_rdx(<16 x i8>* %a, <16 x i8>* %b) {
; CHECK-LABEL: uabdl8h_rdx		; CHECK-LABEL: uabdl8h_rdx
; CHECK: uabdl2.8h		; CHECK: uabdl.8h
		efriedmaUnsubmitted Not Done Reply Inline Actions We need to generate more complete checks for these tests... but I would guess this is adding extra instructions. efriedma: We need to generate more complete checks for these tests... but I would guess this is adding…
; CHECK: uabdl.8h		; CHECK: uabdl.8h
%aload = load <16 x i8>, <16 x i8>* %a, align 1		%aload = load <16 x i8>, <16 x i8>* %a, align 1
%bload = load <16 x i8>, <16 x i8>* %b, align 1		%bload = load <16 x i8>, <16 x i8>* %b, align 1
%aext = zext <16 x i8> %aload to <16 x i16>		%aext = zext <16 x i8> %aload to <16 x i16>
%bext = zext <16 x i8> %bload to <16 x i16>		%bext = zext <16 x i8> %bload to <16 x i16>
%abdiff = sub nsw <16 x i16> %aext, %bext		%abdiff = sub nsw <16 x i16> %aext, %bext
%abcmp = icmp slt <16 x i16> %abdiff, zeroinitializer		%abcmp = icmp slt <16 x i16> %abdiff, zeroinitializer
%ababs = sub nsw <16 x i16> zeroinitializer, %abdiff		%ababs = sub nsw <16 x i16> zeroinitializer, %abdiff
%absel = select <16 x i1> %abcmp, <16 x i16> %ababs, <16 x i16> %abdiff		%absel = select <16 x i1> %abcmp, <16 x i16> %ababs, <16 x i16> %abdiff
%reduced_v = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %absel)		%reduced_v = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %absel)
ret i16 %reduced_v		ret i16 %reduced_v
}		}

declare i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32>)		declare i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32>)

define i32 @uabdl4s_rdx(<8 x i16>* %a, <8 x i16>* %b) {		define i32 @uabdl4s_rdx(<8 x i16>* %a, <8 x i16>* %b) {
; CHECK-LABEL: uabdl4s_rdx		; CHECK-LABEL: uabdl4s_rdx
; CHECK: uabdl2.4s		; CHECK: uabdl.4s
; CHECK: uabdl.4s		; CHECK: uabdl.4s
%aload = load <8 x i16>, <8 x i16>* %a, align 1		%aload = load <8 x i16>, <8 x i16>* %a, align 1
%bload = load <8 x i16>, <8 x i16>* %b, align 1		%bload = load <8 x i16>, <8 x i16>* %b, align 1
%aext = zext <8 x i16> %aload to <8 x i32>		%aext = zext <8 x i16> %aload to <8 x i32>
%bext = zext <8 x i16> %bload to <8 x i32>		%bext = zext <8 x i16> %bload to <8 x i32>
%abdiff = sub nsw <8 x i32> %aext, %bext		%abdiff = sub nsw <8 x i32> %aext, %bext
%abcmp = icmp slt <8 x i32> %abdiff, zeroinitializer		%abcmp = icmp slt <8 x i32> %abdiff, zeroinitializer
%ababs = sub nsw <8 x i32> zeroinitializer, %abdiff		%ababs = sub nsw <8 x i32> zeroinitializer, %abdiff
%absel = select <8 x i1> %abcmp, <8 x i32> %ababs, <8 x i32> %abdiff		%absel = select <8 x i1> %abcmp, <8 x i32> %ababs, <8 x i32> %abdiff
%reduced_v = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %absel)		%reduced_v = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %absel)
ret i32 %reduced_v		ret i32 %reduced_v
}		}

declare i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64>)		declare i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64>)

define i64 @uabdl2d_rdx(<4 x i32>* %a, <4 x i32>* %b, i32 %h) {		define i64 @uabdl2d_rdx(<4 x i32>* %a, <4 x i32>* %b, i32 %h) {
; CHECK: uabdl2d_rdx		; CHECK: uabdl2d_rdx
; CHECK: uabdl2.2d		; CHECK: uabdl.2d
; CHECK: uabdl.2d		; CHECK: uabdl.2d
%aload = load <4 x i32>, <4 x i32>* %a, align 1		%aload = load <4 x i32>, <4 x i32>* %a, align 1
%bload = load <4 x i32>, <4 x i32>* %b, align 1		%bload = load <4 x i32>, <4 x i32>* %b, align 1
%aext = zext <4 x i32> %aload to <4 x i64>		%aext = zext <4 x i32> %aload to <4 x i64>
%bext = zext <4 x i32> %bload to <4 x i64>		%bext = zext <4 x i32> %bload to <4 x i64>
%abdiff = sub nsw <4 x i64> %aext, %bext		%abdiff = sub nsw <4 x i64> %aext, %bext
%abcmp = icmp slt <4 x i64> %abdiff, zeroinitializer		%abcmp = icmp slt <4 x i64> %abdiff, zeroinitializer
%ababs = sub nsw <4 x i64> zeroinitializer, %abdiff		%ababs = sub nsw <4 x i64> zeroinitializer, %abdiff
▲ Show 20 Lines • Show All 743 Lines • Show Last 20 Lines

test/CodeGen/AArch64/merge-store.ll

	; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK
	; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK

	@g0 = external global <3 x float>, align 16			@g0 = external global <3 x float>, align 16
	@g1 = external global <3 x float>, align 4			@g1 = external global <3 x float>, align 4

	; CHECK: ldr q[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]], :lo12:g0			; CHECK: ldr d[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]], :lo12:g0
	; CHECK: str d[[R0]]			; CHECK: str d[[R0]]

	define void @blam() {			define void @blam() {
	%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0			%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0
	%tmp5 = load <3 x float>, <3 x float>* @g0, align 16			%tmp5 = load <3 x float>, <3 x float>* @g0, align 16
	%tmp6 = extractelement <3 x float> %tmp5, i64 0			%tmp6 = extractelement <3 x float> %tmp5, i64 0
	store float %tmp6, float* %tmp4			store float %tmp6, float* %tmp4
	%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1			%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1
	Show All 37 Lines

test/CodeGen/ARM/combine-vmovdrr.ll

	; RUN: llc %s -o - \| FileCheck %s			; RUN: llc %s -o - \| FileCheck %s

	target triple = "thumbv7s-apple-ios"			target triple = "thumbv7s-apple-ios"

	declare <8 x i8> @llvm.arm.neon.vtbl2(<8 x i8> %shuffle.i.i307, <8 x i8> %shuffle.i27.i308, <8 x i8> %vtbl2.i25.i)			declare <8 x i8> @llvm.arm.neon.vtbl2(<8 x i8> %shuffle.i.i307, <8 x i8> %shuffle.i27.i308, <8 x i8> %vtbl2.i25.i)

	; Check that we get the motivating example:			; Check that we get the motivating example:
	; The bitcasts force the values to go through the GPRs, whereas			; The bitcasts force the values to go through the GPRs, whereas
	; they are defined on VPRs and used on VPRs.			; they are defined on VPRs and used on VPRs.
	;			;
	; CHECK-LABEL: motivatingExample:			; CHECK-LABEL: motivatingExample:
	; CHECK: vldr [[ARG2_VAL:d[0-9]+]], [r1]			; CHECK: vldr [[ARG2_VAL:d[0-9]+]], [r1]
	; CHECK-NEXT: vld1.32 {[[ARG1_VALlo:d[0-9]+]], [[ARG1_VALhi:d[0-9]+]]}, [r0]			; CHECK-NEXT: vld1.8 {[[ARG1_VALlo:d[0-9]+]]}, [r0]
				; CHECK-NEXT: vldr [[ARG1_VALhi:d[0-9]+]], [r0]
	; CHECK-NEXT: vtbl.8 [[RES:d[0-9]+]], {[[ARG1_VALlo]], [[ARG1_VALhi]]}, [[ARG2_VAL]]			; CHECK-NEXT: vtbl.8 [[RES:d[0-9]+]], {[[ARG1_VALlo]], [[ARG1_VALhi]]}, [[ARG2_VAL]]
	; CHECK-NEXT: vstr [[RES]], [r1]			; CHECK-NEXT: vstr [[RES]], [r1]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	define void @motivatingExample(<2 x i64>* %addr, <8 x i8>* %addr2) {			define void @motivatingExample(<2 x i64>* %addr, <8 x i8>* %addr2) {
	%shuffle.i.bc.i309 = load <2 x i64>, <2 x i64>* %addr			%shuffle.i.bc.i309 = load <2 x i64>, <2 x i64>* %addr
	%vtbl2.i25.i = load <8 x i8>, <8 x i8>* %addr2			%vtbl2.i25.i = load <8 x i8>, <8 x i8>* %addr2
	%shuffle.i.extract.i310 = extractelement <2 x i64> %shuffle.i.bc.i309, i32 0			%shuffle.i.extract.i310 = extractelement <2 x i64> %shuffle.i.bc.i309, i32 0
	%shuffle.i27.extract.i311 = extractelement <2 x i64> %shuffle.i.bc.i309, i32 1			%shuffle.i27.extract.i311 = extractelement <2 x i64> %shuffle.i.bc.i309, i32 1
	▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

test/CodeGen/ARM/vext.ll

Show First 20 Lines • Show All 235 Lines • ▼ Show 20 Lines	; CHECK-NEXT: mov pc, lr
ret <4 x i16> %tmp2		ret <4 x i16> %tmp2
}		}

; We don't handle shuffles using more than half of a 128-bit vector.		; We don't handle shuffles using more than half of a 128-bit vector.
; Again, test for fallback to by-element inserts.		; Again, test for fallback to by-element inserts.
define <4 x i16> @test_largespan(<8 x i16>* %B) nounwind {		define <4 x i16> @test_largespan(<8 x i16>* %B) nounwind {
; CHECK-LABEL: test_largespan:		; CHECK-LABEL: test_largespan:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.16 {d16}, [r0:64]!
; CHECK-NEXT: vorr d18, d16, d16		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vuzp.16 d18, d17		; CHECK-NEXT: vuzp.16 d16, d17
; CHECK-NEXT: vmov r0, r1, d18		; CHECK-NEXT: vmov r0, r1, d16
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp1 = load <8 x i16>, <8 x i16>* %B		%tmp1 = load <8 x i16>, <8 x i16>* %B
%tmp2 = shufflevector <8 x i16> %tmp1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%tmp2 = shufflevector <8 x i16> %tmp1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
ret <4 x i16> %tmp2		ret <4 x i16> %tmp2
}		}

; The actual shuffle code only handles some cases, make sure we check		; The actual shuffle code only handles some cases, make sure we check
; this rather than blindly emitting a VECTOR_SHUFFLE (infinite		; this rather than blindly emitting a VECTOR_SHUFFLE (infinite
▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines

test/CodeGen/ARM/vpadd.ll

Show First 20 Lines • Show All 211 Lines • ▼ Show 20 Lines	; CHECK-NEXT: mov pc, lr
%tmp2 = call <2 x i64> @llvm.arm.neon.vpaddlu.v2i64.v4i32(<4 x i32> %tmp1)		%tmp2 = call <2 x i64> @llvm.arm.neon.vpaddlu.v2i64.v4i32(<4 x i32> %tmp1)
ret <2 x i64> %tmp2		ret <2 x i64> %tmp2
}		}

; Combine vuzp+vadd->vpadd.		; Combine vuzp+vadd->vpadd.
define void @addCombineToVPADD_i8(<16 x i8> %cbcr, <8 x i8> %X) nounwind ssp {		define void @addCombineToVPADD_i8(<16 x i8> %cbcr, <8 x i8> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADD_i8:		; CHECK-LABEL: addCombineToVPADD_i8:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.8 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpadd.i8 d16, d16, d17		; CHECK-NEXT: vpadd.i8 d16, d16, d17
; CHECK-NEXT: vstr d16, [r1]		; CHECK-NEXT: vstr d16, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <16 x i8>, <16 x i8>* %cbcr		%tmp = load <16 x i8>, <16 x i8>* %cbcr
%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>

%add = add <8 x i8> %tmp3, %tmp1		%add = add <8 x i8> %tmp3, %tmp1
store <8 x i8> %add, <8 x i8>* %X, align 8		store <8 x i8> %add, <8 x i8>* %X, align 8
ret void		ret void
}		}

; Combine vuzp+vadd->vpadd.		; Combine vuzp+vadd->vpadd.
define void @addCombineToVPADD_i16(<8 x i16> %cbcr, <4 x i16> %X) nounwind ssp {		define void @addCombineToVPADD_i16(<8 x i16> %cbcr, <4 x i16> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADD_i16:		; CHECK-LABEL: addCombineToVPADD_i16:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.16 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpadd.i16 d16, d16, d17		; CHECK-NEXT: vpadd.i16 d16, d16, d17
; CHECK-NEXT: vstr d16, [r1]		; CHECK-NEXT: vstr d16, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <8 x i16>, <8 x i16>* %cbcr		%tmp = load <8 x i16>, <8 x i16>* %cbcr
%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%add = add <4 x i16> %tmp3, %tmp1		%add = add <4 x i16> %tmp3, %tmp1
store <4 x i16> %add, <4 x i16>* %X, align 8		store <4 x i16> %add, <4 x i16>* %X, align 8
ret void		ret void
}		}

; Combine vtrn+vadd->vpadd.		; Combine vtrn+vadd->vpadd.
define void @addCombineToVPADD_i32(<4 x i32> %cbcr, <2 x i32> %X) nounwind ssp {		define void @addCombineToVPADD_i32(<4 x i32> %cbcr, <2 x i32> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADD_i32:		; CHECK-LABEL: addCombineToVPADD_i32:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.32 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpadd.i32 d16, d16, d17		; CHECK-NEXT: vpadd.i32 d16, d16, d17
; CHECK-NEXT: vstr d16, [r1]		; CHECK-NEXT: vstr d16, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <4 x i32>, <4 x i32>* %cbcr		%tmp = load <4 x i32>, <4 x i32>* %cbcr
%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>		%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>		%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
%add = add <2 x i32> %tmp3, %tmp1		%add = add <2 x i32> %tmp3, %tmp1
store <2 x i32> %add, <2 x i32>* %X, align 8		store <2 x i32> %add, <2 x i32>* %X, align 8
ret void		ret void
}		}

; Combine vuzp+vaddl->vpaddl		; Combine vuzp+vaddl->vpaddl
define void @addCombineToVPADDLq_s8(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {		define void @addCombineToVPADDLq_s8(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_s8:		; CHECK-LABEL: addCombineToVPADDLq_s8:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.8 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.s8 q8, q8		; CHECK-NEXT: vpaddl.s8 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <16 x i8>, <16 x i8>* %cbcr		%tmp = load <16 x i8>, <16 x i8>* %cbcr
%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%tmp4 = sext <8 x i8> %tmp3 to <8 x i16>		%tmp4 = sext <8 x i8> %tmp3 to <8 x i16>
%tmp5 = sext <8 x i8> %tmp1 to <8 x i16>		%tmp5 = sext <8 x i8> %tmp1 to <8 x i16>
Show All 27 Lines	; CHECK-NEXT: mov pc, lr
store <4 x i16> %add, <4 x i16>* %X, align 8		store <4 x i16> %add, <4 x i16>* %X, align 8
ret void		ret void
}		}

; Combine vuzp+vaddl->vpaddl		; Combine vuzp+vaddl->vpaddl
define void @addCombineToVPADDLq_u8(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {		define void @addCombineToVPADDLq_u8(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_u8:		; CHECK-LABEL: addCombineToVPADDLq_u8:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.8 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.u8 q8, q8		; CHECK-NEXT: vpaddl.u8 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <16 x i8>, <16 x i8>* %cbcr		%tmp = load <16 x i8>, <16 x i8>* %cbcr
%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%tmp1 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%tmp3 = shufflevector <16 x i8> %tmp, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%tmp4 = zext <8 x i8> %tmp3 to <8 x i16>		%tmp4 = zext <8 x i8> %tmp3 to <8 x i16>
%tmp5 = zext <8 x i8> %tmp1 to <8 x i16>		%tmp5 = zext <8 x i8> %tmp1 to <8 x i16>
%add = add <8 x i16> %tmp4, %tmp5		%add = add <8 x i16> %tmp4, %tmp5
store <8 x i16> %add, <8 x i16>* %X, align 8		store <8 x i16> %add, <8 x i16>* %X, align 8
ret void		ret void
}		}

; In theory, it's possible to match this to vpaddl, but rearranging the		; In theory, it's possible to match this to vpaddl, but rearranging the
; shuffle is awkward, so this doesn't match at the moment.		; shuffle is awkward, so this doesn't match at the moment.
define void @addCombineToVPADDLq_u8_early_zext(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {		define void @addCombineToVPADDLq_u8_early_zext(<16 x i8> %cbcr, <8 x i16> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_u8_early_zext:		; CHECK-LABEL: addCombineToVPADDLq_u8_early_zext:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.8 {d16}, [r0:64]
; CHECK-NEXT: vmovl.u8 q9, d17		; CHECK-NEXT: add r0, r0, #8
; CHECK-NEXT: vmovl.u8 q8, d16		; CHECK-NEXT: vld1.8 {d17}, [r0:64]
; CHECK-NEXT: vuzp.16 q8, q9		; CHECK-NEXT: vmovl.u8 q9, d16
; CHECK-NEXT: vadd.i16 q8, q8, q9		; CHECK-NEXT: vmovl.u8 q8, d17
		; CHECK-NEXT: vuzp.16 q9, q8
		; CHECK-NEXT: vadd.i16 q8, q9, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <16 x i8>, <16 x i8>* %cbcr		%tmp = load <16 x i8>, <16 x i8>* %cbcr
%tmp1 = zext <16 x i8> %tmp to <16 x i16>		%tmp1 = zext <16 x i8> %tmp to <16 x i16>
%tmp2 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%tmp2 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%tmp3 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%tmp3 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%add = add <8 x i16> %tmp2, %tmp3		%add = add <8 x i16> %tmp2, %tmp3
store <8 x i16> %add, <8 x i16>* %X, align 8		store <8 x i16> %add, <8 x i16>* %X, align 8
Show All 21 Lines	; CHECK-NEXT: mov pc, lr
store <4 x i16> %add, <4 x i16>* %X, align 8		store <4 x i16> %add, <4 x i16>* %X, align 8
ret void		ret void
}		}

; Matching to vpaddl.8 requires matching shuffle(zext()).		; Matching to vpaddl.8 requires matching shuffle(zext()).
define void @addCombineToVPADDL_u8_early_zext(<16 x i8> %cbcr, <4 x i16> %X) nounwind ssp {		define void @addCombineToVPADDL_u8_early_zext(<16 x i8> %cbcr, <4 x i16> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDL_u8_early_zext:		; CHECK-LABEL: addCombineToVPADDL_u8_early_zext:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.8 {d16}, [r0:64]
; CHECK-NEXT: vmovl.u8 q8, d16		; CHECK-NEXT: vmovl.u8 q8, d16
; CHECK-NEXT: vpadd.i16 d16, d16, d17		; CHECK-NEXT: vpadd.i16 d16, d16, d17
; CHECK-NEXT: vstr d16, [r1]		; CHECK-NEXT: vstr d16, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <16 x i8>, <16 x i8>* %cbcr		%tmp = load <16 x i8>, <16 x i8>* %cbcr
%tmp1 = zext <16 x i8> %tmp to <16 x i16>		%tmp1 = zext <16 x i8> %tmp to <16 x i16>
%tmp2 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%tmp2 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%tmp3 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%tmp3 = shufflevector <16 x i16> %tmp1, <16 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%add = add <4 x i16> %tmp2, %tmp3		%add = add <4 x i16> %tmp2, %tmp3
store <4 x i16> %add, <4 x i16>* %X, align 8		store <4 x i16> %add, <4 x i16>* %X, align 8
ret void		ret void
}		}

; Combine vuzp+vaddl->vpaddl		; Combine vuzp+vaddl->vpaddl
define void @addCombineToVPADDLq_s16(<8 x i16> %cbcr, <4 x i32> %X) nounwind ssp {		define void @addCombineToVPADDLq_s16(<8 x i16> %cbcr, <4 x i32> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_s16:		; CHECK-LABEL: addCombineToVPADDLq_s16:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.16 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.s16 q8, q8		; CHECK-NEXT: vpaddl.s16 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <8 x i16>, <8 x i16>* %cbcr		%tmp = load <8 x i16>, <8 x i16>* %cbcr
%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%tmp4 = sext <4 x i16> %tmp3 to <4 x i32>		%tmp4 = sext <4 x i16> %tmp3 to <4 x i32>
%tmp5 = sext <4 x i16> %tmp1 to <4 x i32>		%tmp5 = sext <4 x i16> %tmp1 to <4 x i32>
%add = add <4 x i32> %tmp4, %tmp5		%add = add <4 x i32> %tmp4, %tmp5
store <4 x i32> %add, <4 x i32>* %X, align 8		store <4 x i32> %add, <4 x i32>* %X, align 8
ret void		ret void
}		}

; Combine vuzp+vaddl->vpaddl		; Combine vuzp+vaddl->vpaddl
define void @addCombineToVPADDLq_u16(<8 x i16> %cbcr, <4 x i32> %X) nounwind ssp {		define void @addCombineToVPADDLq_u16(<8 x i16> %cbcr, <4 x i32> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_u16:		; CHECK-LABEL: addCombineToVPADDLq_u16:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.16 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.u16 q8, q8		; CHECK-NEXT: vpaddl.u16 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <8 x i16>, <8 x i16>* %cbcr		%tmp = load <8 x i16>, <8 x i16>* %cbcr
%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%tmp1 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%tmp3 = shufflevector <8 x i16> %tmp, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%tmp4 = zext <4 x i16> %tmp3 to <4 x i32>		%tmp4 = zext <4 x i16> %tmp3 to <4 x i32>
%tmp5 = zext <4 x i16> %tmp1 to <4 x i32>		%tmp5 = zext <4 x i16> %tmp1 to <4 x i32>
%add = add <4 x i32> %tmp4, %tmp5		%add = add <4 x i32> %tmp4, %tmp5
store <4 x i32> %add, <4 x i32>* %X, align 8		store <4 x i32> %add, <4 x i32>* %X, align 8
ret void		ret void
}		}

; Combine vtrn+vaddl->vpaddl		; Combine vtrn+vaddl->vpaddl
define void @addCombineToVPADDLq_s32(<4 x i32> %cbcr, <2 x i64> %X) nounwind ssp {		define void @addCombineToVPADDLq_s32(<4 x i32> %cbcr, <2 x i64> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_s32:		; CHECK-LABEL: addCombineToVPADDLq_s32:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.32 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.s32 q8, q8		; CHECK-NEXT: vpaddl.s32 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <4 x i32>, <4 x i32>* %cbcr		%tmp = load <4 x i32>, <4 x i32>* %cbcr
%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>		%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>		%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
%tmp4 = sext <2 x i32> %tmp3 to <2 x i64>		%tmp4 = sext <2 x i32> %tmp3 to <2 x i64>
%tmp5 = sext <2 x i32> %tmp1 to <2 x i64>		%tmp5 = sext <2 x i32> %tmp1 to <2 x i64>
%add = add <2 x i64> %tmp4, %tmp5		%add = add <2 x i64> %tmp4, %tmp5
store <2 x i64> %add, <2 x i64>* %X, align 8		store <2 x i64> %add, <2 x i64>* %X, align 8
ret void		ret void
}		}

; Combine vtrn+vaddl->vpaddl		; Combine vtrn+vaddl->vpaddl
define void @addCombineToVPADDLq_u32(<4 x i32> %cbcr, <2 x i64> %X) nounwind ssp {		define void @addCombineToVPADDLq_u32(<4 x i32> %cbcr, <2 x i64> %X) nounwind ssp {
; CHECK-LABEL: addCombineToVPADDLq_u32:		; CHECK-LABEL: addCombineToVPADDLq_u32:
; CHECK: @ BB#0:		; CHECK: @ BB#0:
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.32 {d16}, [r0:64]!
		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vpaddl.u32 q8, q8		; CHECK-NEXT: vpaddl.u32 q8, q8
; CHECK-NEXT: vst1.64 {d16, d17}, [r1]		; CHECK-NEXT: vst1.64 {d16, d17}, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp = load <4 x i32>, <4 x i32>* %cbcr		%tmp = load <4 x i32>, <4 x i32>* %cbcr
%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>		%tmp1 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>		%tmp3 = shufflevector <4 x i32> %tmp, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
%tmp4 = zext <2 x i32> %tmp3 to <2 x i64>		%tmp4 = zext <2 x i32> %tmp3 to <2 x i64>
%tmp5 = zext <2 x i32> %tmp1 to <2 x i64>		%tmp5 = zext <2 x i32> %tmp1 to <2 x i64>
▲ Show 20 Lines • Show All 68 Lines • Show Last 20 Lines

test/CodeGen/ARM/vzip.ll

Show First 20 Lines • Show All 325 Lines • ▼ Show 20 Lines	entry:
%0 = shufflevector <2 x i32> %tmp1, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 0, i32 0>		%0 = shufflevector <2 x i32> %tmp1, <2 x i32> undef, <4 x i32> <i32 1, i32 1, i32 0, i32 0>
store <4 x i32> %0, <4 x i32>* %B		store <4 x i32> %0, <4 x i32>* %B
ret void		ret void
}		}

define void @vzip_vext_factor(<8 x i16>* %A, <4 x i16>* %B) {		define void @vzip_vext_factor(<8 x i16>* %A, <4 x i16>* %B) {
; CHECK-LABEL: vzip_vext_factor:		; CHECK-LABEL: vzip_vext_factor:
; CHECK: @ BB#0: @ %entry		; CHECK: @ BB#0: @ %entry
; CHECK-NEXT: vld1.64 {d16, d17}, [r0]		; CHECK-NEXT: vld1.16 {d16}, [r0:64]!
; CHECK-NEXT: vext.16 d18, d16, d17, #1		; CHECK-NEXT: vldr d17, [r0]
; CHECK-NEXT: vext.16 d16, d18, d17, #2		; CHECK-NEXT: vext.16 d16, d16, d17, #1
		; CHECK-NEXT: vext.16 d16, d16, d17, #2
; CHECK-NEXT: vext.16 d16, d16, d16, #1		; CHECK-NEXT: vext.16 d16, d16, d16, #1
; CHECK-NEXT: vstr d16, [r1]		; CHECK-NEXT: vstr d16, [r1]
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
entry:		entry:
%tmp1 = load <8 x i16>, <8 x i16>* %A		%tmp1 = load <8 x i16>, <8 x i16>* %A
%0 = shufflevector <8 x i16> %tmp1, <8 x i16> undef, <4 x i32> <i32 4, i32 4, i32 5, i32 3>		%0 = shufflevector <8 x i16> %tmp1, <8 x i16> undef, <4 x i32> <i32 4, i32 4, i32 5, i32 3>
store <4 x i16> %0, <4 x i16>* %B		store <4 x i16> %0, <4 x i16>* %B
ret void		ret void
Show All 20 Lines

test/CodeGen/X86/avx-vperm2x128.ll

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	entry:
%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>		%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
ret <8 x float> %shuffle		ret <8 x float> %shuffle
}		}

define <8 x float> @shuffle_v8f32_01230123_mem(<8 x float>* %pa, <8 x float>* %pb) nounwind uwtable readnone ssp {		define <8 x float> @shuffle_v8f32_01230123_mem(<8 x float>* %pa, <8 x float>* %pb) nounwind uwtable readnone ssp {
; AVX1-LABEL: shuffle_v8f32_01230123_mem:		; AVX1-LABEL: shuffle_v8f32_01230123_mem:
; AVX1: ## BB#0: ## %entry		; AVX1: ## BB#0: ## %entry
; AVX1-NEXT: vmovaps (%rdi), %ymm0		; AVX1-NEXT: vmovaps (%rdi), %ymm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, (%rdi), %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v8f32_01230123_mem:		; AVX2-LABEL: shuffle_v8f32_01230123_mem:
; AVX2: ## BB#0: ## %entry		; AVX2: ## BB#0: ## %entry
; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = mem[0,1,0,1]		; AVX2-NEXT: vperm2f128 {{.*#+}} ymm0 = mem[0,1,0,1]
; AVX2-NEXT: retq		; AVX2-NEXT: retq
entry:		entry:
%a = load <8 x float>, <8 x float>* %pa		%a = load <8 x float>, <8 x float>* %pa
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	entry:
%a2 = add <16 x i16> %a, <i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1>		%a2 = add <16 x i16> %a, <i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1, i16 1>
%shuffle = shufflevector <16 x i16> %a2, <16 x i16> %b, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%shuffle = shufflevector <16 x i16> %a2, <16 x i16> %b, <16 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <16 x i16> %shuffle		ret <16 x i16> %shuffle
}		}

define <16 x i16> @shuffle_v16i16_4501_mem(<16 x i16>* %a, <16 x i16>* %b) nounwind uwtable readnone ssp {		define <16 x i16> @shuffle_v16i16_4501_mem(<16 x i16>* %a, <16 x i16>* %b) nounwind uwtable readnone ssp {
; AVX1-LABEL: shuffle_v16i16_4501_mem:		; AVX1-LABEL: shuffle_v16i16_4501_mem:
; AVX1: ## BB#0: ## %entry		; AVX1: ## BB#0: ## %entry
; AVX1-NEXT: vmovdqa (%rdi), %ymm0		; AVX1-NEXT: vmovaps (%rsi), %ymm0
; AVX1-NEXT: vmovaps (%rsi), %ymm1		; AVX1-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0		; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: shuffle_v16i16_4501_mem:		; AVX2-LABEL: shuffle_v16i16_4501_mem:
; AVX2: ## BB#0: ## %entry		; AVX2: ## BB#0: ## %entry
; AVX2-NEXT: vmovdqa (%rdi), %ymm0		; AVX2-NEXT: vmovdqa (%rdi), %ymm0
; AVX2-NEXT: vmovdqa (%rsi), %ymm1		; AVX2-NEXT: vmovdqa (%rsi), %ymm1
; AVX2-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0		; AVX2-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
▲ Show 20 Lines • Show All 444 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-vzeroupper.ll

	Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; NO-VZ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; NO-VZ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; NO-VZ-NEXT: jmp do_sse # TAILCALL			; NO-VZ-NEXT: jmp do_sse # TAILCALL
	%add.i = fadd <8 x float> %a, %b			%add.i = fadd <8 x float> %a, %b
	%add.low = call <4 x float> @llvm.x86.avx.vextractf128.ps.256(<8 x float> %add.i, i8 0)			%add.low = call <4 x float> @llvm.x86.avx.vextractf128.ps.256(<8 x float> %add.i, i8 0)
	%call3 = tail call <4 x float> @do_sse(<4 x float> %add.low) nounwind			%call3 = tail call <4 x float> @do_sse(<4 x float> %add.low) nounwind
	ret <4 x float> %call3			ret <4 x float> %call3
	}			}

	;; Test the pass convergence and also that vzeroupper is only issued when necessary,			;; Test the pass convergence and also that vzeroupper is only issued when necessary.
	;; for this function it should be only once			;; For this function, there is no vzeroupper because only half of the 32-byte load was used.

	define <4 x float> @test03(<4 x float> %a, <4 x float> %b) nounwind {			define <4 x float> @test03(<4 x float> %a, <4 x float> %b) nounwind {
	; VZ-LABEL: test03:			; VZ-LABEL: test03:
	; VZ: # BB#0: # %entry			; VZ: # BB#0: # %entry
	; VZ-NEXT: pushq %rbx			; VZ-NEXT: pushq %rbx
	; VZ-NEXT: subq $16, %rsp			; VZ-NEXT: subq $16, %rsp
	; VZ-NEXT: vaddps %xmm1, %xmm0, %xmm0			; VZ-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; VZ-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill			; VZ-NEXT: vmovaps %xmm0, (%rsp) # 16-byte Spill
	; VZ-NEXT: .p2align 4, 0x90			; VZ-NEXT: .p2align 4, 0x90
	; VZ-NEXT: .LBB3_1: # %while.cond			; VZ-NEXT: .LBB3_1: # %while.cond
	; VZ-NEXT: # =>This Inner Loop Header: Depth=1			; VZ-NEXT: # =>This Inner Loop Header: Depth=1
	; VZ-NEXT: callq foo			; VZ-NEXT: callq foo
	; VZ-NEXT: testl %eax, %eax			; VZ-NEXT: testl %eax, %eax
	; VZ-NEXT: jne .LBB3_1			; VZ-NEXT: jne .LBB3_1
	; VZ-NEXT: # BB#2: # %for.body.preheader			; VZ-NEXT: # BB#2: # %for.body.preheader
	; VZ-NEXT: movl $4, %ebx			; VZ-NEXT: movl $4, %ebx
	; VZ-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload			; VZ-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; VZ-NEXT: .p2align 4, 0x90			; VZ-NEXT: .p2align 4, 0x90
	; VZ-NEXT: .LBB3_3: # %for.body			; VZ-NEXT: .LBB3_3: # %for.body
	; VZ-NEXT: # =>This Inner Loop Header: Depth=1			; VZ-NEXT: # =>This Inner Loop Header: Depth=1
	; VZ-NEXT: callq do_sse			; VZ-NEXT: callq do_sse
	; VZ-NEXT: callq do_sse			; VZ-NEXT: callq do_sse
	; VZ-NEXT: vmovaps {{.*}}(%rip), %ymm0			; VZ-NEXT: vmovaps g+{{.*}}(%rip), %xmm0
	; VZ-NEXT: vextractf128 $1, %ymm0, %xmm0
	; VZ-NEXT: vzeroupper
	; VZ-NEXT: callq do_sse			; VZ-NEXT: callq do_sse
	; VZ-NEXT: decl %ebx			; VZ-NEXT: decl %ebx
	; VZ-NEXT: jne .LBB3_3			; VZ-NEXT: jne .LBB3_3
	; VZ-NEXT: # BB#4: # %for.end			; VZ-NEXT: # BB#4: # %for.end
	; VZ-NEXT: addq $16, %rsp			; VZ-NEXT: addq $16, %rsp
	; VZ-NEXT: popq %rbx			; VZ-NEXT: popq %rbx
	; VZ-NEXT: retq			; VZ-NEXT: retq
	;			;
	Show All 12 Lines
	; FAST-YMM-ZMM-NEXT: # BB#2: # %for.body.preheader			; FAST-YMM-ZMM-NEXT: # BB#2: # %for.body.preheader
	; FAST-YMM-ZMM-NEXT: movl $4, %ebx			; FAST-YMM-ZMM-NEXT: movl $4, %ebx
	; FAST-YMM-ZMM-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload			; FAST-YMM-ZMM-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; FAST-YMM-ZMM-NEXT: .p2align 4, 0x90			; FAST-YMM-ZMM-NEXT: .p2align 4, 0x90
	; FAST-YMM-ZMM-NEXT: .LBB3_3: # %for.body			; FAST-YMM-ZMM-NEXT: .LBB3_3: # %for.body
	; FAST-YMM-ZMM-NEXT: # =>This Inner Loop Header: Depth=1			; FAST-YMM-ZMM-NEXT: # =>This Inner Loop Header: Depth=1
	; FAST-YMM-ZMM-NEXT: callq do_sse			; FAST-YMM-ZMM-NEXT: callq do_sse
	; FAST-YMM-ZMM-NEXT: callq do_sse			; FAST-YMM-ZMM-NEXT: callq do_sse
	; FAST-YMM-ZMM-NEXT: vmovaps {{.*}}(%rip), %ymm0			; FAST-YMM-ZMM-NEXT: vmovaps g+{{.*}}(%rip), %xmm0
	; FAST-YMM-ZMM-NEXT: vextractf128 $1, %ymm0, %xmm0
	; FAST-YMM-ZMM-NEXT: callq do_sse			; FAST-YMM-ZMM-NEXT: callq do_sse
	; FAST-YMM-ZMM-NEXT: decl %ebx			; FAST-YMM-ZMM-NEXT: decl %ebx
	; FAST-YMM-ZMM-NEXT: jne .LBB3_3			; FAST-YMM-ZMM-NEXT: jne .LBB3_3
	; FAST-YMM-ZMM-NEXT: # BB#4: # %for.end			; FAST-YMM-ZMM-NEXT: # BB#4: # %for.end
	; FAST-YMM-ZMM-NEXT: addq $16, %rsp			; FAST-YMM-ZMM-NEXT: addq $16, %rsp
	; FAST-YMM-ZMM-NEXT: popq %rbx			; FAST-YMM-ZMM-NEXT: popq %rbx
	; FAST-YMM-ZMM-NEXT: retq			; FAST-YMM-ZMM-NEXT: retq
	;			;
	Show All 12 Lines
	; BTVER2-NEXT: # BB#2: # %for.body.preheader			; BTVER2-NEXT: # BB#2: # %for.body.preheader
	; BTVER2-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload			; BTVER2-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; BTVER2-NEXT: movl $4, %ebx			; BTVER2-NEXT: movl $4, %ebx
	; BTVER2-NEXT: .p2align 4, 0x90			; BTVER2-NEXT: .p2align 4, 0x90
	; BTVER2-NEXT: .LBB3_3: # %for.body			; BTVER2-NEXT: .LBB3_3: # %for.body
	; BTVER2-NEXT: # =>This Inner Loop Header: Depth=1			; BTVER2-NEXT: # =>This Inner Loop Header: Depth=1
	; BTVER2-NEXT: callq do_sse			; BTVER2-NEXT: callq do_sse
	; BTVER2-NEXT: callq do_sse			; BTVER2-NEXT: callq do_sse
	; BTVER2-NEXT: vmovaps {{.*}}(%rip), %ymm0			; BTVER2-NEXT: vmovaps g+{{.*}}(%rip), %xmm0
	; BTVER2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; BTVER2-NEXT: callq do_sse			; BTVER2-NEXT: callq do_sse
	; BTVER2-NEXT: decl %ebx			; BTVER2-NEXT: decl %ebx
	; BTVER2-NEXT: jne .LBB3_3			; BTVER2-NEXT: jne .LBB3_3
	; BTVER2-NEXT: # BB#4: # %for.end			; BTVER2-NEXT: # BB#4: # %for.end
	; BTVER2-NEXT: addq $16, %rsp			; BTVER2-NEXT: addq $16, %rsp
	; BTVER2-NEXT: popq %rbx			; BTVER2-NEXT: popq %rbx
	; BTVER2-NEXT: retq			; BTVER2-NEXT: retq
	entry:			entry:
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-cvt.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	%b = sitofp <2 x i64> %a to <2 x float>			%b = sitofp <2 x i64> %a to <2 x float>
	ret <2 x float>%b			ret <2 x float>%b
	}			}

	define <4 x float> @sltof4f32_mem(<4 x i64>* %a) {			define <4 x float> @sltof4f32_mem(<4 x i64>* %a) {
	; KNL-LABEL: sltof4f32_mem:			; NODQ-LABEL: sltof4f32_mem:
	; KNL: # BB#0:			; NODQ: # BB#0:
	; KNL-NEXT: vmovdqu (%rdi), %ymm0			; NODQ-NEXT: vmovdqu (%rdi), %xmm0
	; KNL-NEXT: vpextrq $1, %xmm0, %rax			; NODQ-NEXT: vmovdqu 16(%rdi), %xmm1
	; KNL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; NODQ-NEXT: vpextrq $1, %xmm0, %rax
	; KNL-NEXT: vmovq %xmm0, %rax			; NODQ-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; KNL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; NODQ-NEXT: vmovq %xmm0, %rax
	; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]			; NODQ-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0			; NODQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; KNL-NEXT: vmovq %xmm0, %rax			; NODQ-NEXT: vmovq %xmm1, %rax
	; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; NODQ-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; KNL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; NODQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
	; KNL-NEXT: vpextrq $1, %xmm0, %rax			; NODQ-NEXT: vpextrq $1, %xmm1, %rax
	; KNL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; NODQ-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
	; KNL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; NODQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; KNL-NEXT: retq			; NODQ-NEXT: retq
	;			;
	; VLDQ-LABEL: sltof4f32_mem:			; VLDQ-LABEL: sltof4f32_mem:
	; VLDQ: # BB#0:			; VLDQ: # BB#0:
	; VLDQ-NEXT: vcvtqq2psy (%rdi), %xmm0			; VLDQ-NEXT: vcvtqq2psy (%rdi), %xmm0
	; VLDQ-NEXT: retq			; VLDQ-NEXT: retq
	;			;
	; VLNODQ-LABEL: sltof4f32_mem:
	; VLNODQ: # BB#0:
	; VLNODQ-NEXT: vmovdqu (%rdi), %ymm0
	; VLNODQ-NEXT: vpextrq $1, %xmm0, %rax
	; VLNODQ-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; VLNODQ-NEXT: vmovq %xmm0, %rax
	; VLNODQ-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; VLNODQ-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; VLNODQ-NEXT: vextracti128 $1, %ymm0, %xmm0
	; VLNODQ-NEXT: vmovq %xmm0, %rax
	; VLNODQ-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; VLNODQ-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; VLNODQ-NEXT: vpextrq $1, %xmm0, %rax
	; VLNODQ-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; VLNODQ-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; VLNODQ-NEXT: vzeroupper
	; VLNODQ-NEXT: retq
	;
	; AVX512DQ-LABEL: sltof4f32_mem:			; AVX512DQ-LABEL: sltof4f32_mem:
	; AVX512DQ: # BB#0:			; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vmovups (%rdi), %ymm0			; AVX512DQ-NEXT: vmovups (%rdi), %ymm0
	; AVX512DQ-NEXT: vcvtqq2ps %zmm0, %ymm0			; AVX512DQ-NEXT: vcvtqq2ps %zmm0, %ymm0
	; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;
	; AVX512BW-LABEL: sltof4f32_mem:
	; AVX512BW: # BB#0:
	; AVX512BW-NEXT: vmovdqu (%rdi), %ymm0
	; AVX512BW-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512BW-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX512BW-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX512BW-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512BW-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512BW-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX512BW-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq
	%a1 = load <4 x i64>, <4 x i64>* %a, align 8			%a1 = load <4 x i64>, <4 x i64>* %a, align 8
	%b = sitofp <4 x i64> %a1 to <4 x float>			%b = sitofp <4 x i64> %a1 to <4 x float>
	ret <4 x float>%b			ret <4 x float>%b
	}			}

	define <4 x i64> @f64tosl(<4 x double> %a) {			define <4 x i64> @f64tosl(<4 x double> %a) {
	; NODQ-LABEL: f64tosl:			; NODQ-LABEL: f64tosl:
	; NODQ: # BB#0:			; NODQ: # BB#0:
	▲ Show 20 Lines • Show All 1,420 Lines • Show Last 20 Lines

test/CodeGen/X86/nontemporal-loads.ll

	Show First 20 Lines • Show All 804 Lines • ▼ Show 20 Lines
	; SSE-LABEL: test_arg_v8i32:			; SSE-LABEL: test_arg_v8i32:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: paddd (%rdi), %xmm0			; SSE-NEXT: paddd (%rdi), %xmm0
	; SSE-NEXT: paddd 16(%rdi), %xmm1			; SSE-NEXT: paddd 16(%rdi), %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v8i32:			; AVX1-LABEL: test_arg_v8i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm1			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v8i32:			; AVX2-LABEL: test_arg_v8i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm1			; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; SSE-LABEL: test_arg_v4i64:			; SSE-LABEL: test_arg_v4i64:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: paddq (%rdi), %xmm0			; SSE-NEXT: paddq (%rdi), %xmm0
	; SSE-NEXT: paddq 16(%rdi), %xmm1			; SSE-NEXT: paddq 16(%rdi), %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v4i64:			; AVX1-LABEL: test_arg_v4i64:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm1			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vpaddq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v4i64:			; AVX2-LABEL: test_arg_v4i64:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm1			; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 11 Lines
	; SSE-LABEL: test_arg_v16i16:			; SSE-LABEL: test_arg_v16i16:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: paddw (%rdi), %xmm0			; SSE-NEXT: paddw (%rdi), %xmm0
	; SSE-NEXT: paddw 16(%rdi), %xmm1			; SSE-NEXT: paddw 16(%rdi), %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v16i16:			; AVX1-LABEL: test_arg_v16i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm1			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vpaddw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
	; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v16i16:			; AVX2-LABEL: test_arg_v16i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm1			; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 11 Lines
	; SSE-LABEL: test_arg_v32i8:			; SSE-LABEL: test_arg_v32i8:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: paddb (%rdi), %xmm0			; SSE-NEXT: paddb (%rdi), %xmm0
	; SSE-NEXT: paddb 16(%rdi), %xmm1			; SSE-NEXT: paddb 16(%rdi), %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v32i8:			; AVX1-LABEL: test_arg_v32i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm1			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vmovntdqa (%rdi), %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v32i8:			; AVX2-LABEL: test_arg_v32i8:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm1			; AVX2-NEXT: vmovntdqa (%rdi), %ymm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddd (%rdi), %xmm0			; SSE-NEXT: paddd (%rdi), %xmm0
	; SSE-NEXT: paddd 16(%rdi), %xmm1			; SSE-NEXT: paddd 16(%rdi), %xmm1
	; SSE-NEXT: paddd 32(%rdi), %xmm2			; SSE-NEXT: paddd 32(%rdi), %xmm2
	; SSE-NEXT: paddd 48(%rdi), %xmm3			; SSE-NEXT: paddd 48(%rdi), %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v16i32:			; AVX1-LABEL: test_arg_v16i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
	; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm4			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm5			; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v16i32:			; AVX2-LABEL: test_arg_v16i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2			; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm3			; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
	; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; SSE-NEXT: paddq (%rdi), %xmm0			; SSE-NEXT: paddq (%rdi), %xmm0
	; SSE-NEXT: paddq 16(%rdi), %xmm1			; SSE-NEXT: paddq 16(%rdi), %xmm1
	; SSE-NEXT: paddq 32(%rdi), %xmm2			; SSE-NEXT: paddq 32(%rdi), %xmm2
	; SSE-NEXT: paddq 48(%rdi), %xmm3			; SSE-NEXT: paddq 48(%rdi), %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v8i64:			; AVX1-LABEL: test_arg_v8i64:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
	; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm4			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm5			; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; AVX1-NEXT: vpaddq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v8i64:			; AVX2-LABEL: test_arg_v8i64:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2			; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm3			; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm1
	Show All 15 Lines
	; SSE-NEXT: paddw (%rdi), %xmm0			; SSE-NEXT: paddw (%rdi), %xmm0
	; SSE-NEXT: paddw 16(%rdi), %xmm1			; SSE-NEXT: paddw 16(%rdi), %xmm1
	; SSE-NEXT: paddw 32(%rdi), %xmm2			; SSE-NEXT: paddw 32(%rdi), %xmm2
	; SSE-NEXT: paddw 48(%rdi), %xmm3			; SSE-NEXT: paddw 48(%rdi), %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v32i16:			; AVX1-LABEL: test_arg_v32i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
	; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm4			; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm5			; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; AVX1-NEXT: vpaddw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddw %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vpaddw %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
	; AVX1-NEXT: vpaddw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v32i16:			; AVX2-LABEL: test_arg_v32i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2			; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm3			; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
	; AVX2-NEXT: vpaddw %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	Show All 31 Lines
	; SSE-NEXT: paddb (%rdi), %xmm0			; SSE-NEXT: paddb (%rdi), %xmm0
	; SSE-NEXT: paddb 16(%rdi), %xmm1			; SSE-NEXT: paddb 16(%rdi), %xmm1
	; SSE-NEXT: paddb 32(%rdi), %xmm2			; SSE-NEXT: paddb 32(%rdi), %xmm2
	; SSE-NEXT: paddb 48(%rdi), %xmm3			; SSE-NEXT: paddb 48(%rdi), %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_arg_v64i8:			; AVX1-LABEL: test_arg_v64i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm2
	; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovntdqa (%rdi), %xmm4			; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovntdqa 16(%rdi), %xmm5			; AVX1-NEXT: vmovntdqa (%rdi), %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vpaddb %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vmovntdqa 48(%rdi), %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vpaddb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddb %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vmovntdqa 32(%rdi), %xmm3
	; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_arg_v64i8:			; AVX2-LABEL: test_arg_v64i8:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2			; AVX2-NEXT: vmovntdqa 32(%rdi), %ymm2
	; AVX2-NEXT: vmovntdqa (%rdi), %ymm3			; AVX2-NEXT: vmovntdqa (%rdi), %ymm3
	; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	▲ Show 20 Lines • Show All 432 Lines • Show Last 20 Lines

test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 1,174 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: movdqu %xmm2, 16(%rcx)			; SSE42-NEXT: movdqu %xmm2, 16(%rcx)
	; SSE42-NEXT: movdqu %xmm1, (%rcx)			; SSE42-NEXT: movdqu %xmm1, (%rcx)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i32_out:			; AVX1-LABEL: interleave_24i32_out:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovups (%rdi), %ymm0			; AVX1-NEXT: vmovups (%rdi), %ymm0
	; AVX1-NEXT: vmovups 32(%rdi), %ymm1			; AVX1-NEXT: vmovups 32(%rdi), %ymm1
	; AVX1-NEXT: vmovups 64(%rdi), %ymm2			; AVX1-NEXT: vmovups 80(%rdi), %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3			; AVX1-NEXT: vmovups 64(%rdi), %xmm3
	; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = zero,zero,xmm2[2],xmm3[1]			; AVX1-NEXT: vinsertps {{.*#+}} xmm4 = zero,zero,xmm3[2],xmm2[1]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm5 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm5 = ymm0[0],ymm1[1],ymm0[2,3],ymm1[4],ymm0[5,6],ymm1[7]
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm6
	; AVX1-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],xmm6[2],xmm5[3]			; AVX1-NEXT: vblendps {{.*#+}} xmm5 = xmm5[0,1],xmm6[2],xmm5[3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm5[0,3,2,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm5[0,3,2,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm6[0,3,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm6[0,3,2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm5, %ymm5			; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm5, %ymm5
	; AVX1-NEXT: vblendpd {{.*#+}} ymm4 = ymm5[0,1,2],ymm4[3]			; AVX1-NEXT: vblendpd {{.*#+}} ymm4 = ymm5[0,1,2],ymm4[3]
	; AVX1-NEXT: vblendps {{.*#+}} xmm5 = xmm2[0,1],xmm3[2],xmm2[3]			; AVX1-NEXT: vblendps {{.*#+}} xmm5 = xmm3[0,1],xmm2[2],xmm3[3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm5[0,0,3,2]			; AVX1-NEXT: vpermilps {{.*#+}} xmm5 = xmm5[0,0,3,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm5			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm0, %ymm5
	; AVX1-NEXT: vblendps {{.*#+}} ymm6 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm6 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm7
	; AVX1-NEXT: vblendps {{.*#+}} xmm6 = xmm7[0],xmm6[1,2],xmm7[3]			; AVX1-NEXT: vblendps {{.*#+}} xmm6 = xmm7[0],xmm6[1,2],xmm7[3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm6[1,0,3,2]			; AVX1-NEXT: vpermilps {{.*#+}} xmm6 = xmm6[1,0,3,2]
	; AVX1-NEXT: vmovshdup {{.*#+}} xmm7 = xmm7[1,1,3,3]			; AVX1-NEXT: vmovshdup {{.*#+}} xmm7 = xmm7[1,1,3,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm6, %ymm6			; AVX1-NEXT: vinsertf128 $1, %xmm7, %ymm6, %ymm6
	; AVX1-NEXT: vblendps {{.*#+}} ymm5 = ymm6[0,1,2,3,4],ymm5[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm5 = ymm6[0,1,2,3,4],ymm5[5,6,7]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm3[0,1],xmm2[0,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4],ymm0[5],ymm1[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1],ymm0[2],ymm1[3,4],ymm0[5],ymm1[6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]			; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,0,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,0,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4],ymm2[5,6,7]
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: movdqu %xmm6, 48(%rdi)			; SSE42-NEXT: movdqu %xmm6, 48(%rdi)
	; SSE42-NEXT: movdqu %xmm5, 32(%rdi)			; SSE42-NEXT: movdqu %xmm5, 32(%rdi)
	; SSE42-NEXT: movdqu %xmm3, 16(%rdi)			; SSE42-NEXT: movdqu %xmm3, 16(%rdi)
	; SSE42-NEXT: movdqu %xmm0, (%rdi)			; SSE42-NEXT: movdqu %xmm0, (%rdi)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i32_in:			; AVX1-LABEL: interleave_24i32_in:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovups (%rsi), %ymm0			; AVX1-NEXT: vmovupd (%rsi), %ymm0
	; AVX1-NEXT: vmovups (%rdx), %ymm1			; AVX1-NEXT: vmovupd (%rcx), %ymm1
	; AVX1-NEXT: vmovupd (%rcx), %ymm2			; AVX1-NEXT: vmovups 16(%rcx), %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm0[2,0],xmm1[2,0]			; AVX1-NEXT: vmovups (%rdx), %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm1[1,1],xmm3[0,2]			; AVX1-NEXT: vmovups 16(%rdx), %xmm4
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[0,0],xmm0[0,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,0],xmm2[3,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm4[2,0],xmm0[2,1]			; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm2[2,1],xmm5[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm4[1,0]
	; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = xmm2[0,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,2]
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
				; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]
				; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]
				; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]
				; AVX1-NEXT: vmovups (%rsi), %xmm4
				; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm3[2,0]
				; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm3[1,1],xmm5[0,2]
				; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,0],xmm4[0,0]
				; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[2,0],xmm4[2,1]
				; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3
				; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vshufps {{.*#+}} xmm6 = xmm5[3,0],xmm4[3,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm6 = xmm4[2,1],xmm6[0,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm4[1,0],xmm5[1,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm4[2,0],xmm5[2,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm4, %ymm4
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm5 = ymm0[1,1,3,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm5[2,3,2,3]
	; AVX1-NEXT: vblendps {{.*#+}} ymm4 = ymm4[0,1],ymm5[2],ymm4[3,4],ymm5[5],ymm4[6,7]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm2 = ymm2[1,1,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3],ymm0[4],ymm2[5,6],ymm0[7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3],ymm0[4],ymm1[5,6],ymm0[7]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,0,3,3,4,4,7,7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-NEXT: vmovups %ymm0, 32(%rdi)			; AVX1-NEXT: vmovups %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm4, 64(%rdi)
	; AVX1-NEXT: vmovups %ymm3, (%rdi)			; AVX1-NEXT: vmovups %ymm3, (%rdi)
				; AVX1-NEXT: vmovups %ymm2, 64(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: interleave_24i32_in:			; AVX2-LABEL: interleave_24i32_in:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqu (%rsi), %ymm0			; AVX2-NEXT: vmovdqu (%rsi), %ymm0
	; AVX2-NEXT: vmovdqu (%rdx), %ymm1			; AVX2-NEXT: vmovdqu (%rdx), %ymm1
	; AVX2-NEXT: vmovdqu (%rcx), %ymm2			; AVX2-NEXT: vmovdqu (%rcx), %ymm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,0,2,2]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,0,2,2]
	; AVX2-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm3[0,1,0,1]			; AVX2-NEXT: vperm2i128 {{.*#+}} ymm3 = ymm3[0,1,0,1]
	; AVX2-NEXT: vpermq {{.*#+}} ymm4 = ymm0[0,0,2,1]			; AVX2-NEXT: vpermq {{.*#+}} ymm4 = ymm0[0,0,2,1]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2,3],ymm3[4],ymm4[5,6],ymm3[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm4[0],ymm3[1],ymm4[2,3],ymm3[4],ymm4[5,6],ymm3[7]
	; AVX2-NEXT: vpbroadcastq %xmm2, %ymm4			; AVX2-NEXT: vpbroadcastq (%rcx), %ymm4
	; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm4 = ymm2[2,1,3,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm4 = ymm2[2,1,3,3]
	; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,2,3,3,5,6,7,7]			; AVX2-NEXT: vpshufd {{.*#+}} ymm5 = ymm1[1,2,3,3,5,6,7,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm5 = ymm5[2,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm5 = ymm5[2,2,2,3]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm4 = ymm5[0],ymm4[1],ymm5[2,3],ymm4[4],ymm5[5,6],ymm4[7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm4 = ymm5[0],ymm4[1],ymm5[2,3],ymm4[4],ymm5[5,6],ymm4[7]
	; AVX2-NEXT: vpbroadcastq 24(%rsi), %ymm5			; AVX2-NEXT: vpbroadcastq 24(%rsi), %ymm5
	; AVX2-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1],ymm5[2],ymm4[3,4],ymm5[5],ymm4[6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm4 = ymm4[0,1],ymm5[2],ymm4[3,4],ymm5[5],ymm4[6,7]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[1,1,2,2]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[1,1,2,2]
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

test/CodeGen/X86/pr22774.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=x86_64-pc-linux-gnu -mattr=+avx < %s \| FileCheck %s			; RUN: llc -mtriple=x86_64-pc-linux-gnu -mattr=+avx < %s \| FileCheck %s

	@in = global <4 x i64> <i64 -1, i64 -1, i64 -1, i64 -1>, align 32			@in = global <4 x i64> <i64 -1, i64 -1, i64 -1, i64 -1>, align 32
	@out = global <2 x i64> zeroinitializer, align 16			@out = global <2 x i64> zeroinitializer, align 16

	define i32 @_Z3foov() {			define i32 @_Z3foov() {
	; CHECK-LABEL: _Z3foov:			; CHECK-LABEL: _Z3foov:
	; CHECK: # BB#0: # %entry			; CHECK: # BB#0: # %entry
	; CHECK-NEXT: vmovdqa {{.*}}(%rip), %ymm0			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero			; CHECK-NEXT: vmovaps %xmm0, {{.*}}(%rip)
	; CHECK-NEXT: vmovdqa %xmm0, {{.*}}(%rip)
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = load <4 x i64>, <4 x i64>* @in, align 32			%0 = load <4 x i64>, <4 x i64>* @in, align 32
	%vecext = extractelement <4 x i64> %0, i32 0			%vecext = extractelement <4 x i64> %0, i32 0
	%vecinit = insertelement <2 x i64> undef, i64 %vecext, i32 0			%vecinit = insertelement <2 x i64> undef, i64 %vecext, i32 0
	%vecinit1 = insertelement <2 x i64> %vecinit, i64 0, i32 1			%vecinit1 = insertelement <2 x i64> %vecinit, i64 0, i32 1
	store <2 x i64> %vecinit1, <2 x i64>* @out, align 16			store <2 x i64> %vecinit1, <2 x i64>* @out, align 16
	ret i32 0			ret i32 0
	}			}

test/CodeGen/X86/sandybridge-loads.ll

Show All 24 Lines	; CHECK-NEXT: retq
store <8 x i32> %r, <8 x i32>* undef, align 32		store <8 x i32> %r, <8 x i32>* undef, align 32
ret void		ret void
}		}

define void @widestores(<8 x float>* %a, <8 x float>* %b, <8 x float>* %c) nounwind uwtable noinline ssp {		define void @widestores(<8 x float>* %a, <8 x float>* %b, <8 x float>* %c) nounwind uwtable noinline ssp {
; CHECK-LABEL: widestores:		; CHECK-LABEL: widestores:
; CHECK: # BB#0:		; CHECK: # BB#0:
; CHECK-NEXT: vmovaps (%rdi), %ymm0		; CHECK-NEXT: vmovaps (%rdi), %ymm0
; CHECK-NEXT: vmovaps (%rsi), %ymm1		; CHECK-NEXT: vmovaps (%rsi), %xmm1
		; CHECK-NEXT: vmovaps 16(%rsi), %xmm2
; CHECK-NEXT: vmovaps %ymm0, (%rsi)		; CHECK-NEXT: vmovaps %ymm0, (%rsi)
; CHECK-NEXT: vextractf128 $1, %ymm1, 16(%rdi)		; CHECK-NEXT: vmovaps %xmm2, 16(%rdi)
; CHECK-NEXT: vmovaps %xmm1, (%rdi)		; CHECK-NEXT: vmovaps %xmm1, (%rdi)
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v0 = load <8 x float>, <8 x float>* %a, align 32		%v0 = load <8 x float>, <8 x float>* %a, align 32
%v1 = load <8 x float>, <8 x float>* %b, align 32		%v1 = load <8 x float>, <8 x float>* %b, align 32
store <8 x float> %v0, <8 x float>* %b, align 32 ; <--- aligned		store <8 x float> %v0, <8 x float>* %b, align 32 ; <--- aligned
store <8 x float> %v1, <8 x float>* %a, align 16 ; <--- unaligned		store <8 x float> %v1, <8 x float>* %a, align 16 ; <--- unaligned
ret void		ret void
}		}

test/CodeGen/X86/shuffle-vs-trunc-256.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512F
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512VL		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512VL
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BW		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BW
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BWVL		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=AVX512 --check-prefix=AVX512BWVL

; PR31551		; PR31551
; Pairs of shufflevector:trunc functions with functional equivalence.		; Pairs of shufflevector:trunc functions with functional equivalence.
; Ideally, the shuffles should be lowered to code with the same quality as the truncates.		; Ideally, the shuffles should be lowered to code with the same quality as the truncates.

define void @shuffle_v32i8_to_v16i8(<32 x i8>* %L, <16 x i8>* %S) nounwind {		define void @shuffle_v32i8_to_v16i8(<32 x i8>* %L, <16 x i8>* %S) nounwind {
; AVX-LABEL: shuffle_v32i8_to_v16i8:		; AVX-LABEL: shuffle_v32i8_to_v16i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovdqa (%rdi), %ymm0		; AVX-NEXT: vmovdqa (%rdi), %xmm0
; AVX-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX-NEXT: vmovdqa %xmm0, (%rsi)		; AVX-NEXT: vmovdqa %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v32i8_to_v16i8:		; AVX512F-LABEL: shuffle_v32i8_to_v16i8:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512F-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v32i8_to_v16i8:		; AVX512VL-LABEL: shuffle_v32i8_to_v16i8:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512VL-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512VL-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v32i8_to_v16i8:		; AVX512BW-LABEL: shuffle_v32i8_to_v16i8:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0		; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v32i8_to_v16i8:		; AVX512BWVL-LABEL: shuffle_v32i8_to_v16i8:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0		; AVX512BWVL-NEXT: vmovdqu (%rdi), %xmm0
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BWVL-NEXT: vmovdqu 16(%rdi), %xmm1
; AVX512BWVL-NEXT: vmovdqu {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>		; AVX512BWVL-NEXT: vmovdqu {{.*#+}} xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512BWVL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512BWVL-NEXT: vmovdqu %xmm0, (%rsi)		; AVX512BWVL-NEXT: vmovdqu %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <32 x i8>, <32 x i8>* %L		%vec = load <32 x i8>, <32 x i8>* %L
%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>		%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>
store <16 x i8> %strided.vec, <16 x i8>* %S		store <16 x i8> %strided.vec, <16 x i8>* %S
ret void		ret void
}		}

define void @trunc_v16i16_to_v16i8(<32 x i8>* %L, <16 x i8>* %S) nounwind {		define void @trunc_v16i16_to_v16i8(<32 x i8>* %L, <16 x i8>* %S) nounwind {
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	; AVX512BWVL-NEXT: retq
%strided.vec = trunc <16 x i16> %bc to <16 x i8>		%strided.vec = trunc <16 x i16> %bc to <16 x i8>
store <16 x i8> %strided.vec, <16 x i8>* %S		store <16 x i8> %strided.vec, <16 x i8>* %S
ret void		ret void
}		}

define void @shuffle_v16i16_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {		define void @shuffle_v16i16_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {
; AVX-LABEL: shuffle_v16i16_to_v8i16:		; AVX-LABEL: shuffle_v16i16_to_v8i16:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovdqa (%rdi), %ymm0		; AVX-NEXT: vmovdqa (%rdi), %xmm0
; AVX-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX-NEXT: vmovdqa %xmm0, (%rsi)		; AVX-NEXT: vmovdqa %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v16i16_to_v8i16:		; AVX512F-LABEL: shuffle_v16i16_to_v8i16:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512F-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512F-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v16i16_to_v8i16:		; AVX512VL-LABEL: shuffle_v16i16_to_v8i16:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vpshuflw {{.*#+}} xmm0 = mem[0,2,2,3,4,5,6,7]
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX512VL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX512VL-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX512VL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]		; AVX512VL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512VL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512VL-NEXT: vpshuflw {{.*#+}} xmm1 = mem[0,2,2,3,4,5,6,7]
		; AVX512VL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
		; AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX512VL-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512VL-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v16i16_to_v8i16:		; AVX512BW-LABEL: shuffle_v16i16_to_v8i16:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0		; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]		; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)		; AVX512BW-NEXT: vmovdqa %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v16i16_to_v8i16:		; AVX512BWVL-LABEL: shuffle_v16i16_to_v8i16:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0		; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm0 = mem[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]		; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm1 = mem[0,2,2,3,4,5,6,7]
		; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
		; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX512BWVL-NEXT: vmovdqu %xmm0, (%rsi)		; AVX512BWVL-NEXT: vmovdqu %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <16 x i16>, <16 x i16>* %L		%vec = load <16 x i16>, <16 x i16>* %L
%strided.vec = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%strided.vec = shufflevector <16 x i16> %vec, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
store <8 x i16> %strided.vec, <8 x i16>* %S		store <8 x i16> %strided.vec, <8 x i16>* %S
ret void		ret void
}		}

define void @trunc_v8i32_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {		define void @trunc_v8i32_to_v8i16(<16 x i16>* %L, <8 x i16>* %S) nounwind {
Show All 40 Lines	; AVX512BWVL-NEXT: retq
%strided.vec = trunc <8 x i32> %bc to <8 x i16>		%strided.vec = trunc <8 x i32> %bc to <8 x i16>
store <8 x i16> %strided.vec, <8 x i16>* %S		store <8 x i16> %strided.vec, <8 x i16>* %S
ret void		ret void
}		}

define void @shuffle_v8i32_to_v4i32(<8 x i32>* %L, <4 x i32>* %S) nounwind {		define void @shuffle_v8i32_to_v4i32(<8 x i32>* %L, <4 x i32>* %S) nounwind {
; AVX-LABEL: shuffle_v8i32_to_v4i32:		; AVX-LABEL: shuffle_v8i32_to_v4i32:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovaps (%rdi), %ymm0		; AVX-NEXT: vmovaps (%rdi), %xmm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX-NEXT: vmovaps %xmm0, (%rsi)		; AVX-NEXT: vmovaps %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v8i32_to_v4i32:		; AVX512-LABEL: shuffle_v8i32_to_v4i32:
; AVX512F: # BB#0:		; AVX512: # BB#0:
; AVX512F-NEXT: vmovaps (%rdi), %ymm0		; AVX512-NEXT: vmovaps (%rdi), %xmm0
; AVX512F-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX512F-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]		; AVX512-NEXT: vmovaps %xmm0, (%rsi)
; AVX512F-NEXT: vmovaps %xmm0, (%rsi)		; AVX512-NEXT: retq
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: shuffle_v8i32_to_v4i32:
; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512VL-NEXT: vmovaps %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq
;
; AVX512BW-LABEL: shuffle_v8i32_to_v4i32:
; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovaps (%rdi), %ymm0
; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512BW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512BW-NEXT: vmovaps %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq
;
; AVX512BWVL-LABEL: shuffle_v8i32_to_v4i32:
; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqa (%rdi), %ymm0
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512BWVL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512BWVL-NEXT: vmovaps %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq
%vec = load <8 x i32>, <8 x i32>* %L		%vec = load <8 x i32>, <8 x i32>* %L
%strided.vec = shufflevector <8 x i32> %vec, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%strided.vec = shufflevector <8 x i32> %vec, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
store <4 x i32> %strided.vec, <4 x i32>* %S		store <4 x i32> %strided.vec, <4 x i32>* %S
ret void		ret void
}		}

define void @trunc_v4i64_to_v4i32(<8 x i32>* %L, <4 x i32>* %S) nounwind {		define void @trunc_v4i64_to_v4i32(<8 x i32>* %L, <4 x i32>* %S) nounwind {
; AVX-LABEL: trunc_v4i64_to_v4i32:		; AVX-LABEL: trunc_v4i64_to_v4i32:
Show All 38 Lines	; AVX512BWVL-NEXT: retq
%strided.vec = trunc <4 x i64> %bc to <4 x i32>		%strided.vec = trunc <4 x i64> %bc to <4 x i32>
store <4 x i32> %strided.vec, <4 x i32>* %S		store <4 x i32> %strided.vec, <4 x i32>* %S
ret void		ret void
}		}

define void @shuffle_v32i8_to_v8i8(<32 x i8>* %L, <8 x i8>* %S) nounwind {		define void @shuffle_v32i8_to_v8i8(<32 x i8>* %L, <8 x i8>* %S) nounwind {
; AVX-LABEL: shuffle_v32i8_to_v8i8:		; AVX-LABEL: shuffle_v32i8_to_v8i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovdqa (%rdi), %ymm0		; AVX-NEXT: vmovdqa (%rdi), %xmm0
; AVX-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; AVX-NEXT: vmovq %xmm0, (%rsi)		; AVX-NEXT: vmovq %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v32i8_to_v8i8:		; AVX512F-LABEL: shuffle_v32i8_to_v8i8:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512F-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX512F-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; AVX512F-NEXT: vmovq %xmm0, (%rsi)		; AVX512F-NEXT: vmovq %xmm0, (%rsi)
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v32i8_to_v8i8:		; AVX512VL-LABEL: shuffle_v32i8_to_v8i8:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512VL-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512VL-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512VL-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX512VL-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; AVX512VL-NEXT: vmovq %xmm0, (%rsi)		; AVX512VL-NEXT: vmovq %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v32i8_to_v8i8:		; AVX512BW-LABEL: shuffle_v32i8_to_v8i8:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0		; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512BW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX512BW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; AVX512BW-NEXT: vmovq %xmm0, (%rsi)		; AVX512BW-NEXT: vmovq %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v32i8_to_v8i8:		; AVX512BWVL-LABEL: shuffle_v32i8_to_v8i8:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0		; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm0 = mem[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]		; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,4,6,6,7]
; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]		; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX512BWVL-NEXT: vpshuflw {{.*#+}} xmm1 = mem[0,2,2,3,4,5,6,7]
		; AVX512BWVL-NEXT: vpshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,6,6,7]
		; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
		; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)		; AVX512BWVL-NEXT: vpmovwb %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <32 x i8>, <32 x i8>* %L		%vec = load <32 x i8>, <32 x i8>* %L
%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <8 x i32> <i32 0, i32 4, i32 8, i32 12, i32 16, i32 20, i32 24, i32 28>		%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <8 x i32> <i32 0, i32 4, i32 8, i32 12, i32 16, i32 20, i32 24, i32 28>
store <8 x i8> %strided.vec, <8 x i8>* %S		store <8 x i8> %strided.vec, <8 x i8>* %S
ret void		ret void
}		}

define void @trunc_v8i32_to_v8i8(<32 x i8>* %L, <8 x i8>* %S) nounwind {		define void @trunc_v8i32_to_v8i8(<32 x i8>* %L, <8 x i8>* %S) nounwind {
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	; AVX512BWVL-NEXT: retq
%strided.vec = trunc <8 x i32> %bc to <8 x i8>		%strided.vec = trunc <8 x i32> %bc to <8 x i8>
store <8 x i8> %strided.vec, <8 x i8>* %S		store <8 x i8> %strided.vec, <8 x i8>* %S
ret void		ret void
}		}

define void @shuffle_v16i16_to_v4i16(<16 x i16>* %L, <4 x i16>* %S) nounwind {		define void @shuffle_v16i16_to_v4i16(<16 x i16>* %L, <4 x i16>* %S) nounwind {
; AVX-LABEL: shuffle_v16i16_to_v4i16:		; AVX-LABEL: shuffle_v16i16_to_v4i16:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovdqa (%rdi), %ymm0		; AVX-NEXT: vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
; AVX-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; AVX-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX-NEXT: vpshufd {{.*#+}} xmm1 = mem[0,2,2,3]
		; AVX-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
		; AVX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; AVX-NEXT: vmovq %xmm0, (%rsi)		; AVX-NEXT: vmovq %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v16i16_to_v4i16:		; AVX512F-LABEL: shuffle_v16i16_to_v4i16:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX512F-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX512F-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX512F-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; AVX512F-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX512F-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = mem[0,2,2,3]
		; AVX512F-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
		; AVX512F-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; AVX512F-NEXT: vmovq %xmm0, (%rsi)		; AVX512F-NEXT: vmovq %xmm0, (%rsi)
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v16i16_to_v4i16:		; AVX512VL-LABEL: shuffle_v16i16_to_v4i16:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovaps (%rdi), %xmm0
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512VL-NEXT: vpmovdw %xmm0, (%rsi)		; AVX512VL-NEXT: vpmovdw %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v16i16_to_v4i16:		; AVX512BW-LABEL: shuffle_v16i16_to_v4i16:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0		; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = mem[0,2,2,3]
; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; AVX512BW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX512BW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]		; AVX512BW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,2,2,3,4,5,6,7]
; AVX512BW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = mem[0,2,2,3]
		; AVX512BW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
		; AVX512BW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; AVX512BW-NEXT: vmovq %xmm0, (%rsi)		; AVX512BW-NEXT: vmovq %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v16i16_to_v4i16:		; AVX512BWVL-LABEL: shuffle_v16i16_to_v4i16:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0		; AVX512BWVL-NEXT: vmovaps (%rdi), %xmm0
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BWVL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX512BWVL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512BWVL-NEXT: vpmovdw %xmm0, (%rsi)		; AVX512BWVL-NEXT: vpmovdw %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <16 x i16>, <16 x i16>* %L		%vec = load <16 x i16>, <16 x i16>* %L
%strided.vec = shufflevector <16 x i16> %vec, <16 x i16> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>		%strided.vec = shufflevector <16 x i16> %vec, <16 x i16> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
store <4 x i16> %strided.vec, <4 x i16>* %S		store <4 x i16> %strided.vec, <4 x i16>* %S
ret void		ret void
}		}

define void @trunc_v4i64_to_v4i16(<16 x i16>* %L, <4 x i16>* %S) nounwind {		define void @trunc_v4i64_to_v4i16(<16 x i16>* %L, <4 x i16>* %S) nounwind {
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	; AVX512BWVL-NEXT: retq
%strided.vec = trunc <4 x i64> %bc to <4 x i16>		%strided.vec = trunc <4 x i64> %bc to <4 x i16>
store <4 x i16> %strided.vec, <4 x i16>* %S		store <4 x i16> %strided.vec, <4 x i16>* %S
ret void		ret void
}		}

define void @shuffle_v32i8_to_v4i8(<32 x i8>* %L, <4 x i8>* %S) nounwind {		define void @shuffle_v32i8_to_v4i8(<32 x i8>* %L, <4 x i8>* %S) nounwind {
; AVX-LABEL: shuffle_v32i8_to_v4i8:		; AVX-LABEL: shuffle_v32i8_to_v4i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovdqa (%rdi), %ymm0		; AVX-NEXT: vmovdqa (%rdi), %xmm0
; AVX-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX-NEXT: vmovd %xmm0, (%rsi)		; AVX-NEXT: vmovd %xmm0, (%rsi)
; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512F-LABEL: shuffle_v32i8_to_v4i8:		; AVX512F-LABEL: shuffle_v32i8_to_v4i8:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vmovdqa (%rdi), %ymm0		; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX512F-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512F-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512F-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX512F-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX512F-NEXT: vmovd %xmm0, (%rsi)		; AVX512F-NEXT: vmovd %xmm0, (%rsi)
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; AVX512VL-LABEL: shuffle_v32i8_to_v4i8:		; AVX512VL-LABEL: shuffle_v32i8_to_v4i8:
; AVX512VL: # BB#0:		; AVX512VL: # BB#0:
; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0		; AVX512VL-NEXT: vmovaps (%rdi), %xmm0
; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX512VL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512VL-NEXT: vpmovdb %xmm0, (%rsi)		; AVX512VL-NEXT: vpmovdb %xmm0, (%rsi)
; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v32i8_to_v4i8:		; AVX512BW-LABEL: shuffle_v32i8_to_v4i8:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0		; AVX512BW-NEXT: vmovdqa (%rdi), %xmm0
; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BW-NEXT: vmovdqa 16(%rdi), %xmm1
; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>		; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1		; AVX512BW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0		; AVX512BW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX512BW-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; AVX512BW-NEXT: vmovd %xmm0, (%rsi)		; AVX512BW-NEXT: vmovd %xmm0, (%rsi)
; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v32i8_to_v4i8:		; AVX512BWVL-LABEL: shuffle_v32i8_to_v4i8:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0		; AVX512BWVL-NEXT: vmovaps (%rdi), %xmm0
; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512BWVL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
; AVX512BWVL-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
; AVX512BWVL-NEXT: vpmovdb %xmm0, (%rsi)		; AVX512BWVL-NEXT: vpmovdb %xmm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <32 x i8>, <32 x i8>* %L		%vec = load <32 x i8>, <32 x i8>* %L
%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <4 x i32> <i32 0, i32 8, i32 16, i32 24>		%strided.vec = shufflevector <32 x i8> %vec, <32 x i8> undef, <4 x i32> <i32 0, i32 8, i32 16, i32 24>
store <4 x i8> %strided.vec, <4 x i8>* %S		store <4 x i8> %strided.vec, <4 x i8>* %S
ret void		ret void
}		}

define void @trunc_v4i64_to_v4i8(<32 x i8>* %L, <4 x i8>* %S) nounwind {		define void @trunc_v4i64_to_v4i8(<32 x i8>* %L, <4 x i8>* %S) nounwind {
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

test/CodeGen/X86/shuffle-vs-trunc-512.ll

Show All 29 Lines
; AVX512VL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]		; AVX512VL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v64i8_to_v32i8:		; AVX512BW-LABEL: shuffle_v64i8_to_v32i8:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqu8 (%rdi), %zmm0		; AVX512BW-NEXT: vmovdqa (%rdi), %ymm0
; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512BW-NEXT: vmovdqa 32(%rdi), %ymm1
; AVX512BW-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,u,u,u,u,u,u,0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]		; AVX512BW-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,u,u,u,u,u,u,0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]
; AVX512BW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30,u,u,u,u,u,u,u,u]		; AVX512BW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30,u,u,u,u,u,u,u,u]
; AVX512BW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]		; AVX512BW-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
; AVX512BW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512BW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512BW-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512BW-NEXT: vmovdqa %ymm0, (%rsi)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v64i8_to_v32i8:		; AVX512BWVL-LABEL: shuffle_v64i8_to_v32i8:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu8 (%rdi), %zmm0		; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0
; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512BWVL-NEXT: vmovdqu 32(%rdi), %ymm1
; AVX512BWVL-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,u,u,u,u,u,u,0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]		; AVX512BWVL-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,u,u,u,u,u,u,0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30]
; AVX512BWVL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30,u,u,u,u,u,u,u,u]		; AVX512BWVL-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u,16,18,20,22,24,26,28,30,u,u,u,u,u,u,u,u]
; AVX512BWVL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]		; AVX512BWVL-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
; AVX512BWVL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512BWVL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512BWVL-NEXT: vmovdqu %ymm0, (%rsi)		; AVX512BWVL-NEXT: vmovdqu %ymm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <64 x i8>, <64 x i8>* %L		%vec = load <64 x i8>, <64 x i8>* %L
▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
; AVX512VL-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]		; AVX512VL-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]
; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512VL-NEXT: vmovdqa %ymm0, (%rsi)
; AVX512VL-NEXT: vzeroupper		; AVX512VL-NEXT: vzeroupper
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; AVX512BW-LABEL: shuffle_v32i16_to_v16i16:		; AVX512BW-LABEL: shuffle_v32i16_to_v16i16:
; AVX512BW: # BB#0:		; AVX512BW: # BB#0:
; AVX512BW-NEXT: vmovdqu16 (%rdi), %zmm0		; AVX512BW-NEXT: vpshuflw {{.*#+}} ymm0 = mem[0,2,2,3,4,5,6,7,8,10,10,11,12,13,14,15]
; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
; AVX512BW-NEXT: vpshuflw {{.*#+}} ymm1 = ymm1[0,2,2,3,4,5,6,7,8,10,10,11,12,13,14,15]
; AVX512BW-NEXT: vpshufhw {{.*#+}} ymm1 = ymm1[0,1,2,3,4,6,6,7,8,9,10,11,12,14,14,15]
; AVX512BW-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[0,2,2,3,4,5,6,7,8,10,10,11,12,13,14,15]
; AVX512BW-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,6,7,8,9,10,11,12,14,14,15]		; AVX512BW-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,6,7,8,9,10,11,12,14,14,15]
; AVX512BW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; AVX512BW-NEXT: vpshuflw {{.*#+}} ymm1 = mem[0,2,2,3,4,5,6,7,8,10,10,11,12,13,14,15]
		; AVX512BW-NEXT: vpshufhw {{.*#+}} ymm1 = ymm1[0,1,2,3,4,6,6,7,8,9,10,11,12,14,14,15]
		; AVX512BW-NEXT: vshufps {{.*#+}} ymm0 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]
; AVX512BW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512BW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512BW-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512BW-NEXT: vmovdqa %ymm0, (%rsi)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512BWVL-LABEL: shuffle_v32i16_to_v16i16:		; AVX512BWVL-LABEL: shuffle_v32i16_to_v16i16:
; AVX512BWVL: # BB#0:		; AVX512BWVL: # BB#0:
; AVX512BWVL-NEXT: vmovdqu16 (%rdi), %zmm0		; AVX512BWVL-NEXT: vmovdqu (%rdi), %ymm0
; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512BWVL-NEXT: vmovdqu {{.*#+}} ymm1 = [0,2,4,6,16,18,20,22,8,10,12,14,24,26,28,30]
; AVX512BWVL-NEXT: vmovdqu {{.*#+}} ymm2 = [0,2,4,6,16,18,20,22,8,10,12,14,24,26,28,30]		; AVX512BWVL-NEXT: vpermi2w 32(%rdi), %ymm0, %ymm1
; AVX512BWVL-NEXT: vpermi2w %ymm1, %ymm0, %ymm2		; AVX512BWVL-NEXT: vpermq {{.*#+}} ymm0 = ymm1[0,2,1,3]
; AVX512BWVL-NEXT: vpermq {{.*#+}} ymm0 = ymm2[0,2,1,3]
; AVX512BWVL-NEXT: vmovdqu %ymm0, (%rsi)		; AVX512BWVL-NEXT: vmovdqu %ymm0, (%rsi)
; AVX512BWVL-NEXT: vzeroupper		; AVX512BWVL-NEXT: vzeroupper
; AVX512BWVL-NEXT: retq		; AVX512BWVL-NEXT: retq
%vec = load <32 x i16>, <32 x i16>* %L		%vec = load <32 x i16>, <32 x i16>* %L
%strided.vec = shufflevector <32 x i16> %vec, <32 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>		%strided.vec = shufflevector <32 x i16> %vec, <32 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14, i32 16, i32 18, i32 20, i32 22, i32 24, i32 26, i32 28, i32 30>
store <16 x i16> %strided.vec, <16 x i16>* %S		store <16 x i16> %strided.vec, <16 x i16>* %S
ret void		ret void
}		}
Show All 10 Lines	; AVX512-NEXT: retq
%strided.vec = trunc <16 x i32> %bc to <16 x i16>		%strided.vec = trunc <16 x i32> %bc to <16 x i16>
store <16 x i16> %strided.vec, <16 x i16>* %S		store <16 x i16> %strided.vec, <16 x i16>* %S
ret void		ret void
}		}

define void @shuffle_v16i32_to_v8i32(<16 x i32>* %L, <8 x i32>* %S) nounwind {		define void @shuffle_v16i32_to_v8i32(<16 x i32>* %L, <8 x i32>* %S) nounwind {
; AVX512-LABEL: shuffle_v16i32_to_v8i32:		; AVX512-LABEL: shuffle_v16i32_to_v8i32:
; AVX512: # BB#0:		; AVX512: # BB#0:
; AVX512-NEXT: vmovdqa32 (%rdi), %zmm0		; AVX512-NEXT: vmovaps (%rdi), %ymm0
; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],mem[0,2],ymm0[4,6],mem[4,6]
; AVX512-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]
; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX512-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
; AVX512-NEXT: vmovdqa %ymm0, (%rsi)		; AVX512-NEXT: vmovdqa %ymm0, (%rsi)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%vec = load <16 x i32>, <16 x i32>* %L		%vec = load <16 x i32>, <16 x i32>* %L
%strided.vec = shufflevector <16 x i32> %vec, <16 x i32> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%strided.vec = shufflevector <16 x i32> %vec, <16 x i32> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
store <8 x i32> %strided.vec, <8 x i32>* %S		store <8 x i32> %strided.vec, <8 x i32>* %S
ret void		ret void
▲ Show 20 Lines • Show All 381 Lines • Show Last 20 Lines

test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 1,281 Lines • ▼ Show 20 Lines

	@ga4 = global <4 x i64> zeroinitializer, align 8			@ga4 = global <4 x i64> zeroinitializer, align 8
	@gb4 = global <8 x i64> zeroinitializer, align 8			@gb4 = global <8 x i64> zeroinitializer, align 8

	define void @fallback_broadcast_v4i64_to_v8i64(<4 x i64> %a, <8 x i64> %b) {			define void @fallback_broadcast_v4i64_to_v8i64(<4 x i64> %a, <8 x i64> %b) {
	; X32-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X32-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X32-AVX1: ## BB#0: ## %entry			; X32-AVX1: ## BB#0: ## %entry
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} ymm4 = [1,0,2,0,3,0,4,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,0,2,0,3,0,4,0]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm4, %xmm5			; X32-AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [1,0,2,0,3,0,4,0]
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; X32-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3			; X32-AVX1-NEXT: vmovaps {{.*#+}} ymm3 = [1,0,2,0,3,0,4,0]
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2			; X32-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm6
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm2, %xmm2
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; X32-AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2
	; X32-AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm6
	; X32-AVX1-NEXT: vpaddq %xmm4, %xmm1, %xmm1			; X32-AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm4
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; X32-AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1
	; X32-AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1			; X32-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; X32-AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2			; X32-AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
				; X32-AVX1-NEXT: vandps %ymm3, %ymm2, %ymm2
	; X32-AVX1-NEXT: vmovups %ymm0, _ga4			; X32-AVX1-NEXT: vmovups %ymm0, _ga4
	; X32-AVX1-NEXT: vmovups %ymm2, _gb4+32			; X32-AVX1-NEXT: vmovups %ymm2, _gb4+32
	; X32-AVX1-NEXT: vmovups %ymm1, _gb4			; X32-AVX1-NEXT: vmovups %ymm1, _gb4
	; X32-AVX1-NEXT: vzeroupper			; X32-AVX1-NEXT: vzeroupper
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X32-AVX2-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X32-AVX2: ## BB#0: ## %entry			; X32-AVX2: ## BB#0: ## %entry
	▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 2,744 Lines • ▼ Show 20 Lines
	; SSE-NEXT: cvtsi2sdq %rax, %xmm1			; SSE-NEXT: cvtsi2sdq %rax, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE-NEXT: movq %xmm2, %rax			; SSE-NEXT: movq %xmm2, %rax
	; SSE-NEXT: xorps %xmm2, %xmm2			; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: cvtsi2sdq %rax, %xmm2			; SSE-NEXT: cvtsi2sdq %rax, %xmm2
	; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: sitofp_load_4i64_to_4f64:			; VEX-LABEL: sitofp_load_4i64_to_4f64:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; VEX-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; VEX-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2			; VEX-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2
	; AVX1-NEXT: vmovq %xmm1, %rax			; VEX-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1			; VEX-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
	; AVX1-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; VEX-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2			; VEX-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0			; VEX-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; VEX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; VEX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; VEX-NEXT: retq
	;
	; AVX2-LABEL: sitofp_load_4i64_to_4f64:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
	; AVX2-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sitofp_load_4i64_to_4f64:			; AVX512F-LABEL: sitofp_load_4i64_to_4f64:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vmovq %xmm1, %rax			; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1			; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
	; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2			; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0			; AVX512F-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm0
	; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: sitofp_load_4i64_to_4f64:			; AVX512VL-LABEL: sitofp_load_4i64_to_4f64:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm2, %xmm2
	; AVX512VL-NEXT: vmovq %xmm1, %rax			; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1			; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm1
	; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2			; AVX512VL-NEXT: vcvtsi2sdq %rax, %xmm3, %xmm2
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
	; SSE-NEXT: subpd %xmm5, %xmm4			; SSE-NEXT: subpd %xmm5, %xmm4
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_4i64_to_4f64:			; VEX-LABEL: uitofp_load_4i64_to_4f64:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; VEX-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1127219200,1160773632,0,0]			; VEX-NEXT: vmovdqa {{.*#+}} xmm2 = [1127219200,1160773632,0,0]
	; AVX1-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; VEX-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; AVX1-NEXT: vmovapd {{.*#+}} xmm4 = [4.503600e+15,1.934281e+25]			; VEX-NEXT: vmovapd {{.*#+}} xmm4 = [4.503600e+15,1.934281e+25]
	; AVX1-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; VEX-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; VEX-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; AVX1-NEXT: vsubpd %xmm4, %xmm1, %xmm1			; VEX-NEXT: vsubpd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vhaddpd %xmm1, %xmm3, %xmm1			; VEX-NEXT: vhaddpd %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; VEX-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; AVX1-NEXT: vsubpd %xmm4, %xmm3, %xmm3			; VEX-NEXT: vsubpd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; VEX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; AVX1-NEXT: vsubpd %xmm4, %xmm0, %xmm0			; VEX-NEXT: vsubpd %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vhaddpd %xmm0, %xmm3, %xmm0			; VEX-NEXT: vhaddpd %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; VEX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; VEX-NEXT: retq
	;
	; AVX2-LABEL: uitofp_load_4i64_to_4f64:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [1127219200,1160773632,0,0]
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; AVX2-NEXT: vmovapd {{.*#+}} xmm4 = [4.503600e+15,1.934281e+25]
	; AVX2-NEXT: vsubpd %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; AVX2-NEXT: vsubpd %xmm4, %xmm1, %xmm1
	; AVX2-NEXT: vhaddpd %xmm1, %xmm3, %xmm1
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm3 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; AVX2-NEXT: vsubpd %xmm4, %xmm3, %xmm3
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; AVX2-NEXT: vsubpd %xmm4, %xmm0, %xmm0
	; AVX2-NEXT: vhaddpd %xmm0, %xmm3, %xmm0
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_4i64_to_4f64:			; AVX512F-LABEL: uitofp_load_4i64_to_4f64:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vmovq %xmm1, %rax			; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
	; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0			; AVX512F-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm0
	; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX512F-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: uitofp_load_4i64_to_4f64:			; AVX512VL-LABEL: uitofp_load_4i64_to_4f64:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm2, %xmm2
	; AVX512VL-NEXT: vmovq %xmm1, %rax			; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1			; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm1
	; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX512VL-NEXT: vunpcklpd {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2			; AVX512VL-NEXT: vcvtusi2sdq %rax, %xmm3, %xmm2
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: xorps %xmm1, %xmm1			; SSE-NEXT: xorps %xmm1, %xmm1
	; SSE-NEXT: cvtsi2ssq %rax, %xmm1			; SSE-NEXT: cvtsi2ssq %rax, %xmm1
	; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: sitofp_load_4i64_to_4f32:			; VEX-LABEL: sitofp_load_4i64_to_4f32:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; VEX-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX1-NEXT: vzeroupper			; VEX-NEXT: retq
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: sitofp_load_4i64_to_4f32:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sitofp_load_4i64_to_4f32:			; AVX512F-LABEL: sitofp_load_4i64_to_4f32:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
				; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vmovq %xmm1, %rax
				; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
				; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: sitofp_load_4i64_to_4f32:			; AVX512VL-LABEL: sitofp_load_4i64_to_4f32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
				; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vmovq %xmm1, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
				; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: sitofp_load_4i64_to_4f32:			; AVX512DQ-LABEL: sitofp_load_4i64_to_4f32:
	; AVX512DQ: # BB#0:			; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vmovaps (%rdi), %ymm0			; AVX512DQ-NEXT: vmovaps (%rdi), %ymm0
	; AVX512DQ-NEXT: vcvtqq2ps %zmm0, %ymm0			; AVX512DQ-NEXT: vcvtqq2ps %zmm0, %ymm0
	; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; SSE-NEXT: movq %xmm2, %rax			; SSE-NEXT: movq %xmm2, %rax
	; SSE-NEXT: xorps %xmm2, %xmm2			; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: cvtsi2ssq %rax, %xmm2			; SSE-NEXT: cvtsi2ssq %rax, %xmm2
	; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm4[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm4[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: sitofp_load_8i64_to_8f32:			; VEX-LABEL: sitofp_load_8i64_to_8f32:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 32(%rdi), %ymm1			; VEX-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; VEX-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; VEX-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX1-NEXT: vmovq %xmm1, %rax			; VEX-NEXT: vpextrq $1, %xmm2, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3			; VEX-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; VEX-NEXT: vmovq %xmm2, %rax
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX1-NEXT: vmovq %xmm1, %rax			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[2,3]
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; VEX-NEXT: vmovq %xmm3, %rax
	; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1			; VEX-NEXT: vpextrq $1, %xmm3, %rax
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; VEX-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[2,3]
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm1
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; VEX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; VEX-NEXT: retq
	;
	; AVX2-LABEL: sitofp_load_8i64_to_8f32:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %ymm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm1
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1,2],xmm1[0]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX2-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sitofp_load_8i64_to_8f32:			; AVX512F-LABEL: sitofp_load_8i64_to_8f32:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
	; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2
	; AVX512F-NEXT: vmovq %xmm2, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
	; AVX512F-NEXT: vpextrq $1, %xmm2, %rax			; AVX512F-NEXT: vpextrq $1, %xmm2, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; AVX512F-NEXT: vmovq %xmm2, %rax
				; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[2,3]
				; AVX512F-NEXT: vmovq %xmm3, %rax
				; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
				; AVX512F-NEXT: vpextrq $1, %xmm3, %rax
				; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm0
				niravdUnsubmitted Not Done Reply Inline Actions We're only partially converting the load-extracts here. there should only be a load to zmmX and extracts or 4 direct loads to xmmX. niravd: We're only partially converting the load-extracts here. there should only be a load to zmmX and…
				spatelAuthorUnsubmitted Not Done Reply Inline Actions Agreed - that's what I meant in the description when I said that these diffs might be seen as bugs in isExtractSubvectorCheap(). In this case, x86 has made it cheap to extract from index 0 or one other index: return (Index == 0 \|\| Index == ResVT.getVectorNumElements()); Clearly, this was only tested with cases where we are extracting a half-sized vector. So it misses 2 out of the N/4 possibilities for AVX512 in this test. I think this change is still an improvement (but not ideal of course), but my goal with this patch was really to answer the questions for the non-x86 diffs. I could just skip this step and post the more liberal patch with more test diffs if that seems better. spatel: Agreed - that's what I meant in the description when I said that these diffs might be seen as…
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[2,3]
	; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0			; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm1
	; AVX512F-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX512F-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: sitofp_load_8i64_to_8f32:			; AVX512VL-LABEL: sitofp_load_8i64_to_8f32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax			; AVX512VL-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm1
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
	; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2
	; AVX512VL-NEXT: vmovq %xmm2, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
	; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; AVX512VL-NEXT: vmovq %xmm2, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[2,3]
				; AVX512VL-NEXT: vmovq %xmm3, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
				; AVX512VL-NEXT: vpextrq $1, %xmm3, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm2			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX512VL-NEXT: vextracti32x4 $1, %zmm0, %xmm0
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm3			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm0
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[2,3]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm0			; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
	; AVX512VL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512VL-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm1
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
				; AVX512VL-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: sitofp_load_8i64_to_8f32:			; AVX512DQ-LABEL: sitofp_load_8i64_to_8f32:
	; AVX512DQ: # BB#0:			; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vcvtqq2ps (%rdi), %ymm0			; AVX512DQ-NEXT: vcvtqq2ps (%rdi), %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: sitofp_load_8i64_to_8f32:			; AVX512VLDQ-LABEL: sitofp_load_8i64_to_8f32:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; SSE-NEXT: xorps %xmm2, %xmm2			; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: cvtsi2ssq %rax, %xmm2			; SSE-NEXT: cvtsi2ssq %rax, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm2			; SSE-NEXT: addss %xmm2, %xmm2
	; SSE-NEXT: .LBB76_12:			; SSE-NEXT: .LBB76_12:
	; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_4i64_to_4f32:			; VEX-LABEL: uitofp_load_4i64_to_4f32:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm2
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vmovdqa 16(%rdi), %xmm0
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vpextrq $1, %xmm2, %rax
	; AVX1-NEXT: js .LBB76_1			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#2:			; VEX-NEXT: js .LBB76_1
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; VEX-NEXT: # BB#2:
	; AVX1-NEXT: jmp .LBB76_3			; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX1-NEXT: .LBB76_1:			; VEX-NEXT: jmp .LBB76_3
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB76_1:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1			; VEX-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX1-NEXT: .LBB76_3:			; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: .LBB76_3:
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vmovq %xmm2, %rax
	; AVX1-NEXT: js .LBB76_4			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#5:			; VEX-NEXT: js .LBB76_4
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; VEX-NEXT: # BB#5:
	; AVX1-NEXT: jmp .LBB76_6			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: .LBB76_4:			; VEX-NEXT: jmp .LBB76_6
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB76_4:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: .LBB76_6:			; VEX-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]			; VEX-NEXT: .LBB76_6:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; VEX-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB76_7			; VEX-NEXT: js .LBB76_7
	; AVX1-NEXT: # BB#8:			; VEX-NEXT: # BB#8:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: jmp .LBB76_9			; VEX-NEXT: jmp .LBB76_9
	; AVX1-NEXT: .LBB76_7:			; VEX-NEXT: .LBB76_7:
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2			; VEX-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: .LBB76_9:			; VEX-NEXT: .LBB76_9:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]			; VEX-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB76_10			; VEX-NEXT: js .LBB76_10
	; AVX1-NEXT: # BB#11:			; VEX-NEXT: # BB#11:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vzeroupper			; VEX-NEXT: retq
	; AVX1-NEXT: retq			; VEX-NEXT: .LBB76_10:
	; AVX1-NEXT: .LBB76_10:			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0			; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm0			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; VEX-NEXT: retq
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: uitofp_load_4i64_to_4f32:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_1
	; AVX2-NEXT: # BB#2:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: jmp .LBB76_3
	; AVX2-NEXT: .LBB76_1:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB76_3:
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_4
	; AVX2-NEXT: # BB#5:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: jmp .LBB76_6
	; AVX2-NEXT: .LBB76_4:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB76_6:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_7
	; AVX2-NEXT: # BB#8:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: jmp .LBB76_9
	; AVX2-NEXT: .LBB76_7:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB76_9:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB76_10
	; AVX2-NEXT: # BB#11:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq
	; AVX2-NEXT: .LBB76_10:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_4i64_to_4f32:			; AVX512F-LABEL: uitofp_load_4i64_to_4f32:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa (%rdi), %ymm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
				; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vmovq %xmm1, %rax
				; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
				; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: uitofp_load_4i64_to_4f32:			; AVX512VL-LABEL: uitofp_load_4i64_to_4f32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa (%rdi), %ymm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
				; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm1, %xmm1
	; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0],xmm1[0],xmm2[2,3]
	; AVX512VL-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0],xmm1[3]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm0
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[0]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vmovq %xmm1, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm2
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm2[0],xmm0[3]
				; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: uitofp_load_4i64_to_4f32:			; AVX512DQ-LABEL: uitofp_load_4i64_to_4f32:
	; AVX512DQ: # BB#0:			; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vmovaps (%rdi), %ymm0			; AVX512DQ-NEXT: vmovaps (%rdi), %ymm0
	; AVX512DQ-NEXT: vcvtuqq2ps %zmm0, %ymm0			; AVX512DQ-NEXT: vcvtuqq2ps %zmm0, %ymm0
	; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>			; AVX512DQ-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<kill>
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
	; SSE-NEXT: xorps %xmm2, %xmm2			; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: cvtsi2ssq %rax, %xmm2			; SSE-NEXT: cvtsi2ssq %rax, %xmm2
	; SSE-NEXT: addss %xmm2, %xmm2			; SSE-NEXT: addss %xmm2, %xmm2
	; SSE-NEXT: .LBB80_24:			; SSE-NEXT: .LBB80_24:
	; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm5[0]			; SSE-NEXT: unpcklpd {{.*#+}} xmm1 = xmm1[0],xmm5[0]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_8i64_to_8f32:			; VEX-LABEL: uitofp_load_8i64_to_8f32:
	; AVX1: # BB#0:			; VEX: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; VEX-NEXT: vmovdqa (%rdi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rdi), %ymm2			; VEX-NEXT: vmovdqa 16(%rdi), %xmm0
	; AVX1-NEXT: vpextrq $1, %xmm2, %rax			; VEX-NEXT: vmovdqa 32(%rdi), %xmm4
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX1-NEXT: js .LBB80_1			; VEX-NEXT: vpextrq $1, %xmm4, %rax
	; AVX1-NEXT: # BB#2:			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; VEX-NEXT: js .LBB80_1
	; AVX1-NEXT: jmp .LBB80_3			; VEX-NEXT: # BB#2:
	; AVX1-NEXT: .LBB80_1:			; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: jmp .LBB80_3
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: .LBB80_1:
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vaddss %xmm1, %xmm1, %xmm1			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: .LBB80_3:			; VEX-NEXT: vcvtsi2ssq %rax, %xmm2, %xmm2
	; AVX1-NEXT: vmovq %xmm2, %rax			; VEX-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: .LBB80_3:
	; AVX1-NEXT: js .LBB80_4			; VEX-NEXT: vmovq %xmm4, %rax
	; AVX1-NEXT: # BB#5:			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3			; VEX-NEXT: js .LBB80_4
	; AVX1-NEXT: jmp .LBB80_6			; VEX-NEXT: # BB#5:
	; AVX1-NEXT: .LBB80_4:			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: jmp .LBB80_6
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: .LBB80_4:
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: .LBB80_6:			; VEX-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; VEX-NEXT: vaddss %xmm4, %xmm4, %xmm5
	; AVX1-NEXT: vmovq %xmm2, %rax			; VEX-NEXT: .LBB80_6:
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vmovq %xmm3, %rax
	; AVX1-NEXT: js .LBB80_7			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#8:			; VEX-NEXT: js .LBB80_7
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4			; VEX-NEXT: # BB#8:
	; AVX1-NEXT: jmp .LBB80_9			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX1-NEXT: .LBB80_7:			; VEX-NEXT: jmp .LBB80_9
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB80_7:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm4, %xmm4, %xmm4			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm4
	; AVX1-NEXT: .LBB80_9:			; VEX-NEXT: vaddss %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpextrq $1, %xmm2, %rax			; VEX-NEXT: .LBB80_9:
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vpextrq $1, %xmm3, %rax
	; AVX1-NEXT: js .LBB80_10			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#11:			; VEX-NEXT: js .LBB80_10
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2			; VEX-NEXT: # BB#11:
	; AVX1-NEXT: jmp .LBB80_12			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
	; AVX1-NEXT: .LBB80_10:			; VEX-NEXT: jmp .LBB80_12
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB80_10:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
	; AVX1-NEXT: .LBB80_12:			; VEX-NEXT: vaddss %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; VEX-NEXT: .LBB80_12:
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: js .LBB80_13			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#14:			; VEX-NEXT: js .LBB80_13
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5			; VEX-NEXT: # BB#14:
	; AVX1-NEXT: jmp .LBB80_15			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm6
	; AVX1-NEXT: .LBB80_13:			; VEX-NEXT: jmp .LBB80_15
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB80_13:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm5, %xmm5, %xmm5			; VEX-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm6
	; AVX1-NEXT: .LBB80_15:			; VEX-NEXT: vaddss %xmm6, %xmm6, %xmm6
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]			; VEX-NEXT: .LBB80_15:
	; AVX1-NEXT: vmovq %xmm0, %rax			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm5[0],xmm2[0],xmm5[2,3]
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: js .LBB80_16			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: # BB#17:			; VEX-NEXT: js .LBB80_16
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3			; VEX-NEXT: # BB#17:
	; AVX1-NEXT: jmp .LBB80_18			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm5
	; AVX1-NEXT: .LBB80_16:			; VEX-NEXT: jmp .LBB80_18
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: .LBB80_16:
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vaddss %xmm3, %xmm3, %xmm3			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm1
	; AVX1-NEXT: .LBB80_18:			; VEX-NEXT: vaddss %xmm1, %xmm1, %xmm5
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]			; VEX-NEXT: .LBB80_18:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]			; VEX-NEXT: vinsertps {{.*#+}} xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm5[0],xmm6[0],xmm5[2,3]
	; AVX1-NEXT: vmovq %xmm4, %rax			; VEX-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_19			; VEX-NEXT: js .LBB80_19
	; AVX1-NEXT: # BB#20:			; VEX-NEXT: # BB#20:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm5			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm4
	; AVX1-NEXT: jmp .LBB80_21			; VEX-NEXT: jmp .LBB80_21
	; AVX1-NEXT: .LBB80_19:			; VEX-NEXT: .LBB80_19:
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm4
	; AVX1-NEXT: vaddss %xmm0, %xmm0, %xmm5			; VEX-NEXT: vaddss %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: .LBB80_21:			; VEX-NEXT: .LBB80_21:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]			; VEX-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm3[0]
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]			; VEX-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
	; AVX1-NEXT: vpextrq $1, %xmm4, %rax			; VEX-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: testq %rax, %rax			; VEX-NEXT: testq %rax, %rax
	; AVX1-NEXT: js .LBB80_22			; VEX-NEXT: js .LBB80_22
	; AVX1-NEXT: # BB#23:			; VEX-NEXT: # BB#23:
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm0
	; AVX1-NEXT: jmp .LBB80_24			; VEX-NEXT: jmp .LBB80_24
	; AVX1-NEXT: .LBB80_22:			; VEX-NEXT: .LBB80_22:
	; AVX1-NEXT: movq %rax, %rcx			; VEX-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq %rcx			; VEX-NEXT: shrq %rcx
	; AVX1-NEXT: andl $1, %eax			; VEX-NEXT: andl $1, %eax
	; AVX1-NEXT: orq %rcx, %rax			; VEX-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2			; VEX-NEXT: vcvtsi2ssq %rax, %xmm7, %xmm0
	; AVX1-NEXT: vaddss %xmm2, %xmm2, %xmm2			; VEX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: .LBB80_24:			; VEX-NEXT: .LBB80_24:
	; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; VEX-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; VEX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; VEX-NEXT: retq
	;
	; AVX2-LABEL: uitofp_load_8i64_to_8f32:
	; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqa (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa 32(%rdi), %ymm2
	; AVX2-NEXT: vpextrq $1, %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_1
	; AVX2-NEXT: # BB#2:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: jmp .LBB80_3
	; AVX2-NEXT: .LBB80_1:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .LBB80_3:
	; AVX2-NEXT: vmovq %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_4
	; AVX2-NEXT: # BB#5:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: jmp .LBB80_6
	; AVX2-NEXT: .LBB80_4:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm3, %xmm3
	; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: .LBB80_6:
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm2
	; AVX2-NEXT: vmovq %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_7
	; AVX2-NEXT: # BB#8:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX2-NEXT: jmp .LBB80_9
	; AVX2-NEXT: .LBB80_7:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm4, %xmm4
	; AVX2-NEXT: vaddss %xmm4, %xmm4, %xmm4
	; AVX2-NEXT: .LBB80_9:
	; AVX2-NEXT: vpextrq $1, %xmm2, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_10
	; AVX2-NEXT: # BB#11:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX2-NEXT: jmp .LBB80_12
	; AVX2-NEXT: .LBB80_10:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB80_12:
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_13
	; AVX2-NEXT: # BB#14:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX2-NEXT: jmp .LBB80_15
	; AVX2-NEXT: .LBB80_13:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm5, %xmm5
	; AVX2-NEXT: vaddss %xmm5, %xmm5, %xmm5
	; AVX2-NEXT: .LBB80_15:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0],xmm1[0],xmm3[2,3]
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_16
	; AVX2-NEXT: # BB#17:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
	; AVX2-NEXT: jmp .LBB80_18
	; AVX2-NEXT: .LBB80_16:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm3
	; AVX2-NEXT: vaddss %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: .LBB80_18:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
	; AVX2-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[2,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4
	; AVX2-NEXT: vmovq %xmm4, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_19
	; AVX2-NEXT: # BB#20:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm5
	; AVX2-NEXT: jmp .LBB80_21
	; AVX2-NEXT: .LBB80_19:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm0
	; AVX2-NEXT: vaddss %xmm0, %xmm0, %xmm5
	; AVX2-NEXT: .LBB80_21:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[0,1,2],xmm2[0]
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm3[0,1],xmm5[0],xmm3[3]
	; AVX2-NEXT: vpextrq $1, %xmm4, %rax
	; AVX2-NEXT: testq %rax, %rax
	; AVX2-NEXT: js .LBB80_22
	; AVX2-NEXT: # BB#23:
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2
	; AVX2-NEXT: jmp .LBB80_24
	; AVX2-NEXT: .LBB80_22:
	; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vcvtsi2ssq %rax, %xmm6, %xmm2
	; AVX2-NEXT: vaddss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: .LBB80_24:
	; AVX2-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]
	; AVX2-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_load_8i64_to_8f32:			; AVX512F-LABEL: uitofp_load_8i64_to_8f32:
	; AVX512F: # BB#0:			; AVX512F: # BB#0:
	; AVX512F-NEXT: vmovdqa64 (%rdi), %zmm0			; AVX512F-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512F-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512F-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512F-NEXT: vpextrq $1, %xmm1, %rax			; AVX512F-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2			; AVX512F-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
	; AVX512F-NEXT: vextracti32x4 $3, %zmm0, %xmm2
	; AVX512F-NEXT: vmovq %xmm2, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm3
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
	; AVX512F-NEXT: vpextrq $1, %xmm2, %rax			; AVX512F-NEXT: vpextrq $1, %xmm2, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm4
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; AVX512F-NEXT: vmovq %xmm2, %rax
				; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm2
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[2,3]
				; AVX512F-NEXT: vmovq %xmm3, %rax
				; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm4
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
				; AVX512F-NEXT: vpextrq $1, %xmm3, %rax
				; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
				; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vmovq %xmm0, %rax
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm0
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[2,3]
	; AVX512F-NEXT: vextracti32x4 $1, %zmm0, %xmm0			; AVX512F-NEXT: vmovq %xmm1, %rax
	; AVX512F-NEXT: vmovq %xmm0, %rax			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX512F-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512F-NEXT: vpextrq $1, %xmm0, %rax			; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm1
	; AVX512F-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm0			; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
	; AVX512F-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX512F-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX512F-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: uitofp_load_8i64_to_8f32:			; AVX512VL-LABEL: uitofp_load_8i64_to_8f32:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0			; AVX512VL-NEXT: vmovdqa (%rdi), %xmm0
	; AVX512VL-NEXT: vextracti32x4 $2, %zmm0, %xmm1			; AVX512VL-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax			; AVX512VL-NEXT: vmovdqa 32(%rdi), %xmm2
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm2, %xmm2			; AVX512VL-NEXT: vmovdqa 48(%rdi), %xmm3
	; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm1
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[2,3]
	; AVX512VL-NEXT: vextracti32x4 $3, %zmm0, %xmm2
	; AVX512VL-NEXT: vmovq %xmm2, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm3, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],xmm3[0],xmm1[3]
	; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm2, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm4
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],xmm2[0]			; AVX512VL-NEXT: vmovq %xmm2, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm2
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm4[0],xmm2[2,3]
				; AVX512VL-NEXT: vmovq %xmm3, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm4
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm4[0],xmm2[3]
				; AVX512VL-NEXT: vpextrq $1, %xmm3, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],xmm3[0]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm2			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
	; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
	; AVX512VL-NEXT: vextracti32x4 $1, %zmm0, %xmm0
	; AVX512VL-NEXT: vmovq %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm0, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm3			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm0
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],xmm3[0],xmm2[3]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[2,3]
	; AVX512VL-NEXT: vpextrq $1, %xmm0, %rax			; AVX512VL-NEXT: vmovq %xmm1, %rax
	; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm4, %xmm0			; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm3
	; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[0]			; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
	; AVX512VL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpextrq $1, %xmm1, %rax
				; AVX512VL-NEXT: vcvtusi2ssq %rax, %xmm5, %xmm1
				; AVX512VL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
				; AVX512VL-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: uitofp_load_8i64_to_8f32:			; AVX512DQ-LABEL: uitofp_load_8i64_to_8f32:
	; AVX512DQ: # BB#0:			; AVX512DQ: # BB#0:
	; AVX512DQ-NEXT: vcvtuqq2ps (%rdi), %ymm0			; AVX512DQ-NEXT: vcvtuqq2ps (%rdi), %ymm0
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: uitofp_load_8i64_to_8f32:			; AVX512VLDQ-LABEL: uitofp_load_8i64_to_8f32:
	Show All 26 Lines
	; SSE-NEXT: psrld $16, %xmm1			; SSE-NEXT: psrld $16, %xmm1
	; SSE-NEXT: por %xmm5, %xmm1			; SSE-NEXT: por %xmm5, %xmm1
	; SSE-NEXT: addps %xmm6, %xmm1			; SSE-NEXT: addps %xmm6, %xmm1
	; SSE-NEXT: addps %xmm2, %xmm1			; SSE-NEXT: addps %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_load_8i32_to_8f32:			; AVX1-LABEL: uitofp_load_8i32_to_8f32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovdqa (%rdi), %ymm0			; AVX1-NEXT: vmovaps (%rdi), %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vmovdqa (%rdi), %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm2
				; AVX1-NEXT: vpsrld $16, %xmm1, %xmm1
	; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2			; AVX1-NEXT: vpsrld $16, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vcvtdq2ps %ymm1, %ymm1			; AVX1-NEXT: vcvtdq2ps %ymm1, %ymm1
	; AVX1-NEXT: vmulps {{.*}}(%rip), %ymm1, %ymm1			; AVX1-NEXT: vmulps {{.*}}(%rip), %ymm1, %ymm1
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vcvtdq2ps %ymm0, %ymm0			; AVX1-NEXT: vcvtdq2ps %ymm0, %ymm0
	; AVX1-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX1-NEXT: vaddps %ymm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 232 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-compare-results.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 10,163 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: test_cmp_v32i64:			; AVX1-LABEL: test_cmp_v32i64:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: pushq %rbp			; AVX1-NEXT: pushq %rbp
	; AVX1-NEXT: movq %rsp, %rbp			; AVX1-NEXT: movq %rsp, %rbp
	; AVX1-NEXT: andq $-32, %rsp			; AVX1-NEXT: andq $-32, %rsp
	; AVX1-NEXT: subq $32, %rsp			; AVX1-NEXT: subq $32, %rsp
	; AVX1-NEXT: vmovdqa 240(%rbp), %ymm8			; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm8, %xmm9			; AVX1-NEXT: vpcmpgtq 256(%rbp), %xmm8, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm10			; AVX1-NEXT: vpcmpgtq 240(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm9, %xmm10, %xmm9			; AVX1-NEXT: vpacksswb %xmm8, %xmm7, %xmm8
	; AVX1-NEXT: vmovdqa 208(%rbp), %ymm10
	; AVX1-NEXT: vpcmpgtq %xmm8, %xmm7, %xmm7
	; AVX1-NEXT: vpacksswb %xmm9, %xmm7, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm10, %xmm9
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm9, %xmm7, %xmm7			; AVX1-NEXT: vpcmpgtq 224(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm10, %xmm6, %xmm6			; AVX1-NEXT: vpcmpgtq 208(%rbp), %xmm6, %xmm6
	; AVX1-NEXT: vmovdqa 176(%rbp), %ymm9
	; AVX1-NEXT: vpacksswb %xmm7, %xmm6, %xmm6			; AVX1-NEXT: vpacksswb %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vpacksswb %xmm8, %xmm6, %xmm8			; AVX1-NEXT: vpacksswb %xmm8, %xmm6, %xmm6
	; AVX1-NEXT: vextractf128 $1, %ymm9, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm7
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm6			; AVX1-NEXT: vpcmpgtq 192(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm7, %xmm6, %xmm6			; AVX1-NEXT: vpcmpgtq 176(%rbp), %xmm5, %xmm5
	; AVX1-NEXT: vmovdqa 144(%rbp), %ymm10			; AVX1-NEXT: vpacksswb %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vpcmpgtq %xmm9, %xmm5, %xmm5
	; AVX1-NEXT: vpacksswb %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm10, %xmm6
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm7			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpcmpgtq 160(%rbp), %xmm7, %xmm7
	; AVX1-NEXT: vpcmpgtq %xmm10, %xmm4, %xmm4			; AVX1-NEXT: vpcmpgtq 144(%rbp), %xmm4, %xmm4
	; AVX1-NEXT: vpacksswb %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpacksswb %xmm7, %xmm4, %xmm4
	; AVX1-NEXT: vmovdqa 112(%rbp), %ymm6
	; AVX1-NEXT: vpacksswb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpacksswb %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpacksswb %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpacksswb %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm7			; AVX1-NEXT: vpcmpgtq 128(%rbp), %xmm5, %xmm5
	; AVX1-NEXT: vpcmpgtq %xmm5, %xmm7, %xmm5			; AVX1-NEXT: vpcmpgtq 112(%rbp), %xmm3, %xmm3
	; AVX1-NEXT: vmovdqa 80(%rbp), %ymm7
	; AVX1-NEXT: vpcmpgtq %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpacksswb %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpacksswb %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6			; AVX1-NEXT: vpcmpgtq 96(%rbp), %xmm5, %xmm5
	; AVX1-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpcmpgtq 80(%rbp), %xmm2, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa 48(%rbp), %ymm6
	; AVX1-NEXT: vpacksswb %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpacksswb %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpacksswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpacksswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vpcmpgtq 64(%rbp), %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm5, %xmm3			; AVX1-NEXT: vpcmpgtq 48(%rbp), %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa 16(%rbp), %ymm5
	; AVX1-NEXT: vpcmpgtq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpacksswb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpacksswb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; AVX1-NEXT: vpcmpgtq 32(%rbp), %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm6, %xmm3			; AVX1-NEXT: vpcmpgtq 16(%rbp), %xmm0, %xmm0
	; AVX1-NEXT: vpcmpgtq %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpacksswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpacksswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: movq %rbp, %rsp			; AVX1-NEXT: movq %rbp, %rsp
	; AVX1-NEXT: popq %rbp			; AVX1-NEXT: popq %rbp
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 809 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-256.ll

	Show First 20 Lines • Show All 1,181 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: constant_shift_v4i64:			; AVX512VL-LABEL: constant_shift_v4i64:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpsravq {{.*}}(%rip), %ymm0, %ymm0			; AVX512VL-NEXT: vpsravq {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-AVX1-LABEL: constant_shift_v4i64:			; X32-AVX1-LABEL: constant_shift_v4i64:
	; X32-AVX1: # BB#0:			; X32-AVX1: # BB#0:
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [0,2147483648,0,2147483648]			; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm2, %xmm3
	; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm3, %xmm4			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm2[2,3,0,1]			; X32-AVX1-NEXT: vpsrlq %xmm4, %xmm2, %xmm5
	; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm3, %xmm6			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm6[4,5,6,7]			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6			; X32-AVX1-NEXT: vpsrlq %xmm4, %xmm5, %xmm4
	; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm6, %xmm2			; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm5, %xmm1
	; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm6, %xmm5			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm4[4,5,6,7]
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm5[4,5,6,7]			; X32-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2			; X32-AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpsubq %xmm4, %xmm2, %xmm2			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm3, %xmm4			; X32-AVX1-NEXT: vpsrlq %xmm3, %xmm2, %xmm4
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm1[2,3,0,1]			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,3,0,1]
	; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm3, %xmm3			; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm2, %xmm2
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0,1,2,3],xmm2[4,5,6,7]
	; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm0, %xmm1			; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm0, %xmm4
	; X32-AVX1-NEXT: vpsrlq %xmm5, %xmm0, %xmm0			; X32-AVX1-NEXT: vpsrlq %xmm3, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm4[4,5,6,7]
	; X32-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; X32-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0			; X32-AVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v4i64:			; X32-AVX2-LABEL: constant_shift_v4i64:
	; X32-AVX2: # BB#0:			; X32-AVX2: # BB#0:
	; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]			; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]
	; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]			; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]
	; X32-AVX2-NEXT: vpsrlvq %ymm1, %ymm2, %ymm3			; X32-AVX2-NEXT: vpsrlvq %ymm1, %ymm2, %ymm3
	; X32-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; X32-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 717 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-lshr-256.ll

	Show First 20 Lines • Show All 928 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: constant_shift_v4i64:			; AVX512VL-LABEL: constant_shift_v4i64:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-AVX1-LABEL: constant_shift_v4i64:			; X32-AVX1-LABEL: constant_shift_v4i64:
	; X32-AVX1: # BB#0:			; X32-AVX1: # BB#0:
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm3, %xmm4
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm3, %xmm2			; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm3, %xmm2
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0,1,2,3],xmm2[4,5,6,7]			; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm3, %xmm1
	; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm0, %xmm3			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vpsrlq %xmm1, %xmm0, %xmm0			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[2,3,0,1]
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]			; X32-AVX1-NEXT: vpsrlq %xmm3, %xmm0, %xmm3
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X32-AVX1-NEXT: vpsrlq %xmm2, %xmm0, %xmm0
				; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
				; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v4i64:			; X32-AVX2-LABEL: constant_shift_v4i64:
	; X32-AVX2: # BB#0:			; X32-AVX2: # BB#0:
	; X32-AVX2-NEXT: vpsrlvq {{\.LCPI.*}}, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsrlvq {{\.LCPI.*}}, %ymm0, %ymm0
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>			%shift = lshr <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
	ret <4 x i64> %shift			ret <4 x i64> %shift
	▲ Show 20 Lines • Show All 586 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-shl-256.ll

	Show First 20 Lines • Show All 855 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: constant_shift_v4i64:			; AVX512VL-LABEL: constant_shift_v4i64:
	; AVX512VL: # BB#0:			; AVX512VL: # BB#0:
	; AVX512VL-NEXT: vpsllvq {{.*}}(%rip), %ymm0, %ymm0			; AVX512VL-NEXT: vpsllvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-AVX1-LABEL: constant_shift_v4i64:			; X32-AVX1-LABEL: constant_shift_v4i64:
	; X32-AVX1: # BB#0:			; X32-AVX1: # BB#0:
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} ymm1 = [1,0,7,0,31,0,62,0]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; X32-AVX1-NEXT: vpsllq %xmm2, %xmm3, %xmm4
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
	; X32-AVX1-NEXT: vpsllq %xmm2, %xmm3, %xmm2			; X32-AVX1-NEXT: vpsllq %xmm2, %xmm3, %xmm2
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0,1,2,3],xmm2[4,5,6,7]			; X32-AVX1-NEXT: vpsllq %xmm1, %xmm3, %xmm1
	; X32-AVX1-NEXT: vpsllq %xmm1, %xmm0, %xmm3			; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,0,7,0,31,0,62,0]
	; X32-AVX1-NEXT: vpsllq %xmm1, %xmm0, %xmm0			; X32-AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm2[2,3,0,1]
	; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]			; X32-AVX1-NEXT: vpsllq %xmm3, %xmm0, %xmm3
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; X32-AVX1-NEXT: vpsllq %xmm2, %xmm0, %xmm0
				; X32-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
				; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v4i64:			; X32-AVX2-LABEL: constant_shift_v4i64:
	; X32-AVX2: # BB#0:			; X32-AVX2: # BB#0:
	; X32-AVX2-NEXT: vpsllvq {{\.LCPI.*}}, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsllvq {{\.LCPI.*}}, %ymm0, %ymm0
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = shl <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>			%shift = shl <4 x i64> %a, <i64 1, i64 7, i64 31, i64 62>
	ret <4 x i64> %shift			ret <4 x i64> %shift
	▲ Show 20 Lines • Show All 498 Lines • Show Last 20 Lines

test/CodeGen/X86/viabs.ll

	Show First 20 Lines • Show All 567 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrad $31, %xmm4			; SSE-NEXT: psrad $31, %xmm4
	; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE-NEXT: paddq %xmm4, %xmm3			; SSE-NEXT: paddq %xmm4, %xmm3
	; SSE-NEXT: pxor %xmm4, %xmm3			; SSE-NEXT: pxor %xmm4, %xmm3
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_abs_le_v8i64_fold:			; AVX1-LABEL: test_abs_le_v8i64_fold:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vmovdqu (%rdi), %ymm0			; AVX1-NEXT: vmovdqu (%rdi), %xmm0
	; AVX1-NEXT: vmovdqu 32(%rdi), %ymm1			; AVX1-NEXT: vmovdqu 16(%rdi), %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vmovdqu 32(%rdi), %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX1-NEXT: vmovdqu 48(%rdi), %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4			; AVX1-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm5			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm4, %xmm5
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm5, %ymm6			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm4, %xmm6
	; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm7
	; AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpaddq %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vxorps %ymm6, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vxorps %ymm7, %ymm0, %ymm0
	; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm3			; AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm4
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm5			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm4, %ymm5
				; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm5, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm5, %ymm1, %ymm1
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_abs_le_v8i64_fold:			; AVX2-LABEL: test_abs_le_v8i64_fold:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vmovdqu (%rdi), %ymm0			; AVX2-NEXT: vmovdqu (%rdi), %ymm0
	; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1			; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1
	; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm2, %ymm2, %ymm2
	▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

test/CodeGen/X86/x86-interleaved-access.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1		; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx2 < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2		; RUN: llc -mtriple=x86_64-pc-linux -mattr=+avx2 < %s \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2

define <4 x double> @load_factorf64_4(<16 x double>* %ptr) {		define <4 x double> @load_factorf64_4(<16 x double>* %ptr) {
; AVX-LABEL: load_factorf64_4:		; AVX-LABEL: load_factorf64_4:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovupd (%rdi), %ymm0		; AVX-NEXT: vmovupd (%rdi), %ymm0
; AVX-NEXT: vmovupd 32(%rdi), %ymm1		; AVX-NEXT: vmovupd 32(%rdi), %ymm1
; AVX-NEXT: vmovupd 64(%rdi), %ymm2		; AVX-NEXT: vinsertf128 $1, 64(%rdi), %ymm0, %ymm2
; AVX-NEXT: vmovupd 96(%rdi), %ymm3		; AVX-NEXT: vinsertf128 $1, 96(%rdi), %ymm1, %ymm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4		; AVX-NEXT: vhaddpd %ymm3, %ymm2, %ymm2
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5		; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX-NEXT: vhaddpd %ymm5, %ymm4, %ymm4		; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],mem[2,3]
; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]		; AVX-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]		; AVX-NEXT: vaddpd %ymm3, %ymm2, %ymm2
; AVX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX-NEXT: vaddpd %ymm2, %ymm4, %ymm2
; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; AVX-NEXT: vaddpd %ymm0, %ymm2, %ymm0		; AVX-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16		%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16
%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>		%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
%strided.v1 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>		%strided.v1 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
%strided.v2 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>		%strided.v2 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>		%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
%add1 = fadd <4 x double> %strided.v0, %strided.v1		%add1 = fadd <4 x double> %strided.v0, %strided.v1
%add2 = fadd <4 x double> %add1, %strided.v2		%add2 = fadd <4 x double> %add1, %strided.v2
%add3 = fadd <4 x double> %add2, %strided.v3		%add3 = fadd <4 x double> %add2, %strided.v3
ret <4 x double> %add3		ret <4 x double> %add3
}		}

define <4 x double> @load_factorf64_2(<16 x double>* %ptr) {		define <4 x double> @load_factorf64_2(<16 x double>* %ptr) {
; AVX-LABEL: load_factorf64_2:		; AVX-LABEL: load_factorf64_2:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovupd (%rdi), %ymm0		; AVX-NEXT: vmovupd (%rdi), %ymm0
; AVX-NEXT: vmovupd 32(%rdi), %ymm1		; AVX-NEXT: vmovupd 32(%rdi), %ymm1
; AVX-NEXT: vmovupd 64(%rdi), %ymm2		; AVX-NEXT: vinsertf128 $1, 64(%rdi), %ymm0, %ymm2
; AVX-NEXT: vmovupd 96(%rdi), %ymm3		; AVX-NEXT: vinsertf128 $1, 96(%rdi), %ymm1, %ymm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4		; AVX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm2[0],ymm3[0],ymm2[2],ymm3[2]
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5		; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX-NEXT: vunpcklpd {{.*#+}} ymm4 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]		; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],mem[2,3]
; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
; AVX-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; AVX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; AVX-NEXT: vmulpd %ymm0, %ymm4, %ymm0		; AVX-NEXT: vmulpd %ymm0, %ymm2, %ymm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16		%wide.vec = load <16 x double>, <16 x double>* %ptr, align 16
%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>		%strided.v0 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>		%strided.v3 = shufflevector <16 x double> %wide.vec, <16 x double> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
%mul = fmul <4 x double> %strided.v0, %strided.v3		%mul = fmul <4 x double> %strided.v0, %strided.v3
ret <4 x double> %mul		ret <4 x double> %mul
}		}

Show All 24 Lines	; AVX2-NEXT: retq
ret <4 x double> %mul		ret <4 x double> %mul
}		}

define <4 x i64> @load_factori64_4(<16 x i64>* %ptr) {		define <4 x i64> @load_factori64_4(<16 x i64>* %ptr) {
; AVX1-LABEL: load_factori64_4:		; AVX1-LABEL: load_factori64_4:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovupd (%rdi), %ymm0		; AVX1-NEXT: vmovupd (%rdi), %ymm0
; AVX1-NEXT: vmovupd 32(%rdi), %ymm1		; AVX1-NEXT: vmovupd 32(%rdi), %ymm1
; AVX1-NEXT: vmovupd 64(%rdi), %ymm2		; AVX1-NEXT: vinsertf128 $1, 64(%rdi), %ymm0, %ymm2
; AVX1-NEXT: vmovupd 96(%rdi), %ymm3		; AVX1-NEXT: vinsertf128 $1, 96(%rdi), %ymm1, %ymm3
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm4		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm5		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],mem[2,3]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]		; AVX1-NEXT: vunpcklpd {{.*#+}} ymm4 = ymm2[0],ymm3[0],ymm2[2],ymm3[2]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]		; AVX1-NEXT: vunpcklpd {{.*#+}} ymm5 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX1-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]		; AVX1-NEXT: vunpckhpd {{.*#+}} ymm2 = ymm2[1],ymm3[1],ymm2[3],ymm3[3]
; AVX1-NEXT: vunpcklpd {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX1-NEXT: vunpckhpd {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm3
; AVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm4		; AVX1-NEXT: vpaddq %xmm5, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm5
; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpaddq %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpaddq %xmm1, %xmm5, %xmm1		; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0		; AVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0
		; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: load_factori64_4:		; AVX2-LABEL: load_factori64_4:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovdqu (%rdi), %ymm0		; AVX2-NEXT: vmovdqu (%rdi), %ymm0
; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1		; AVX2-NEXT: vmovdqu 32(%rdi), %ymm1
; AVX2-NEXT: vmovdqu 64(%rdi), %ymm2		; AVX2-NEXT: vinserti128 $1, 64(%rdi), %ymm0, %ymm2
; AVX2-NEXT: vmovdqu 96(%rdi), %ymm3		; AVX2-NEXT: vinserti128 $1, 96(%rdi), %ymm1, %ymm3
; AVX2-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm4		; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],mem[2,3]
; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm1, %ymm5		; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],mem[2,3]
; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm4 = ymm2[0],ymm3[0],ymm2[2],ymm3[2]
; AVX2-NEXT: vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm5 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]		; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm2 = ymm2[1],ymm3[1],ymm2[3],ymm3[3]
; AVX2-NEXT: vpunpcklqdq {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; AVX2-NEXT: vpaddq %ymm5, %ymm2, %ymm2
; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
; AVX2-NEXT: vpaddq %ymm3, %ymm4, %ymm3
; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; AVX2-NEXT: vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; AVX2-NEXT: vpaddq %ymm0, %ymm3, %ymm0
; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0		; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
		; AVX2-NEXT: vpaddq %ymm0, %ymm4, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%wide.vec = load <16 x i64>, <16 x i64>* %ptr, align 16		%wide.vec = load <16 x i64>, <16 x i64>* %ptr, align 16
%strided.v0 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>		%strided.v0 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
%strided.v1 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>		%strided.v1 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
%strided.v2 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>		%strided.v2 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
%strided.v3 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>		%strided.v3 = shufflevector <16 x i64> %wide.vec, <16 x i64> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
%add1 = add <4 x i64> %strided.v0, %strided.v1		%add1 = add <4 x i64> %strided.v0, %strided.v1
%add2 = add <4 x i64> %add1, %strided.v2		%add2 = add <4 x i64> %add1, %strided.v2
%add3 = add <4 x i64> %add2, %strided.v3		%add3 = add <4 x i64> %add2, %strided.v3
ret <4 x i64> %add3		ret <4 x i64> %add3
}		}