This is an archive of the discontinued LLVM Phabricator instance.

llvm/test/CodeGen/Mips/cconv/vector.ll
963–1024	There are some regressions in this file but also some improvements. I haven't worked out what's going on yet.
llvm/test/CodeGen/Thumb2/mve-vecreduce-mla.ll
219–229	Regression here and in other cases that are now using muls instead of umull/umlal.
llvm/test/CodeGen/X86/vector-fshl-128.ll
188–190	Regression. Quite a few tests are now using pxor+punpckhdq instead of pshufd. I wonder if some kind of combine could spot this case and turn it back into pshufd.

Harbormaster completed remote builds in B73505: Diff 295270.Sep 30 2020, 7:24 AM

foad added inline comments.Sep 30 2020, 7:34 AM

llvm/test/CodeGen/ARM/dagcombine-anyexttozeroext.ll
46–58	Regression.
llvm/test/CodeGen/ARM/vdup.ll
59–69	Regression in lots of cases in this file.

foad removed a child revision: D88570: [SDag] SimplifyDemandedBits: simplify to FP constant if all bits known.Oct 1 2020, 9:05 AM

Rebase on D88570.

foad added a parent revision: D88570: [SDag] SimplifyDemandedBits: simplify to FP constant if all bits known.Oct 1 2020, 9:15 AM

Harbormaster completed remote builds in B73669: Diff 295595.Oct 1 2020, 9:31 AM

Rebase.

Herald added a subscriber: pengfei. · View Herald TranscriptOct 7 2020, 2:57 AM

Harbormaster completed remote builds in B74243: Diff 296629.Oct 7 2020, 3:09 AM

RKSimon added inline comments.Oct 7 2020, 3:44 AM

llvm/test/CodeGen/AMDGPU/sdiv64.ll
502	Is this a regression? It looks like we're lost track that we only need 1 element
llvm/test/CodeGen/ARM/func-argpassing-endian.ll
106	regression? we're no longer doing a single multiple load
llvm/test/CodeGen/ARM/vdup.ll
59–69	poor duplicate/splat detection?

RKSimon mentioned this in rG6625892d7c5d: [ARM] Regenerate vldlane tests.Oct 7 2020, 3:55 AM

@foad Any update on this?

yubing added a subscriber: yubing.Dec 4 2020, 4:32 AM

yubing added inline comments.Dec 6 2020, 4:19 AM

llvm/test/CodeGen/X86/vector-fshr-128.ll
188–189	Hi, during combination before legalizeDAG. there are the following Nodes: t63: i32 = extract_vector_elt t62, Constant:i32<2> t64: i32 = extract_vector_elt t62, Constant:i32<3> t66: v4i32 = BUILD_VECTOR t63, t64, undef:i32, undef:i32 SimplifyDemandedBits deduce that t64 is a zero, so t66 will transformed into a pxor and a punpckhqd instead of a single pshufd. Maybe in such a case where a buildvector have elts which are extracted from the same vector, you shouldn't SimplifyDemandedBits for extract_vector_elt.

Rebase.

Harbormaster completed remote builds in B85321: Diff 316897.Jan 15 2021, 3:53 AM

RKSimon added inline comments.Jan 15 2021, 5:54 AM

llvm/test/CodeGen/X86/buildvec-insertvec.ll
783	this should simplify to "store i32 undef, store i32* undef" and be removed - can you check why it isn't please?
llvm/test/CodeGen/X86/vec_setcc.ll
223	why didn't this simplify?

foad added inline comments.Jan 15 2021, 9:53 AM

llvm/test/CodeGen/X86/buildvec-insertvec.ll
783	The value being stored is not undef, it's either -2147483648 or poison, depending on the value of %a0. Anyway -simplifycfg would change the store into a trap + unreachable, but nothing in llc's codegen pipeline does that.
llvm/test/CodeGen/X86/vec_setcc.ll
223	What simplification are you expecting?

foad added inline comments.Jan 18 2021, 3:40 AM

llvm/test/CodeGen/X86/buildvec-insertvec.ll
783	I've looked into this more carefully now. Hopefully this answer makes more sense. With my patch `%4 = extractelement <4 x i32> zeroinitializer, i32 %2` is simplified into `i32 0` based on the known bits of all elements. This happens before we simplify %2, because of the weird way that the DAG combiner runs top-down. When we visit %2 we simplify it to -2147483648. After that, if we visited the original %4 again, we would simplify it to undef; but with my patch we have already simplified %4 to 0 so it's too late. I'm not sure what to do about this -- other than change DAGCombine to run bottom-up ;-)

RKSimon added inline comments.Jan 23 2021, 10:19 AM

llvm/test/CodeGen/X86/buildvec-insertvec.ll
783	Do we need to tweak the out-of-range handling to ISD::EXTRACT_VECTOR_ELT indices? Either just for constant indices or we use computeKnownBits to work out if the minimum value always the exceeds the vector element count?

@foad Please can you rebase this?

Rebase. There are two failing tests that I have not updated yet:

Failed Tests (2):

LLVM :: CodeGen/AMDGPU/cttz_zero_undef.ll
LLVM :: CodeGen/AMDGPU/scratch-simple.ll

Maybe in such a case where a buildvector have elts which are extracted from the same vector, you shouldn't SimplifyDemandedBits for extract_vector_elt.

Yes, I am coming round to this idea: don't simplify EXTRACT_VECTOR_ELT to a constant if it is used by BUILD_VECTOR, because of the risk of breaking things like shuffle patterns.

Harbormaster completed remote builds in B95483: Diff 332981.Mar 24 2021, 7:39 AM

RKSimon added inline comments.Mar 24 2021, 7:52 AM

llvm/test/CodeGen/X86/nontemporal-3.ll

5–8

Please can you add a common CHECK prefix:

; RUN: llc < %s -mtriple=x86_64-unknown-unknown | FileCheck %s --check-prefixes=CHECK,SSE
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4a | FileCheck %s --check-prefixes=CHECK,SSE
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefixes=CHECK,SSE
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefixes=CHECK,AVX
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefixes=CHECK,AVX
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq,+avx512vl | FileCheck %s --check-prefixes=CHECK,AVX512
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl | FileCheck %s --check-prefixes=CHECK,AVX512

llvm/test/CodeGen/X86/vec_setcc.ll

223

The 0'th index should be able to extract from the source of the _EXTEND_VECTOR_INREG using SimplifyMultipleUseDemandedBits

Add a common CHECK prefix.

Harbormaster completed remote builds in B95501: Diff 333005.Mar 24 2021, 8:54 AM

RKSimon added inline comments.Mar 29 2021, 3:07 AM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
18014	How come this isn't picking up many of these test cases? Is it being run too late?

foad added inline comments.Mar 29 2021, 3:16 AM

llvm/test/CodeGen/X86/vec_setcc.ll
223	Well %eax is extracted directly from the result of the pcmpeqw, which is the source of the sign_extend_vector_inreg.

@foad Are you intending to take another look at this at all? I'm wondering if could help with some of the regressions in D127115

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2022, 9:36 AM

Herald added subscribers: jsji, kosarev, StephenFan. · View Herald Transcript

Rebase.

Herald added a reviewer: sjarus. · View Herald TranscriptJun 20 2022, 7:47 AM

Herald added subscribers: armkevincheng, eric-k256. · View Herald Transcript

Harbormaster completed remote builds in B170867: Diff 438396.Jun 20 2022, 7:48 AM

There are some outstanding lit test problems:

CodeGen/AMDGPU/bug-v4f64-subvector.ll: timeout
CodeGen/AMDGPU/scratch-simple.ll: fails
CodeGen/Hexagon/autohvx/hfnosplat_cp.ll: fails
CodeGen/Thumb2/mve-sext-masked-load.ll: fails machine verification for the -early-live-intervals RUN line

In D88569#3594683, @RKSimon wrote:

@foad Are you intending to take another look at this at all? I'm wondering if could help with some of the regressions in D127115

TBH I had rather gone off this patch, because it seemed like it would interfere with tests where we want to recombine a bunch of extracts back into some kind of permute instruction. (If you see a bunch of extracts from the same source then you might try to do this, but if one of the extracts has been folded to a constant then it's much harder to spot.) But I have rebased it anyway.

@deadalnix This patch has a number of outstanding problems, and might not be worth it - but can you tell if it helps D127115 at all?

In D88569#3596712, @RKSimon wrote:

@deadalnix This patch has a number of outstanding problems, and might not be worth it - but can you tell if it helps D127115 at all?

Testing that now, I'll let you know.

In D88569#3597508, @deadalnix wrote:

Testing that now, I'll let you know.

So it definitively affects the codegen, but it's not clear if this is better or worse.

In D88569#3597648, @deadalnix wrote:

In D88569#3597508, @deadalnix wrote:

Testing that now, I'll let you know.

So it definitively affects the codegen, but it's not clear if this is better or worse.

Yeah that seems about right

@foad its up to you if you want to persevere, we already have SimplifyDemandedBits support for cases where all uses of the vector are extracts - it looks like we now know why it was never extended beyond that...

This clearly needs work. The original motivation was to be able to remove SIFoldOperands::tryFoldCndMask which is a MIR optimisation that removes a v_cndmask (select) instruction if the values being selected are the same. We sometimes generate these when a 64-bit select is lowered to a pair of 32-bit selects, and the high or low halves of the 64-bit values were the same. I was hoping to fold this away during selection so we wouldn't have to do it later in SIFoldOperands.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

5 lines

test/

CodeGen/

AArch64/

arm64-build-vector.ll

4 lines

arm64-nvcast.ll

13 lines

arm64-promote-const-complex-initializers.ll

20 lines

11 lines

3 lines

35 lines

35 lines

25 lines

25 lines

vecreduce-and-legalization.ll

14 lines

AMDGPU/

15 lines

2 lines

38 lines

16 lines

34 lines

16 lines

38 lines

6 lines

28 lines

38 lines

ARM/

dagcombine-anyexttozeroext.ll

13 lines

fp16-insert-extract.ll

11 lines

func-argpassing-endian.ll

14 lines

vdup.ll

43 lines

vecreduce-fadd-legalization-strict.ll

4 lines

vecreduce-fmul-legalization-strict.ll

4 lines

vldlane.ll

8 lines

vzip.ll

2 lines

Mips/

cconv/

vector.ll

1460 lines

PowerPC/

pr45709.ll

22 lines

Thumb2/

active_lane_mask.ll

10 lines

mve-satmul-loops.ll

72 lines

mve-sext-masked-load.ll

21 lines

mve-shuffle.ll

36 lines

mve-soft-float-abi.ll

7 lines

mve-vecreduce-add.ll

818 lines

mve-vecreduce-addpred.ll

616 lines

1013 lines

46 lines

149 lines

1136 lines

88 lines

276 lines

370 lines

14 lines

61 lines

20 lines

20 lines

71 lines

1226 lines

181 lines

mve-zext-masked-load.ll

47 lines

X86/

2011-10-19-widen_vselect.ll

6 lines

2012-07-10-extload64.ll

4 lines

bitcast-vector-bool.ll

1 line

buildvec-insertvec.ll

1 line

2 lines

28 lines

422 lines

3 lines

13 lines

17 lines

8 lines

22 lines

vector-fshl-rot-128.ll

46 lines

vector-fshr-128.ll

22 lines

vector-fshr-rot-128.ll

46 lines

vector-reduce-mul.ll

109 lines

vector-shuffle-combining.ll

12 lines

vector-trunc-math.ll

6 lines

vselect.ll

38 lines

widen_shuffle-1.ll

4 lines

Diff 296629

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 17,894 Lines • ▼ Show 20 Lines	if (VecVT.isScalableVector())
return SDValue();		return SDValue();

// All the code from this point onwards assumes fixed width vectors, but it's		// All the code from this point onwards assumes fixed width vectors, but it's
// possible that some of the combinations could be made to work for scalable		// possible that some of the combinations could be made to work for scalable
// vectors too.		// vectors too.
unsigned NumElts = VecVT.getVectorNumElements();		unsigned NumElts = VecVT.getVectorNumElements();
unsigned VecEltBitWidth = VecVT.getScalarSizeInBits();		unsigned VecEltBitWidth = VecVT.getScalarSizeInBits();

		// Try to simplify the whole operation to a constant, or simplify its
		// operands.
		if (SimplifyDemandedBits(SDValue(N, 0)))
		return SDValue(N, 0);

// TODO: These transforms should not require the 'hasOneUse' restriction, but		// TODO: These transforms should not require the 'hasOneUse' restriction, but
// there are regressions on multiple targets without it. We can end up with a		// there are regressions on multiple targets without it. We can end up with a
// mess of scalar and vector code if we reduce only part of the DAG to scalar.		// mess of scalar and vector code if we reduce only part of the DAG to scalar.
if (IndexC && VecOp.getOpcode() == ISD::BITCAST && VecVT.isInteger() &&		if (IndexC && VecOp.getOpcode() == ISD::BITCAST && VecVT.isInteger() &&
VecOp.hasOneUse()) {		VecOp.hasOneUse()) {
// The vector index of the LSBs of the source depend on the endian-ness.		// The vector index of the LSBs of the source depend on the endian-ness.
bool IsLE = DAG.getDataLayout().isLittleEndian();		bool IsLE = DAG.getDataLayout().isLittleEndian();
unsigned ExtractIndex = IndexC->getZExtValue();		unsigned ExtractIndex = IndexC->getZExtValue();
▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	if (llvm::all_of(VecOp->uses(), [&](SDNode *Use) {
if (SimplifyDemandedVectorElts(VecOp, DemandedElts, true)) {		if (SimplifyDemandedVectorElts(VecOp, DemandedElts, true)) {
// We simplified the vector operand of this extract element. If this		// We simplified the vector operand of this extract element. If this
// extract is not dead, visit it again so it is folded properly.		// extract is not dead, visit it again so it is folded properly.
if (N->getOpcode() != ISD::DELETED_NODE)		if (N->getOpcode() != ISD::DELETED_NODE)
AddToWorklist(N);		AddToWorklist(N);
return SDValue(N, 0);		return SDValue(N, 0);
}		}
APInt DemandedBits = APInt::getAllOnesValue(VecEltBitWidth);		APInt DemandedBits = APInt::getAllOnesValue(VecEltBitWidth);
if (SimplifyDemandedBits(VecOp, DemandedBits, DemandedElts, true)) {		if (SimplifyDemandedBits(VecOp, DemandedBits, DemandedElts, true)) {
		RKSimonUnsubmitted Not Done Reply Inline Actions How come this isn't picking up many of these test cases? Is it being run too late? RKSimon: How come this isn't picking up many of these test cases? Is it being run too late?
// We simplified the vector operand of this extract element. If this		// We simplified the vector operand of this extract element. If this
// extract is not dead, visit it again so it is folded properly.		// extract is not dead, visit it again so it is folded properly.
if (N->getOpcode() != ISD::DELETED_NODE)		if (N->getOpcode() != ISD::DELETED_NODE)
AddToWorklist(N);		AddToWorklist(N);
return SDValue(N, 0);		return SDValue(N, 0);
}		}
}		}

▲ Show 20 Lines • Show All 4,337 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/arm64-build-vector.ll

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; The lowering of a widened f16 BUILD_VECTOR tries to optimize it by building			; The lowering of a widened f16 BUILD_VECTOR tries to optimize it by building
	; an equivalent integer vector and BITCAST-ing that. This case checks that			; an equivalent integer vector and BITCAST-ing that. This case checks that
	; normalizing the vector generates a valid result. The choice of the			; normalizing the vector generates a valid result. The choice of the
	; constant prevents earlier passes from replacing the BUILD_VECTOR.			; constant prevents earlier passes from replacing the BUILD_VECTOR.
	define void @widen_f16_build_vector(half* %addr) {			define void @widen_f16_build_vector(half* %addr) {
	; CHECK-LABEL: widen_f16_build_vector:			; CHECK-LABEL: widen_f16_build_vector:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: mov w8, #13294			; CHECK-NEXT: mov w8, #13294
	; CHECK-NEXT: dup.4h v0, w8			; CHECK-NEXT: movk w8, #13294, lsl #16
	; CHECK-NEXT: str s0, [x0]			; CHECK-NEXT: str w8, [x0]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%1 = bitcast half* %addr to <2 x half>*			%1 = bitcast half* %addr to <2 x half>*
	store <2 x half> <half 0xH33EE, half 0xH33EE>, <2 x half>* %1, align 2			store <2 x half> <half 0xH33EE, half 0xH33EE>, <2 x half>* %1, align 2
	ret void			ret void
	}			}

	; Check that a single element vector is constructed with a mov			; Check that a single element vector is constructed with a mov
	define <1 x i64> @single_element_vector_i64(<1 x i64> %arg) {			define <1 x i64> @single_element_vector_i64(<1 x i64> %arg) {
	Show All 21 Lines

llvm/test/CodeGen/AArch64/arm64-nvcast.ll

Show All 18 Lines	entry:
%v2 = extractelement <3 x float> <float 0.000000e+00, float 2.000000e+00, float 0.000000e+00>, i32 %v1		%v2 = extractelement <3 x float> <float 0.000000e+00, float 2.000000e+00, float 0.000000e+00>, i32 %v1
store float %v2, float* %p1, align 4		store float %v2, float* %p1, align 4
ret void		ret void
}		}

define void @test2(float * %p1, i32 %v1) {		define void @test2(float * %p1, i32 %v1) {
; CHECK-LABEL: test2:		; CHECK-LABEL: test2:
; CHECK: ; %bb.0: ; %entry		; CHECK: ; %bb.0: ; %entry
; CHECK-NEXT: sub sp, sp, #16 ; =16		; CHECK-NEXT: mov w8, #1061109567
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: str w8, [x0]
; CHECK-NEXT: ; kill: def $w1 killed $w1 def $x1
; CHECK-NEXT: movi.16b v0, #63
; CHECK-NEXT: and x8, x1, #0x3
; CHECK-NEXT: mov x9, sp
; CHECK-NEXT: str q0, [sp]
; CHECK-NEXT: bfi x9, x8, #2, #2
; CHECK-NEXT: ldr s0, [x9]
; CHECK-NEXT: str s0, [x0]
; CHECK-NEXT: add sp, sp, #16 ; =16
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%v2 = extractelement <3 x float> <float 0.7470588088035583, float 0.7470588088035583, float 0.7470588088035583>, i32 %v1		%v2 = extractelement <3 x float> <float 0.7470588088035583, float 0.7470588088035583, float 0.7470588088035583>, i32 %v1
store float %v2, float* %p1, align 4		store float %v2, float* %p1, align 4
ret void		ret void
}		}


Show All 26 Lines

llvm/test/CodeGen/AArch64/arm64-promote-const-complex-initializers.ll

	Show All 24 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	ret [1 x <4 x float>] [<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>)]			ret [1 x <4 x float>] [<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>)]
	}			}

	define [1 x <4 x float>] @test2() {			define [1 x <4 x float>] @test2() {
	; CHECK-LABEL: .p2align 4 ; -- Begin function test2			; CHECK-LABEL: .p2align 4 ; -- Begin function test2
	; CHECK-NEXT: lCPI1_0:			; CHECK-NEXT: lCPI1_0:
	; CHECK-NEXT: .long 0x00000000 ; float 0			; CHECK-NEXT: .long 0x80000000 ; float -0
	; CHECK-NEXT: .long 0x00000000 ; float 0			; CHECK-NEXT: .long 0x80000000 ; float -0
	; CHECK-NEXT: .long 0x00000000 ; float 0			; CHECK-NEXT: .long 0x80000000 ; float -0
	; CHECK-NEXT: .long 0x3f800000 ; float 1			; CHECK-NEXT: .long 0xbf800000 ; float -1
	; CHECK-NEXT: .section __TEXT,__text,regular,pure_instructions			; CHECK-NEXT: .section __TEXT,__text,regular,pure_instructions
	; CHECK-NEXT: .globl _test2			; CHECK-NEXT: .globl _test2
	; CHECK-NEXT: .p2align 2			; CHECK-NEXT: .p2align 2
	; CHECK-NEXT: _test2: ; @test2			; CHECK-NEXT: _test2: ; @test2
	; CHECK-NEXT: .cfi_startproc			; CHECK-NEXT: .cfi_startproc
	; CHECK-NEXT: ; %bb.0:			; CHECK-NEXT: ; %bb.0:
	; CHECK-NEXT: Lloh2:			; CHECK-NEXT: Lloh2:
	; CHECK-NEXT: adrp x8, lCPI1_0@PAGE			; CHECK-NEXT: adrp x8, lCPI1_0@PAGE
	; CHECK-NEXT: Lloh3:			; CHECK-NEXT: Lloh3:
	; CHECK-NEXT: ldr q1, [x8, lCPI1_0@PAGEOFF]			; CHECK-NEXT: ldr q0, [x8, lCPI1_0@PAGEOFF]
	; CHECK-NEXT: mov s2, v1[1]
	; CHECK-NEXT: fneg s0, s1
	; CHECK-NEXT: mov s3, v1[2]
	; CHECK-NEXT: fneg s2, s2
	; CHECK-NEXT: mov s1, v1[3]
	; CHECK-NEXT: fneg s3, s3
	; CHECK-NEXT: mov.s v0[1], v2[0]
	; CHECK-NEXT: mov.s v0[2], v3[0]
	; CHECK-NEXT: fneg s1, s1
	; CHECK-NEXT: mov.s v0[3], v1[0]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	;			;
	ret [1 x <4 x float>] [<4 x float>			ret [1 x <4 x float>] [<4 x float>
	<float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 0)),			<float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 0)),
	float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 1)),			float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 1)),
	float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 2)),			float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 2)),
	float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 3))>]			float fneg (float extractelement (<4 x float> bitcast (<1 x i128> <i128 84405977732342157929391748327801880576> to <4 x float>), i32 3))>]
	}			}

llvm/test/CodeGen/AArch64/dag-numsignbits.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=aarch64-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=aarch64-unknown \| FileCheck %s

	; PR32273			; PR32273

	define void @signbits_vXi1(<4 x i16> %a1) {			define void @signbits_vXi1(<4 x i16> %a1) {
	; CHECK-LABEL: signbits_vXi1:			; CHECK-LABEL: signbits_vXi1:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI0_0			; CHECK-NEXT: adrp x8, .LCPI0_0
	; CHECK-NEXT: ldr d1, [x8, :lo12:.LCPI0_0]			; CHECK-NEXT: ldr d1, [x8, :lo12:.LCPI0_0]
	; CHECK-NEXT: adrp x8, .LCPI0_1
	; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0			; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0
	; CHECK-NEXT: ldr d2, [x8, :lo12:.LCPI0_1]			; CHECK-NEXT: movi v2.4h, #1
	; CHECK-NEXT: dup v0.4h, v0.h[0]			; CHECK-NEXT: dup v0.4h, v0.h[0]
				; CHECK-NEXT: mov w1, wzr
	; CHECK-NEXT: add v0.4h, v0.4h, v1.4h			; CHECK-NEXT: add v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: movi v1.4h, #1			; CHECK-NEXT: cmgt v0.4h, v2.4h, v0.4h
	; CHECK-NEXT: cmgt v0.4h, v1.4h, v0.4h
	; CHECK-NEXT: and v0.8b, v0.8b, v2.8b
	; CHECK-NEXT: shl v0.4h, v0.4h, #15
	; CHECK-NEXT: sshr v0.4h, v0.4h, #15
	; CHECK-NEXT: umov w0, v0.h[0]			; CHECK-NEXT: umov w0, v0.h[0]
	; CHECK-NEXT: umov w3, v0.h[3]			; CHECK-NEXT: umov w3, v0.h[3]
	; CHECK-NEXT: mov w1, wzr
	; CHECK-NEXT: mov w2, wzr			; CHECK-NEXT: mov w2, wzr
	; CHECK-NEXT: b foo			; CHECK-NEXT: b foo
	%tmp3 = shufflevector <4 x i16> %a1, <4 x i16> undef, <4 x i32> zeroinitializer			%tmp3 = shufflevector <4 x i16> %a1, <4 x i16> undef, <4 x i32> zeroinitializer
	%tmp5 = add <4 x i16> %tmp3, <i16 18249, i16 6701, i16 -18744, i16 -25086>			%tmp5 = add <4 x i16> %tmp3, <i16 18249, i16 6701, i16 -18744, i16 -25086>
	%tmp6 = icmp slt <4 x i16> %tmp5, <i16 1, i16 1, i16 1, i16 1>			%tmp6 = icmp slt <4 x i16> %tmp5, <i16 1, i16 1, i16 1, i16 1>
	%tmp7 = and <4 x i1> %tmp6, <i1 true, i1 false, i1 false, i1 true>			%tmp7 = and <4 x i1> %tmp6, <i1 true, i1 false, i1 false, i1 true>
	%tmp8 = sext <4 x i1> %tmp7 to <4 x i16>			%tmp8 = sext <4 x i1> %tmp7 to <4 x i16>
	%tmp9 = extractelement <4 x i16> %tmp8, i32 0			%tmp9 = extractelement <4 x i16> %tmp8, i32 0
	Show All 12 Lines

llvm/test/CodeGen/AArch64/popcount.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: fmov d0, x0			; CHECK-NEXT: fmov d0, x0
	; CHECK-NEXT: mov v0.d[1], x1			; CHECK-NEXT: mov v0.d[1], x1
	; CHECK-NEXT: cnt v0.16b, v0.16b			; CHECK-NEXT: cnt v0.16b, v0.16b
	; CHECK-NEXT: uaddlv h1, v0.16b			; CHECK-NEXT: uaddlv h1, v0.16b
	; CHECK-NEXT: // implicit-def: $q0			; CHECK-NEXT: // implicit-def: $q0
	; CHECK-NEXT: mov v0.16b, v1.16b			; CHECK-NEXT: mov v0.16b, v1.16b
	; CHECK-NEXT: fmov w0, s0			; CHECK-NEXT: fmov w0, s0
	; CHECK-NEXT: // kill: def $x0 killed $w0			; CHECK-NEXT: // kill: def $x0 killed $w0
	; CHECK-NEXT: movi v0.2d, #0000000000000000			; CHECK-NEXT: mov x1, xzr
	; CHECK-NEXT: mov x1, v0.d[1]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	Entry:			Entry:
	%1 = tail call <1 x i128> @llvm.ctpop.v1.i128(<1 x i128> %0)			%1 = tail call <1 x i128> @llvm.ctpop.v1.i128(<1 x i128> %0)
	ret <1 x i128> %1			ret <1 x i128> %1
	}			}

	declare <1 x i128> @llvm.ctpop.v1.i128(<1 x i128>)			declare <1 x i128> @llvm.ctpop.v1.i128(<1 x i128>)

llvm/test/CodeGen/AArch64/sadd_sat_vec.ll

	Show First 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <8 x i64> @llvm.sadd.sat.v8i64(<8 x i64> %x, <8 x i64> %y)			%z = call <8 x i64> @llvm.sadd.sat.v8i64(<8 x i64> %x, <8 x i64> %y)
	ret <8 x i64> %z			ret <8 x i64> %z
	}			}

	define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {			define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {
	; CHECK-LABEL: v2i128:			; CHECK-LABEL: v2i128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: cmp x7, #0 // =0			; CHECK-NEXT: cmp x5, #0 // =0
	; CHECK-NEXT: cset w9, ge			; CHECK-NEXT: cset w9, ge
	; CHECK-NEXT: csinc w9, w9, wzr, ne			; CHECK-NEXT: csinc w9, w9, wzr, ne
	; CHECK-NEXT: cmp x3, #0 // =0			; CHECK-NEXT: cmp x1, #0 // =0
	; CHECK-NEXT: cset w10, ge			; CHECK-NEXT: cset w10, ge
	; CHECK-NEXT: csinc w10, w10, wzr, ne			; CHECK-NEXT: csinc w10, w10, wzr, ne
	; CHECK-NEXT: cmp w10, w9			; CHECK-NEXT: cmp w10, w9
	; CHECK-NEXT: cset w9, eq			; CHECK-NEXT: cset w9, eq
	; CHECK-NEXT: adds x11, x2, x6			; CHECK-NEXT: adds x11, x0, x4
	; CHECK-NEXT: adcs x12, x3, x7			; CHECK-NEXT: adcs x12, x1, x5
	; CHECK-NEXT: cmp x12, #0 // =0			; CHECK-NEXT: cmp x12, #0 // =0
	; CHECK-NEXT: cset w13, ge			; CHECK-NEXT: cset w13, ge
	; CHECK-NEXT: mov x8, #9223372036854775807			; CHECK-NEXT: mov x8, #9223372036854775807
	; CHECK-NEXT: csinc w13, w13, wzr, ne			; CHECK-NEXT: csinc w13, w13, wzr, ne
	; CHECK-NEXT: cinv x14, x8, ge			; CHECK-NEXT: cinv x14, x8, ge
	; CHECK-NEXT: cmp w10, w13			; CHECK-NEXT: cmp w10, w13
	; CHECK-NEXT: cset w13, ne			; CHECK-NEXT: cset w13, ne
	; CHECK-NEXT: asr x10, x12, #63			; CHECK-NEXT: asr x10, x12, #63
	; CHECK-NEXT: tst w9, w13			; CHECK-NEXT: tst w9, w13
	; CHECK-NEXT: csel x3, x14, x12, ne			; CHECK-NEXT: csel x1, x14, x12, ne
	; CHECK-NEXT: csel x2, x10, x11, ne			; CHECK-NEXT: csel x0, x10, x11, ne
	; CHECK-NEXT: cmp x5, #0 // =0			; CHECK-NEXT: cmp x7, #0 // =0
	; CHECK-NEXT: cset w9, ge			; CHECK-NEXT: cset w9, ge
	; CHECK-NEXT: csinc w9, w9, wzr, ne			; CHECK-NEXT: csinc w9, w9, wzr, ne
	; CHECK-NEXT: cmp x1, #0 // =0			; CHECK-NEXT: cmp x3, #0 // =0
	; CHECK-NEXT: cset w10, ge			; CHECK-NEXT: cset w10, ge
	; CHECK-NEXT: csinc w10, w10, wzr, ne			; CHECK-NEXT: csinc w10, w10, wzr, ne
	; CHECK-NEXT: cmp w10, w9			; CHECK-NEXT: cmp w10, w9
	; CHECK-NEXT: cset w9, eq			; CHECK-NEXT: cset w9, eq
	; CHECK-NEXT: adds x11, x0, x4			; CHECK-NEXT: adds x11, x2, x6
	; CHECK-NEXT: adcs x12, x1, x5			; CHECK-NEXT: adcs x12, x3, x7
	; CHECK-NEXT: cmp x12, #0 // =0			; CHECK-NEXT: cmp x12, #0 // =0
	; CHECK-NEXT: cset w13, ge			; CHECK-NEXT: cset w14, ge
	; CHECK-NEXT: csinc w13, w13, wzr, ne			; CHECK-NEXT: csinc w14, w14, wzr, ne
	; CHECK-NEXT: cinv x8, x8, ge			; CHECK-NEXT: cinv x8, x8, ge
	; CHECK-NEXT: cmp w10, w13			; CHECK-NEXT: cmp w10, w14
	; CHECK-NEXT: cset w10, ne			; CHECK-NEXT: cset w10, ne
				; CHECK-NEXT: asr x13, x12, #63
	; CHECK-NEXT: tst w9, w10			; CHECK-NEXT: tst w9, w10
	; CHECK-NEXT: asr x9, x12, #63			; CHECK-NEXT: csel x2, x13, x11, ne
	; CHECK-NEXT: csel x9, x9, x11, ne			; CHECK-NEXT: csel x3, x8, x12, ne
	; CHECK-NEXT: csel x1, x8, x12, ne
	; CHECK-NEXT: fmov d0, x9
	; CHECK-NEXT: mov v0.d[1], x1
	; CHECK-NEXT: fmov x0, d0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <2 x i128> @llvm.sadd.sat.v2i128(<2 x i128> %x, <2 x i128> %y)			%z = call <2 x i128> @llvm.sadd.sat.v2i128(<2 x i128> %x, <2 x i128> %y)
	ret <2 x i128> %z			ret <2 x i128> %z
	}			}

llvm/test/CodeGen/AArch64/ssub_sat_vec.ll

	Show First 20 Lines • Show All 368 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <8 x i64> @llvm.ssub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)			%z = call <8 x i64> @llvm.ssub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)
	ret <8 x i64> %z			ret <8 x i64> %z
	}			}

	define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {			define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {
	; CHECK-LABEL: v2i128:			; CHECK-LABEL: v2i128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: cmp x7, #0 // =0			; CHECK-NEXT: cmp x5, #0 // =0
	; CHECK-NEXT: cset w9, ge			; CHECK-NEXT: cset w9, ge
	; CHECK-NEXT: csinc w9, w9, wzr, ne			; CHECK-NEXT: csinc w9, w9, wzr, ne
	; CHECK-NEXT: cmp x3, #0 // =0			; CHECK-NEXT: cmp x1, #0 // =0
	; CHECK-NEXT: cset w10, ge			; CHECK-NEXT: cset w10, ge
	; CHECK-NEXT: csinc w10, w10, wzr, ne			; CHECK-NEXT: csinc w10, w10, wzr, ne
	; CHECK-NEXT: cmp w10, w9			; CHECK-NEXT: cmp w10, w9
	; CHECK-NEXT: cset w9, ne			; CHECK-NEXT: cset w9, ne
	; CHECK-NEXT: subs x11, x2, x6			; CHECK-NEXT: subs x11, x0, x4
	; CHECK-NEXT: sbcs x12, x3, x7			; CHECK-NEXT: sbcs x12, x1, x5
	; CHECK-NEXT: cmp x12, #0 // =0			; CHECK-NEXT: cmp x12, #0 // =0
	; CHECK-NEXT: cset w13, ge			; CHECK-NEXT: cset w13, ge
	; CHECK-NEXT: mov x8, #9223372036854775807			; CHECK-NEXT: mov x8, #9223372036854775807
	; CHECK-NEXT: csinc w13, w13, wzr, ne			; CHECK-NEXT: csinc w13, w13, wzr, ne
	; CHECK-NEXT: cinv x14, x8, ge			; CHECK-NEXT: cinv x14, x8, ge
	; CHECK-NEXT: cmp w10, w13			; CHECK-NEXT: cmp w10, w13
	; CHECK-NEXT: cset w13, ne			; CHECK-NEXT: cset w13, ne
	; CHECK-NEXT: asr x10, x12, #63			; CHECK-NEXT: asr x10, x12, #63
	; CHECK-NEXT: tst w9, w13			; CHECK-NEXT: tst w9, w13
	; CHECK-NEXT: csel x3, x14, x12, ne			; CHECK-NEXT: csel x1, x14, x12, ne
	; CHECK-NEXT: csel x2, x10, x11, ne			; CHECK-NEXT: csel x0, x10, x11, ne
	; CHECK-NEXT: cmp x5, #0 // =0			; CHECK-NEXT: cmp x7, #0 // =0
	; CHECK-NEXT: cset w9, ge			; CHECK-NEXT: cset w9, ge
	; CHECK-NEXT: csinc w9, w9, wzr, ne			; CHECK-NEXT: csinc w9, w9, wzr, ne
	; CHECK-NEXT: cmp x1, #0 // =0			; CHECK-NEXT: cmp x3, #0 // =0
	; CHECK-NEXT: cset w10, ge			; CHECK-NEXT: cset w10, ge
	; CHECK-NEXT: csinc w10, w10, wzr, ne			; CHECK-NEXT: csinc w10, w10, wzr, ne
	; CHECK-NEXT: cmp w10, w9			; CHECK-NEXT: cmp w10, w9
	; CHECK-NEXT: cset w9, ne			; CHECK-NEXT: cset w9, ne
	; CHECK-NEXT: subs x11, x0, x4			; CHECK-NEXT: subs x11, x2, x6
	; CHECK-NEXT: sbcs x12, x1, x5			; CHECK-NEXT: sbcs x12, x3, x7
	; CHECK-NEXT: cmp x12, #0 // =0			; CHECK-NEXT: cmp x12, #0 // =0
	; CHECK-NEXT: cset w13, ge			; CHECK-NEXT: cset w14, ge
	; CHECK-NEXT: csinc w13, w13, wzr, ne			; CHECK-NEXT: csinc w14, w14, wzr, ne
	; CHECK-NEXT: cinv x8, x8, ge			; CHECK-NEXT: cinv x8, x8, ge
	; CHECK-NEXT: cmp w10, w13			; CHECK-NEXT: cmp w10, w14
	; CHECK-NEXT: cset w10, ne			; CHECK-NEXT: cset w10, ne
				; CHECK-NEXT: asr x13, x12, #63
	; CHECK-NEXT: tst w9, w10			; CHECK-NEXT: tst w9, w10
	; CHECK-NEXT: asr x9, x12, #63			; CHECK-NEXT: csel x2, x13, x11, ne
	; CHECK-NEXT: csel x9, x9, x11, ne			; CHECK-NEXT: csel x3, x8, x12, ne
	; CHECK-NEXT: csel x1, x8, x12, ne
	; CHECK-NEXT: fmov d0, x9
	; CHECK-NEXT: mov v0.d[1], x1
	; CHECK-NEXT: fmov x0, d0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <2 x i128> @llvm.ssub.sat.v2i128(<2 x i128> %x, <2 x i128> %y)			%z = call <2 x i128> @llvm.ssub.sat.v2i128(<2 x i128> %x, <2 x i128> %y)
	ret <2 x i128> %z			ret <2 x i128> %z
	}			}

llvm/test/CodeGen/AArch64/uadd_sat_vec.ll

	Show First 20 Lines • Show All 365 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <8 x i64> @llvm.uadd.sat.v8i64(<8 x i64> %x, <8 x i64> %y)			%z = call <8 x i64> @llvm.uadd.sat.v8i64(<8 x i64> %x, <8 x i64> %y)
	ret <8 x i64> %z			ret <8 x i64> %z
	}			}

	define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {			define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {
	; CHECK-LABEL: v2i128:			; CHECK-LABEL: v2i128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adds x8, x2, x6
	; CHECK-NEXT: adcs x9, x3, x7
	; CHECK-NEXT: cmp x8, x2
	; CHECK-NEXT: cset w10, lo
	; CHECK-NEXT: cmp x9, x3
	; CHECK-NEXT: cset w11, lo
	; CHECK-NEXT: csel w10, w10, w11, eq
	; CHECK-NEXT: cmp w10, #0 // =0
	; CHECK-NEXT: csinv x3, x9, xzr, eq
	; CHECK-NEXT: csinv x2, x8, xzr, eq
	; CHECK-NEXT: adds x8, x0, x4			; CHECK-NEXT: adds x8, x0, x4
	; CHECK-NEXT: adcs x9, x1, x5			; CHECK-NEXT: adcs x9, x1, x5
	; CHECK-NEXT: cmp x8, x0			; CHECK-NEXT: cmp x8, x0
	; CHECK-NEXT: cset w10, lo			; CHECK-NEXT: cset w10, lo
	; CHECK-NEXT: cmp x9, x1			; CHECK-NEXT: cmp x9, x1
	; CHECK-NEXT: cset w11, lo			; CHECK-NEXT: cset w11, lo
	; CHECK-NEXT: csel w10, w10, w11, eq			; CHECK-NEXT: csel w10, w10, w11, eq
	; CHECK-NEXT: cmp w10, #0 // =0			; CHECK-NEXT: cmp w10, #0 // =0
	; CHECK-NEXT: csinv x8, x8, xzr, eq
	; CHECK-NEXT: csinv x1, x9, xzr, eq			; CHECK-NEXT: csinv x1, x9, xzr, eq
	; CHECK-NEXT: fmov d0, x8			; CHECK-NEXT: csinv x0, x8, xzr, eq
	; CHECK-NEXT: mov v0.d[1], x1			; CHECK-NEXT: adds x8, x2, x6
	; CHECK-NEXT: fmov x0, d0			; CHECK-NEXT: adcs x9, x3, x7
				; CHECK-NEXT: cmp x8, x2
				; CHECK-NEXT: cset w10, lo
				; CHECK-NEXT: cmp x9, x3
				; CHECK-NEXT: cset w11, lo
				; CHECK-NEXT: csel w10, w10, w11, eq
				; CHECK-NEXT: cmp w10, #0 // =0
				; CHECK-NEXT: csinv x2, x8, xzr, eq
				; CHECK-NEXT: csinv x3, x9, xzr, eq
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <2 x i128> @llvm.uadd.sat.v2i128(<2 x i128> %x, <2 x i128> %y)			%z = call <2 x i128> @llvm.uadd.sat.v2i128(<2 x i128> %x, <2 x i128> %y)
	ret <2 x i128> %z			ret <2 x i128> %z
	}			}

llvm/test/CodeGen/AArch64/usub_sat_vec.ll

	Show First 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <8 x i64> @llvm.usub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)			%z = call <8 x i64> @llvm.usub.sat.v8i64(<8 x i64> %x, <8 x i64> %y)
	ret <8 x i64> %z			ret <8 x i64> %z
	}			}

	define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {			define <2 x i128> @v2i128(<2 x i128> %x, <2 x i128> %y) nounwind {
	; CHECK-LABEL: v2i128:			; CHECK-LABEL: v2i128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: subs x8, x2, x6
	; CHECK-NEXT: sbcs x9, x3, x7
	; CHECK-NEXT: cmp x8, x2
	; CHECK-NEXT: cset w10, hi
	; CHECK-NEXT: cmp x9, x3
	; CHECK-NEXT: cset w11, hi
	; CHECK-NEXT: csel w10, w10, w11, eq
	; CHECK-NEXT: cmp w10, #0 // =0
	; CHECK-NEXT: csel x3, xzr, x9, ne
	; CHECK-NEXT: csel x2, xzr, x8, ne
	; CHECK-NEXT: subs x8, x0, x4			; CHECK-NEXT: subs x8, x0, x4
	; CHECK-NEXT: sbcs x9, x1, x5			; CHECK-NEXT: sbcs x9, x1, x5
	; CHECK-NEXT: cmp x8, x0			; CHECK-NEXT: cmp x8, x0
	; CHECK-NEXT: cset w10, hi			; CHECK-NEXT: cset w10, hi
	; CHECK-NEXT: cmp x9, x1			; CHECK-NEXT: cmp x9, x1
	; CHECK-NEXT: cset w11, hi			; CHECK-NEXT: cset w11, hi
	; CHECK-NEXT: csel w10, w10, w11, eq			; CHECK-NEXT: csel w10, w10, w11, eq
	; CHECK-NEXT: cmp w10, #0 // =0			; CHECK-NEXT: cmp w10, #0 // =0
	; CHECK-NEXT: csel x8, xzr, x8, ne
	; CHECK-NEXT: csel x1, xzr, x9, ne			; CHECK-NEXT: csel x1, xzr, x9, ne
	; CHECK-NEXT: fmov d0, x8			; CHECK-NEXT: csel x0, xzr, x8, ne
	; CHECK-NEXT: mov v0.d[1], x1			; CHECK-NEXT: subs x8, x2, x6
	; CHECK-NEXT: fmov x0, d0			; CHECK-NEXT: sbcs x9, x3, x7
				; CHECK-NEXT: cmp x8, x2
				; CHECK-NEXT: cset w10, hi
				; CHECK-NEXT: cmp x9, x3
				; CHECK-NEXT: cset w11, hi
				; CHECK-NEXT: csel w10, w10, w11, eq
				; CHECK-NEXT: cmp w10, #0 // =0
				; CHECK-NEXT: csel x2, xzr, x8, ne
				; CHECK-NEXT: csel x3, xzr, x9, ne
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%z = call <2 x i128> @llvm.usub.sat.v2i128(<2 x i128> %x, <2 x i128> %y)			%z = call <2 x i128> @llvm.usub.sat.v2i128(<2 x i128> %x, <2 x i128> %y)
	ret <2 x i128> %z			ret <2 x i128> %z
	}			}

llvm/test/CodeGen/AArch64/vecreduce-and-legalization.ll

	Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call i8 @llvm.experimental.vector.reduce.and.v3i8(<3 x i8> %a)			%b = call i8 @llvm.experimental.vector.reduce.and.v3i8(<3 x i8> %a)
	ret i8 %b			ret i8 %b
	}			}

	define i8 @test_v9i8(<9 x i8> %a) nounwind {			define i8 @test_v9i8(<9 x i8> %a) nounwind {
	; CHECK-LABEL: test_v9i8:			; CHECK-LABEL: test_v9i8:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: mov w8, #-1
	; CHECK-NEXT: mov v0.b[9], w8
	; CHECK-NEXT: mov v0.b[10], w8
	; CHECK-NEXT: mov v0.b[11], w8
	; CHECK-NEXT: mov v0.b[12], w8
	; CHECK-NEXT: mov v0.b[13], w8
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: and v1.8b, v0.8b, v1.8b			; CHECK-NEXT: and v1.8b, v0.8b, v1.8b
	; CHECK-NEXT: umov w8, v1.b[1]			; CHECK-NEXT: umov w8, v0.b[1]
	; CHECK-NEXT: umov w9, v1.b[0]			; CHECK-NEXT: umov w9, v1.b[0]
	; CHECK-NEXT: and w8, w9, w8			; CHECK-NEXT: and w8, w9, w8
	; CHECK-NEXT: umov w9, v1.b[2]			; CHECK-NEXT: umov w9, v0.b[2]
	; CHECK-NEXT: and w8, w8, w9			; CHECK-NEXT: and w8, w8, w9
	; CHECK-NEXT: umov w9, v1.b[3]			; CHECK-NEXT: umov w9, v0.b[3]
	; CHECK-NEXT: and w8, w8, w9			; CHECK-NEXT: and w8, w8, w9
	; CHECK-NEXT: umov w9, v0.b[4]			; CHECK-NEXT: umov w9, v0.b[4]
	; CHECK-NEXT: and w8, w8, w9			; CHECK-NEXT: and w8, w8, w9
	; CHECK-NEXT: umov w9, v1.b[5]			; CHECK-NEXT: umov w9, v0.b[5]
	; CHECK-NEXT: and w8, w8, w9			; CHECK-NEXT: and w8, w8, w9
	; CHECK-NEXT: umov w9, v0.b[6]			; CHECK-NEXT: umov w9, v0.b[6]
	; CHECK-NEXT: and w8, w8, w9			; CHECK-NEXT: and w8, w8, w9
	; CHECK-NEXT: umov w9, v0.b[7]			; CHECK-NEXT: umov w9, v0.b[7]
	; CHECK-NEXT: and w0, w8, w9			; CHECK-NEXT: and w0, w8, w9
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call i8 @llvm.experimental.vector.reduce.and.v9i8(<9 x i8> %a)			%b = call i8 @llvm.experimental.vector.reduce.and.v9i8(<9 x i8> %a)
	ret i8 %b			ret i8 %b
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

	Show First 20 Lines • Show All 531 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_mov_b32 s10, s2			; VI-NEXT: s_mov_b32 s10, s2
	; VI-NEXT: s_mov_b32 s11, s3			; VI-NEXT: s_mov_b32 s11, s3
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s8, s6			; VI-NEXT: s_mov_b32 s8, s6
	; VI-NEXT: s_mov_b32 s9, s7			; VI-NEXT: s_mov_b32 s9, s7
	; VI-NEXT: buffer_load_ubyte v0, off, s[8:11], 0			; VI-NEXT: buffer_load_ushort v0, off, s[8:11], 0
	; VI-NEXT: buffer_load_ubyte v1, off, s[8:11], 0 offset:1			; VI-NEXT: buffer_load_ubyte v1, off, s[8:11], 0 offset:2
	; VI-NEXT: buffer_load_ubyte v2, off, s[8:11], 0 offset:2
	; VI-NEXT: s_mov_b32 s0, s4			; VI-NEXT: s_mov_b32 s0, s4
	; VI-NEXT: s_mov_b32 s1, s5			; VI-NEXT: s_mov_b32 s1, s5
	; VI-NEXT: s_waitcnt vmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0			; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; VI-NEXT: s_waitcnt vmcnt(2)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: buffer_store_byte v1, off, s[0:3], 0 offset:1			; VI-NEXT: buffer_store_byte v1, off, s[0:3], 0 offset:2
	; VI-NEXT: s_waitcnt vmcnt(2)			; VI-NEXT: v_lshrrev_b16_e32 v0, 8, v0
	; VI-NEXT: buffer_store_byte v2, off, s[0:3], 0 offset:2			; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0 offset:1
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%val = load <3 x i8>, <3 x i8> addrspace(1)* %in, align 1			%val = load <3 x i8>, <3 x i8> addrspace(1)* %in, align 1
	store <3 x i8> %val, <3 x i8> addrspace(1)* %out, align 1			store <3 x i8> %val, <3 x i8> addrspace(1)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @test_copy_v4i8_volatile_load(<4 x i8> addrspace(1)* %out, <4 x i8> addrspace(1)* %in) nounwind {			define amdgpu_kernel void @test_copy_v4i8_volatile_load(<4 x i8> addrspace(1)* %out, <4 x i8> addrspace(1)* %in) nounwind {
	; SI-LABEL: test_copy_v4i8_volatile_load:			; SI-LABEL: test_copy_v4i8_volatile_load:
	▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fptoui.f16.ll

Show First 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; Need to make sure we promote f16 to f32 when converting f16 to i64. Existing		; Need to make sure we promote f16 to f32 when converting f16 to i64. Existing
; test checks code generated for 'i64 = fp_to_uint f32'.		; test checks code generated for 'i64 = fp_to_uint f32'.

; GCN-LABEL: {{^}}fptoui_v2f16_to_v2i64		; GCN-LABEL: {{^}}fptoui_v2f16_to_v2i64
; GCN: buffer_load_dword v[[A_F16_0:[0-9]+]]		; GCN: buffer_load_dword v[[A_F16_0:[0-9]+]]
; GCN: v_mov_b32_e32 v[[R_I64_1_High:[0-9]+]], 0
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_0]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_0]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_u32_f32_e32 v[[R_I64_0_Low:[0-9]+]], v[[A_F32_0]]		; SI: v_cvt_u32_f32_e32 v[[R_I64_0_Low:[0-9]+]], v[[A_F32_0]]
; SI: v_cvt_u32_f32_e32 v[[R_I64_1_Low:[0-9]+]], v[[A_F32_1]]		; SI: v_cvt_u32_f32_e32 v[[R_I64_1_Low:[0-9]+]], v[[A_F32_1]]
; VI: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; VI: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_0]]		; VI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_0]]
; VI: v_cvt_u32_f32_e32 v[[R_I64_1_Low:[0-9]+]], v[[A_F32_1]]		; VI: v_cvt_u32_f32_e32 v[[R_I64_1_Low:[0-9]+]], v[[A_F32_1]]
; VI: v_cvt_u32_f32_e32 v[[R_I64_0_Low:[0-9]+]], v[[A_F32_0]]		; VI: v_cvt_u32_f32_e32 v[[R_I64_0_Low:[0-9]+]], v[[A_F32_0]]
; GCN: v_mov_b32_e32 v[[R_I64_0_High:[0-9]+]], 0		; GCN: v_mov_b32_e32 v[[R_I64_0_High:[0-9]+]], 0
		; GCN: v_mov_b32_e32 v[[R_I64_1_High:[0-9]+]], v[[R_I64_0_High]]
; GCN: buffer_store_dwordx4 v{{\[}}[[R_I64_0_Low]]{{\:}}[[R_I64_1_High]]{{\]}}		; GCN: buffer_store_dwordx4 v{{\[}}[[R_I64_0_Low]]{{\:}}[[R_I64_1_High]]{{\]}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fptoui_v2f16_to_v2i64(		define amdgpu_kernel void @fptoui_v2f16_to_v2i64(
<2 x i64> addrspace(1)* %r,		<2 x i64> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = fptoui <2 x half> %a.val to <2 x i64>		%r.val = fptoui <2 x half> %a.val to <2 x i64>
store <2 x i64> %r.val, <2 x i64> addrspace(1)* %r		store <2 x i64> %r.val, <2 x i64> addrspace(1)* %r
ret void		ret void
}		}

llvm/test/CodeGen/AMDGPU/saddsat.ll

Show First 20 Lines • Show All 230 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%result = call <3 x i16> @llvm.sadd.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)		%result = call <3 x i16> @llvm.sadd.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_saddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_saddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_saddsat_v4i16:		; GFX6-LABEL: v_saddsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_bfe_i32 v8, v1, 0, 16
		; GFX6-NEXT: v_bfe_i32 v1, v6, 0, 16
		; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16		; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16		; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v6, v7, 0, 16
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5		; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GFX6-NEXT: s_movk_i32 s4, 0x7fff		; GFX6-NEXT: s_movk_i32 s4, 0x7fff
		; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
		; GFX6-NEXT: v_add_i32_e32 v2, vcc, v8, v5
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_min_i32_e32 v1, s4, v1		; GFX6-NEXT: v_min_i32_e32 v3, s4, v3
; GFX6-NEXT: s_movk_i32 s5, 0x8000		; GFX6-NEXT: s_movk_i32 s5, 0x8000
		; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
		; GFX6-NEXT: v_min_i32_e32 v2, s4, v2
; GFX6-NEXT: v_min_i32_e32 v0, s4, v0		; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
		; GFX6-NEXT: v_max_i32_e32 v3, s5, v3
		; GFX6-NEXT: v_max_i32_e32 v2, s5, v2
; GFX6-NEXT: v_max_i32_e32 v1, s5, v1		; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
; GFX6-NEXT: s_mov_b32 s6, 0xffff		; GFX6-NEXT: s_mov_b32 s6, 0xffff
; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16		; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16		; GFX6-NEXT: v_and_b32_e32 v1, s6, v1
; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, s6, v0		; GFX6-NEXT: v_and_b32_e32 v0, s6, v0
; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; GFX6-NEXT: v_or_b32_e32 v1, v1, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v7
; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
; GFX6-NEXT: v_min_i32_e32 v2, s4, v2
; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
; GFX6-NEXT: v_max_i32_e32 v2, s5, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v2, s6, v2
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_saddsat_v4i16:		; GFX8-LABEL: v_saddsat_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GFX8-NEXT: v_add_u16_e32 v6, v5, v4		; GFX8-NEXT: v_add_u16_e32 v6, v5, v4
▲ Show 20 Lines • Show All 164 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

Show First 20 Lines • Show All 493 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = sdiv i64 %x, %y		%result = sdiv i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_sdiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv24_64:		; GCN-LABEL: s_test_sdiv24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		RKSimonUnsubmitted Not Done Reply Inline Actions Is this a regression? It looks like we're lost track that we only need 1 element RKSimon: Is this a regression? It looks like we're lost track that we only need 1 element
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
Show All 13 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv24_64:		; GCN-IR-LABEL: s_test_sdiv24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 40
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv31_64:		; GCN-LABEL: s_test_sdiv31_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
Show All 13 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv31_64:		; GCN-IR-LABEL: s_test_sdiv31_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 33
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 33
Show All 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv23_64:		; GCN-LABEL: s_test_sdiv23_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
Show All 13 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv23_64:		; GCN-IR-LABEL: s_test_sdiv23_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 41
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 41
Show All 20 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_sdiv25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_sdiv25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_sdiv25_64:		; GCN-LABEL: s_test_sdiv25_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s0, s4		; GCN-NEXT: s_mov_b32 s0, s4
; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39		; GCN-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-NEXT: s_mov_b32 s1, s5		; GCN-NEXT: s_mov_b32 s1, s5
; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39		; GCN-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
Show All 13 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_sdiv25_64:		; GCN-IR-LABEL: s_test_sdiv25_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_mov_b32 s0, s4		; GCN-IR-NEXT: s_mov_b32 s0, s4
; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39		; GCN-IR-NEXT: s_ashr_i64 s[8:9], s[0:1], 39
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s8
; GCN-IR-NEXT: s_mov_b32 s1, s5		; GCN-IR-NEXT: s_mov_b32 s1, s5
; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39		; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[6:7], 39
▲ Show 20 Lines • Show All 1,279 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shift-i128.ll

Show First 20 Lines • Show All 119 Lines • ▼ Show 20 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_shl_i128_kv(i128 %rhs) {		define i128 @v_shl_i128_kv(i128 %rhs) {
; GCN-LABEL: v_shl_i128_kv:		; GCN-LABEL: v_shl_i128_kv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_sub_i32_e32 v1, vcc, 64, v0		; GCN-NEXT: v_sub_i32_e32 v1, vcc, 64, v0
; GCN-NEXT: v_lshr_b64 v[2:3], 17, v1		; GCN-NEXT: v_lshr_b64 v[1:2], 17, v1
; GCN-NEXT: v_subrev_i32_e32 v1, vcc, 64, v0		; GCN-NEXT: v_subrev_i32_e32 v2, vcc, 64, v0
; GCN-NEXT: v_lshl_b64 v[4:5], 17, v1		; GCN-NEXT: v_lshl_b64 v[2:3], 17, v2
; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0		; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0
; GCN-NEXT: v_cndmask_b32_e32 v1, v4, v2, vcc		; GCN-NEXT: v_lshl_b64 v[4:5], 17, v0
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0		; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
		; GCN-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
		; GCN-NEXT: v_cndmask_b32_e64 v3, v3, 0, vcc
; GCN-NEXT: v_cndmask_b32_e64 v2, 0, v1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v2, 0, v1, s[4:5]
; GCN-NEXT: v_lshl_b64 v[0:1], 17, v0		; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v4, vcc
; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v5, vcc
; GCN-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]		; GCN-NEXT: v_cndmask_b32_e64 v3, 0, v3, s[4:5]
; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = shl i128 17, %rhs		%shl = shl i128 17, %rhs
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_lshr_i128_kv(i128 %rhs) {		define i128 @v_lshr_i128_kv(i128 %rhs) {
; GCN-LABEL: v_lshr_i128_kv:		; GCN-LABEL: v_lshr_i128_kv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_movk_i32 s4, 0x41
; GCN-NEXT: s_mov_b32 s5, 0		; GCN-NEXT: s_mov_b32 s5, 0
		; GCN-NEXT: s_movk_i32 s4, 0x41
; GCN-NEXT: v_lshr_b64 v[1:2], s[4:5], v0		; GCN-NEXT: v_lshr_b64 v[1:2], s[4:5], v0
; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0		; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0
; GCN-NEXT: v_mov_b32_e32 v3, s4
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
; GCN-NEXT: s_and_b64 vcc, s[4:5], vcc		; GCN-NEXT: v_mov_b32_e32 v2, s4
; GCN-NEXT: v_cndmask_b32_e64 v0, v3, v1, s[4:5]		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
; GCN-NEXT: v_mov_b32_e32 v3, 0		; GCN-NEXT: v_mov_b32_e32 v3, 0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = lshr i128 65, %rhs		%shl = lshr i128 65, %rhs
ret i128 %shl		ret i128 %shl
}		}

define i128 @v_ashr_i128_kv(i128 %rhs) {		define i128 @v_ashr_i128_kv(i128 %rhs) {
; GCN-LABEL: v_ashr_i128_kv:		; GCN-LABEL: v_ashr_i128_kv:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_lshr_b64 v[1:2], 33, v0		; GCN-NEXT: v_lshr_b64 v[1:2], 33, v0
; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0		; GCN-NEXT: v_cmp_gt_u32_e32 vcc, 64, v0
; GCN-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc		; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
; GCN-NEXT: s_and_b64 vcc, s[4:5], vcc		; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; GCN-NEXT: v_cndmask_b32_e64 v0, 33, v1, s[4:5]		; GCN-NEXT: v_cndmask_b32_e32 v0, 33, v1, vcc
; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v2, vcc		; GCN-NEXT: v_mov_b32_e32 v1, 0
; GCN-NEXT: v_mov_b32_e32 v2, 0		; GCN-NEXT: v_mov_b32_e32 v2, 0
; GCN-NEXT: v_mov_b32_e32 v3, 0		; GCN-NEXT: v_mov_b32_e32 v3, 0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%shl = ashr i128 33, %rhs		%shl = ashr i128 33, %rhs
ret i128 %shl		ret i128 %shl
}		}

define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {		define amdgpu_kernel void @s_shl_i128_ss(i128 %lhs, i128 %rhs) {
▲ Show 20 Lines • Show All 475 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

Show First 20 Lines • Show All 474 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %x, %y		%result = srem i64 %x, %y
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem23_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem23_64:		; GCN-LABEL: s_test_srem23_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 41		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 41
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 41		; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 41
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0		; GCN-NEXT: s_xor_b32 s1, s6, s0
Show All 15 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem23_64:		; GCN-IR-LABEL: s_test_srem23_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 41		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 41
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 41		; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 41
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0		; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
Show All 22 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem24_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem24_64:		; GCN-LABEL: s_test_srem24_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 40		; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0		; GCN-NEXT: s_xor_b32 s1, s6, s0
Show All 15 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem24_64:		; GCN-IR-LABEL: s_test_srem24_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 40
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 40		; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 40
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0		; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	; GCN-IR-NEXT: s_setpc_b64 s[30:31]
%result = srem i64 %1, %2		%result = srem i64 %1, %2
ret i64 %result		ret i64 %result
}		}

define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem25_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem25_64:		; GCN-LABEL: s_test_srem25_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 39		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 39
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 39		; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 39
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0		; GCN-NEXT: s_xor_b32 s1, s6, s0
Show All 15 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem25_64:		; GCN-IR-LABEL: s_test_srem25_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 39		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 39
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 39		; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 39
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0		; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
Show All 22 Lines	; GCN-IR-NEXT: s_endpgm
store i64 %result, i64 addrspace(1)* %out		store i64 %result, i64 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {		define amdgpu_kernel void @s_test_srem31_64(i64 addrspace(1)* %out, i64 %x, i64 %y) {
; GCN-LABEL: s_test_srem31_64:		; GCN-LABEL: s_test_srem31_64:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s3, 0xf000
; GCN-NEXT: s_mov_b32 s2, -1		; GCN-NEXT: s_mov_b32 s2, -1
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 33		; GCN-NEXT: s_ashr_i64 s[6:7], s[6:7], 33
; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 33		; GCN-NEXT: s_ashr_i64 s[0:1], s[0:1], 33
; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-NEXT: s_xor_b32 s1, s6, s0		; GCN-NEXT: s_xor_b32 s1, s6, s0
Show All 15 Lines
; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31		; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
;		;
; GCN-IR-LABEL: s_test_srem31_64:		; GCN-IR-LABEL: s_test_srem31_64:
; GCN-IR: ; %bb.0:		; GCN-IR: ; %bb.0:
; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-IR-NEXT: s_load_dword s1, s[0:1], 0xe		; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GCN-IR-NEXT: s_mov_b32 s3, 0xf000		; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
; GCN-IR-NEXT: s_mov_b32 s2, -1		; GCN-IR-NEXT: s_mov_b32 s2, -1
; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)		; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 33		; GCN-IR-NEXT: s_ashr_i64 s[6:7], s[6:7], 33
; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 33		; GCN-IR-NEXT: s_ashr_i64 s[0:1], s[0:1], 33
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s0
; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6		; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, s6
; GCN-IR-NEXT: s_xor_b32 s1, s6, s0		; GCN-IR-NEXT: s_xor_b32 s1, s6, s0
▲ Show 20 Lines • Show All 1,539 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ssubsat.ll

Show First 20 Lines • Show All 231 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%result = call <3 x i16> @llvm.ssub.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)		%result = call <3 x i16> @llvm.ssub.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_ssubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_ssubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_ssubsat_v4i16:		; GFX6-LABEL: v_ssubsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX6-NEXT: v_bfe_i32 v8, v1, 0, 16
		; GFX6-NEXT: v_bfe_i32 v1, v6, 0, 16
		; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16		; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16		; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v6, v7, 0, 16
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5		; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v2, v1
; GFX6-NEXT: s_movk_i32 s4, 0x7fff		; GFX6-NEXT: s_movk_i32 s4, 0x7fff
		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v6
		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v8, v5
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_min_i32_e32 v1, s4, v1		; GFX6-NEXT: v_min_i32_e32 v3, s4, v3
; GFX6-NEXT: s_movk_i32 s5, 0x8000		; GFX6-NEXT: s_movk_i32 s5, 0x8000
		; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
		; GFX6-NEXT: v_min_i32_e32 v2, s4, v2
; GFX6-NEXT: v_min_i32_e32 v0, s4, v0		; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
		; GFX6-NEXT: v_max_i32_e32 v3, s5, v3
		; GFX6-NEXT: v_max_i32_e32 v2, s5, v2
; GFX6-NEXT: v_max_i32_e32 v1, s5, v1		; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
; GFX6-NEXT: s_mov_b32 s6, 0xffff		; GFX6-NEXT: s_mov_b32 s6, 0xffff
; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16		; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16		; GFX6-NEXT: v_and_b32_e32 v1, s6, v1
; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, s6, v0		; GFX6-NEXT: v_and_b32_e32 v0, s6, v0
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v6		; GFX6-NEXT: v_or_b32_e32 v1, v1, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v3, v7
; GFX6-NEXT: v_min_i32_e32 v1, s4, v1
; GFX6-NEXT: v_min_i32_e32 v2, s4, v2
; GFX6-NEXT: v_max_i32_e32 v1, s5, v1
; GFX6-NEXT: v_max_i32_e32 v2, s5, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v2, s6, v2
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ssubsat_v4i16:		; GFX8-LABEL: v_ssubsat_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4		; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4
▲ Show 20 Lines • Show All 728 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

	Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: global_load_dword v0, v0, s[0:1]			; GFX9-NEXT: global_load_dword v0, v0, s[0:1]
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_sub_i16 v2, v2, v0			; GFX9-NEXT: v_pk_sub_i16 v0, v2, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/uaddsat.ll

Show First 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_uaddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_uaddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_uaddsat_v4i16:		; GFX6-LABEL: v_uaddsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_and_b32_e32 v5, s4, v5		; GFX6-NEXT: v_and_b32_e32 v8, s4, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v7
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1
; GFX6-NEXT: v_and_b32_e32 v7, s4, v7
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, s4, v3
		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
; GFX6-NEXT: v_and_b32_e32 v6, s4, v6		; GFX6-NEXT: v_and_b32_e32 v6, s4, v6
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6
		; GFX6-NEXT: v_min_u32_e32 v1, s4, v1
		; GFX6-NEXT: v_and_b32_e32 v5, s4, v5
		; GFX6-NEXT: v_min_u32_e32 v2, s4, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v6		; GFX6-NEXT: v_add_i32_e32 v2, vcc, v8, v5
; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v7		; GFX6-NEXT: v_and_b32_e32 v4, s4, v4
		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_min_u32_e32 v2, s4, v2		; GFX6-NEXT: v_min_u32_e32 v2, s4, v2
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1		; GFX6-NEXT: v_min_u32_e32 v0, s4, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_v4i16:		; GFX8-LABEL: v_uaddsat_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_add_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_add_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_add_u16_e64 v0, v0, v2 clamp		; GFX8-NEXT: v_add_u16_e64 v0, v0, v2 clamp
; GFX8-NEXT: v_add_u16_sdwa v2, v1, v3 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_add_u16_sdwa v2, v1, v3 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
▲ Show 20 Lines • Show All 325 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/usubsat.ll

Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_usubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_usubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v4i16:		; GFX6-LABEL: v_usubsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: s_mov_b32 s4, 0xffff
; GFX6-NEXT: v_and_b32_e32 v10, s4, v4		; GFX6-NEXT: v_and_b32_e32 v10, s4, v1
		; GFX6-NEXT: v_and_b32_e32 v8, s4, v4
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_and_b32_e32 v11, s4, v5		; GFX6-NEXT: v_and_b32_e32 v9, s4, v5
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v6
; GFX6-NEXT: v_max_u32_e32 v1, v1, v11
; GFX6-NEXT: v_max_u32_e32 v0, v0, v10
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_and_b32_e32 v8, s4, v6
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_and_b32_e32 v9, s4, v7		; GFX6-NEXT: v_and_b32_e32 v11, s4, v7
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, s4, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_max_u32_e32 v1, v2, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_max_u32_e32 v3, v3, v11
; GFX6-NEXT: v_max_u32_e32 v2, v2, v8		; GFX6-NEXT: v_max_u32_e32 v2, v10, v9
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_max_u32_e32 v0, v0, v8
; GFX6-NEXT: v_max_u32_e32 v1, v3, v9		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v7
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v7		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v6
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v6		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_and_b32_e32 v1, s4, v1
		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX6-NEXT: v_or_b32_e32 v1, v1, v3
		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_v4i16:		; GFX8-LABEL: v_usubsat_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_sub_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; GFX8-NEXT: v_sub_u16_e64 v0, v0, v2 clamp		; GFX8-NEXT: v_sub_u16_e64 v0, v0, v2 clamp
; GFX8-NEXT: v_sub_u16_sdwa v2, v1, v3 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_sub_u16_sdwa v2, v1, v3 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
▲ Show 20 Lines • Show All 292 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/dagcombine-anyexttozeroext.ll

	Show All 37 Lines
	}			}

	; Make sure we generate zext from <4 x i8> to <4 x 32>.			; Make sure we generate zext from <4 x i8> to <4 x 32>.
	define <4 x i32> @h(<4 x i8> *%in) {			define <4 x i32> @h(<4 x i8> *%in) {
	; CHECK-LABEL: h:			; CHECK-LABEL: h:
	; CHECK: @ %bb.0:			; CHECK: @ %bb.0:
	; CHECK-NEXT: vld1.32 {d16[0]}, [r0:32]			; CHECK-NEXT: vld1.32 {d16[0]}, [r0:32]
	; CHECK-NEXT: vmovl.u8 q8, d16			; CHECK-NEXT: vmovl.u8 q8, d16
	; CHECK-NEXT: vmovl.u16 q8, d16			; CHECK-NEXT: vmov.u16 r0, d16[0]
				; CHECK-NEXT: vmov.u16 r1, d16[1]
				; CHECK-NEXT: vmov.u16 r2, d16[2]
				; CHECK-NEXT: vmov.u16 r3, d16[3]
				; CHECK-NEXT: uxtb r0, r0
				; CHECK-NEXT: vmov.32 d16[0], r0
				; CHECK-NEXT: uxtb r0, r1
				; CHECK-NEXT: vmov.32 d16[1], r0
				; CHECK-NEXT: uxtb r0, r2
				; CHECK-NEXT: vmov.32 d17[0], r0
				; CHECK-NEXT: uxtb r0, r3
				; CHECK-NEXT: vmov.32 d17[1], r0
	; CHECK-NEXT: vmov r0, r1, d16			; CHECK-NEXT: vmov r0, r1, d16
				foadAuthorUnsubmitted Done Reply Inline Actions Regression. foad: Regression.
	; CHECK-NEXT: vmov r2, r3, d17			; CHECK-NEXT: vmov r2, r3, d17
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	%1 = load <4 x i8>, <4 x i8>* %in, align 4			%1 = load <4 x i8>, <4 x i8>* %in, align 4
	%2 = extractelement <4 x i8> %1, i32 0			%2 = extractelement <4 x i8> %1, i32 0
	%3 = zext i8 %2 to i32			%3 = zext i8 %2 to i32
	%4 = insertelement <4 x i32> undef, i32 %3, i32 0			%4 = insertelement <4 x i32> undef, i32 %3, i32 0
	%5 = extractelement <4 x i8> %1, i32 1			%5 = extractelement <4 x i8> %1, i32 1
	%6 = zext i8 %5 to i32			%6 = zext i8 %5 to i32
	▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/fp16-insert-extract.ll

	Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	define <8 x half> @test_vset_laneq_f16_1(<8 x half> %a, float %fb) nounwind {			define <8 x half> @test_vset_laneq_f16_1(<8 x half> %a, float %fb) nounwind {
	; CHECKHARD-LABEL: test_vset_laneq_f16_1:			; CHECKHARD-LABEL: test_vset_laneq_f16_1:
	; CHECKHARD: @ %bb.0: @ %entry			; CHECKHARD: @ %bb.0: @ %entry
	; CHECKHARD-NEXT: vcvtt.f16.f32 s0, s4			; CHECKHARD-NEXT: vcvtt.f16.f32 s0, s4
	; CHECKHARD-NEXT: bx lr			; CHECKHARD-NEXT: bx lr
	;			;
	; CHECKSOFT-LABEL: test_vset_laneq_f16_1:			; CHECKSOFT-LABEL: test_vset_laneq_f16_1:
	; CHECKSOFT: @ %bb.0: @ %entry			; CHECKSOFT: @ %bb.0: @ %entry
	; CHECKSOFT-NEXT: vmov d1, r2, r3			; CHECKSOFT-NEXT: vldr s0, [sp]
	; CHECKSOFT-NEXT: vldr s4, [sp]			; CHECKSOFT-NEXT: vmov d2, r0, r1
	; CHECKSOFT-NEXT: vmov d0, r0, r1			; CHECKSOFT-NEXT: vcvtt.f16.f32 s4, s0
	; CHECKSOFT-NEXT: vcvtt.f16.f32 s0, s4			; CHECKSOFT-NEXT: vmov r0, r1, d2
	; CHECKSOFT-NEXT: vmov r2, r3, d1
	; CHECKSOFT-NEXT: vmov r0, r1, d0
	; CHECKSOFT-NEXT: bx lr			; CHECKSOFT-NEXT: bx lr
	entry:			entry:
	%b = fptrunc float %fb to half			%b = fptrunc float %fb to half
	%x = insertelement <8 x half> %a, half %b, i32 1			%x = insertelement <8 x half> %a, half %b, i32 1
	ret <8 x half> %x			ret <8 x half> %x
	}			}

	define <8 x half> @test_vset_laneq_f16_7(<8 x half> %a, float %fb) nounwind {			define <8 x half> @test_vset_laneq_f16_7(<8 x half> %a, float %fb) nounwind {
	; CHECKHARD-LABEL: test_vset_laneq_f16_7:			; CHECKHARD-LABEL: test_vset_laneq_f16_7:
	; CHECKHARD: @ %bb.0: @ %entry			; CHECKHARD: @ %bb.0: @ %entry
	; CHECKHARD-NEXT: vcvtt.f16.f32 s3, s4			; CHECKHARD-NEXT: vcvtt.f16.f32 s3, s4
	; CHECKHARD-NEXT: bx lr			; CHECKHARD-NEXT: bx lr
	;			;
	; CHECKSOFT-LABEL: test_vset_laneq_f16_7:			; CHECKSOFT-LABEL: test_vset_laneq_f16_7:
	; CHECKSOFT: @ %bb.0: @ %entry			; CHECKSOFT: @ %bb.0: @ %entry
	; CHECKSOFT-NEXT: vmov d1, r2, r3			; CHECKSOFT-NEXT: vmov d1, r2, r3
	; CHECKSOFT-NEXT: vldr s4, [sp]			; CHECKSOFT-NEXT: vldr s4, [sp]
	; CHECKSOFT-NEXT: vmov d0, r0, r1			; CHECKSOFT-NEXT: vmov d0, r0, r1
	; CHECKSOFT-NEXT: vcvtt.f16.f32 s3, s4			; CHECKSOFT-NEXT: vcvtt.f16.f32 s3, s4
	; CHECKSOFT-NEXT: vmov r0, r1, d0
	; CHECKSOFT-NEXT: vmov r2, r3, d1			; CHECKSOFT-NEXT: vmov r2, r3, d1
	; CHECKSOFT-NEXT: bx lr			; CHECKSOFT-NEXT: bx lr
	entry:			entry:
	%b = fptrunc float %fb to half			%b = fptrunc float %fb to half
	%x = insertelement <8 x half> %a, half %b, i32 7			%x = insertelement <8 x half> %a, half %b, i32 7
	ret <8 x half> %x			ret <8 x half> %x
	}			}

llvm/test/CodeGen/ARM/func-argpassing-endian.ll

	Show First 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; CHECK-BE-NEXT: vmov r1, r0, d16			; CHECK-BE-NEXT: vmov r1, r0, d16
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	ret double 1.0			ret double 1.0
	}			}

	define <4 x i32> @return_v4i32() {			define <4 x i32> @return_v4i32() {
	; CHECK-LE-LABEL: return_v4i32:			; CHECK-LE-LABEL: return_v4i32:
	; CHECK-LE: @ %bb.0:			; CHECK-LE: @ %bb.0:
	; CHECK-LE-NEXT: adr r0, .LCPI6_0			; CHECK-LE-NEXT: vldr d16, .LCPI6_0
	; CHECK-LE-NEXT: vld1.64 {d16, d17}, [r0:128]			; CHECK-LE-NEXT: vldr d17, .LCPI6_1
				RKSimonUnsubmitted Not Done Reply Inline Actions regression? we're no longer doing a single multiple load RKSimon: regression? we're no longer doing a single multiple load
	; CHECK-LE-NEXT: vmov r0, r1, d16			; CHECK-LE-NEXT: vmov r0, r1, d16
	; CHECK-LE-NEXT: vmov r2, r3, d17			; CHECK-LE-NEXT: vmov r2, r3, d17
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	; CHECK-LE-NEXT: .p2align 4			; CHECK-LE-NEXT: .p2align 3
	; CHECK-LE-NEXT: @ %bb.1:			; CHECK-LE-NEXT: @ %bb.1:
	; CHECK-LE-NEXT: .LCPI6_0:			; CHECK-LE-NEXT: .LCPI6_0:
	; CHECK-LE-NEXT: .long 42 @ double 9.1245819032257467E-313			; CHECK-LE-NEXT: .long 42 @ double 9.1245819032257467E-313
	; CHECK-LE-NEXT: .long 43			; CHECK-LE-NEXT: .long 43
				; CHECK-LE-NEXT: .LCPI6_1:
	; CHECK-LE-NEXT: .long 44 @ double 9.5489810615176143E-313			; CHECK-LE-NEXT: .long 44 @ double 9.5489810615176143E-313
	; CHECK-LE-NEXT: .long 45			; CHECK-LE-NEXT: .long 45
	;			;
	; CHECK-BE-LABEL: return_v4i32:			; CHECK-BE-LABEL: return_v4i32:
	; CHECK-BE: @ %bb.0:			; CHECK-BE: @ %bb.0:
	; CHECK-BE-NEXT: adr r0, .LCPI6_0			; CHECK-BE-NEXT: vldr d16, .LCPI6_0
	; CHECK-BE-NEXT: vld1.64 {d16, d17}, [r0:128]			; CHECK-BE-NEXT: vldr d17, .LCPI6_1
	; CHECK-BE-NEXT: vmov r1, r0, d16			; CHECK-BE-NEXT: vmov r1, r0, d16
	; CHECK-BE-NEXT: vmov r3, r2, d17			; CHECK-BE-NEXT: vmov r3, r2, d17
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	; CHECK-BE-NEXT: .p2align 4			; CHECK-BE-NEXT: .p2align 3
	; CHECK-BE-NEXT: @ %bb.1:			; CHECK-BE-NEXT: @ %bb.1:
	; CHECK-BE-NEXT: .LCPI6_0:			; CHECK-BE-NEXT: .LCPI6_0:
	; CHECK-BE-NEXT: .long 42 @ double 8.912382324178626E-313			; CHECK-BE-NEXT: .long 42 @ double 8.912382324178626E-313
	; CHECK-BE-NEXT: .long 43			; CHECK-BE-NEXT: .long 43
				; CHECK-BE-NEXT: .LCPI6_1:
	; CHECK-BE-NEXT: .long 44 @ double 9.3367814824704935E-313			; CHECK-BE-NEXT: .long 44 @ double 9.3367814824704935E-313
	; CHECK-BE-NEXT: .long 45			; CHECK-BE-NEXT: .long 45
	ret < 4 x i32> < i32 42, i32 43, i32 44, i32 45 >			ret < 4 x i32> < i32 42, i32 43, i32 44, i32 45 >
	}			}

	define <2 x double> @return_v2f64() {			define <2 x double> @return_v2f64() {
	; CHECK-LE-LABEL: return_v2f64:			; CHECK-LE-LABEL: return_v2f64:
	; CHECK-LE: @ %bb.0:			; CHECK-LE: @ %bb.0:
	▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/vdup.ll

Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	; CHECK-NEXT: mov pc, lr
%tmp1 = insertelement <2 x float> zeroinitializer, float %A, i32 0		%tmp1 = insertelement <2 x float> zeroinitializer, float %A, i32 0
%tmp2 = insertelement <2 x float> %tmp1, float %A, i32 1		%tmp2 = insertelement <2 x float> %tmp1, float %A, i32 1
ret <2 x float> %tmp2		ret <2 x float> %tmp2
}		}

define <16 x i8> @v_dupQ8(i8 %A) nounwind {		define <16 x i8> @v_dupQ8(i8 %A) nounwind {
; CHECK-LABEL: v_dupQ8:		; CHECK-LABEL: v_dupQ8:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.8 q8, r0		; CHECK-NEXT: vmov.i32 d17, #0x0
		; CHECK-NEXT: vdup.8 d16, r0
		; CHECK-NEXT: vmov.8 d17[0], r0
		; CHECK-NEXT: vmov.8 d17[1], r0
		; CHECK-NEXT: vmov.8 d17[2], r0
		; CHECK-NEXT: vmov.8 d17[3], r0
		; CHECK-NEXT: vmov.8 d17[4], r0
		; CHECK-NEXT: vmov.8 d17[5], r0
		; CHECK-NEXT: vmov.8 d17[6], r0
		; CHECK-NEXT: vmov.8 d17[7], r0
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov r0, r1, d16
		foadAuthorUnsubmitted Done Reply Inline Actions Regression in lots of cases in this file. foad: Regression in lots of cases in this file.
		RKSimonUnsubmitted Not Done Reply Inline Actions poor duplicate/splat detection? RKSimon: poor duplicate/splat detection?
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r2, r3, d17
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp1 = insertelement <16 x i8> zeroinitializer, i8 %A, i32 0		%tmp1 = insertelement <16 x i8> zeroinitializer, i8 %A, i32 0
%tmp2 = insertelement <16 x i8> %tmp1, i8 %A, i32 1		%tmp2 = insertelement <16 x i8> %tmp1, i8 %A, i32 1
%tmp3 = insertelement <16 x i8> %tmp2, i8 %A, i32 2		%tmp3 = insertelement <16 x i8> %tmp2, i8 %A, i32 2
%tmp4 = insertelement <16 x i8> %tmp3, i8 %A, i32 3		%tmp4 = insertelement <16 x i8> %tmp3, i8 %A, i32 3
%tmp5 = insertelement <16 x i8> %tmp4, i8 %A, i32 4		%tmp5 = insertelement <16 x i8> %tmp4, i8 %A, i32 4
%tmp6 = insertelement <16 x i8> %tmp5, i8 %A, i32 5		%tmp6 = insertelement <16 x i8> %tmp5, i8 %A, i32 5
%tmp7 = insertelement <16 x i8> %tmp6, i8 %A, i32 6		%tmp7 = insertelement <16 x i8> %tmp6, i8 %A, i32 6
%tmp8 = insertelement <16 x i8> %tmp7, i8 %A, i32 7		%tmp8 = insertelement <16 x i8> %tmp7, i8 %A, i32 7
%tmp9 = insertelement <16 x i8> %tmp8, i8 %A, i32 8		%tmp9 = insertelement <16 x i8> %tmp8, i8 %A, i32 8
%tmp10 = insertelement <16 x i8> %tmp9, i8 %A, i32 9		%tmp10 = insertelement <16 x i8> %tmp9, i8 %A, i32 9
%tmp11 = insertelement <16 x i8> %tmp10, i8 %A, i32 10		%tmp11 = insertelement <16 x i8> %tmp10, i8 %A, i32 10
%tmp12 = insertelement <16 x i8> %tmp11, i8 %A, i32 11		%tmp12 = insertelement <16 x i8> %tmp11, i8 %A, i32 11
%tmp13 = insertelement <16 x i8> %tmp12, i8 %A, i32 12		%tmp13 = insertelement <16 x i8> %tmp12, i8 %A, i32 12
%tmp14 = insertelement <16 x i8> %tmp13, i8 %A, i32 13		%tmp14 = insertelement <16 x i8> %tmp13, i8 %A, i32 13
%tmp15 = insertelement <16 x i8> %tmp14, i8 %A, i32 14		%tmp15 = insertelement <16 x i8> %tmp14, i8 %A, i32 14
%tmp16 = insertelement <16 x i8> %tmp15, i8 %A, i32 15		%tmp16 = insertelement <16 x i8> %tmp15, i8 %A, i32 15
ret <16 x i8> %tmp16		ret <16 x i8> %tmp16
}		}

define <8 x i16> @v_dupQ16(i16 %A) nounwind {		define <8 x i16> @v_dupQ16(i16 %A) nounwind {
; CHECK-LABEL: v_dupQ16:		; CHECK-LABEL: v_dupQ16:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.16 q8, r0		; CHECK-NEXT: vmov.i32 d17, #0x0
		; CHECK-NEXT: vdup.16 d16, r0
		; CHECK-NEXT: vmov.16 d17[0], r0
		; CHECK-NEXT: vmov.16 d17[1], r0
		; CHECK-NEXT: vmov.16 d17[2], r0
		; CHECK-NEXT: vmov.16 d17[3], r0
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov r0, r1, d16
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r2, r3, d17
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp1 = insertelement <8 x i16> zeroinitializer, i16 %A, i32 0		%tmp1 = insertelement <8 x i16> zeroinitializer, i16 %A, i32 0
%tmp2 = insertelement <8 x i16> %tmp1, i16 %A, i32 1		%tmp2 = insertelement <8 x i16> %tmp1, i16 %A, i32 1
%tmp3 = insertelement <8 x i16> %tmp2, i16 %A, i32 2		%tmp3 = insertelement <8 x i16> %tmp2, i16 %A, i32 2
%tmp4 = insertelement <8 x i16> %tmp3, i16 %A, i32 3		%tmp4 = insertelement <8 x i16> %tmp3, i16 %A, i32 3
%tmp5 = insertelement <8 x i16> %tmp4, i16 %A, i32 4		%tmp5 = insertelement <8 x i16> %tmp4, i16 %A, i32 4
%tmp6 = insertelement <8 x i16> %tmp5, i16 %A, i32 5		%tmp6 = insertelement <8 x i16> %tmp5, i16 %A, i32 5
%tmp7 = insertelement <8 x i16> %tmp6, i16 %A, i32 6		%tmp7 = insertelement <8 x i16> %tmp6, i16 %A, i32 6
%tmp8 = insertelement <8 x i16> %tmp7, i16 %A, i32 7		%tmp8 = insertelement <8 x i16> %tmp7, i16 %A, i32 7
ret <8 x i16> %tmp8		ret <8 x i16> %tmp8
}		}

define <4 x i32> @v_dupQ32(i32 %A) nounwind {		define <4 x i32> @v_dupQ32(i32 %A) nounwind {
; CHECK-LABEL: v_dupQ32:		; CHECK-LABEL: v_dupQ32:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.32 q8, r0		; CHECK-NEXT: vdup.32 d16, r0
		; CHECK-NEXT: vmov.32 d17[0], r0
		; CHECK-NEXT: vmov.32 d17[1], r0
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov r0, r1, d16
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r2, r3, d17
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp1 = insertelement <4 x i32> zeroinitializer, i32 %A, i32 0		%tmp1 = insertelement <4 x i32> zeroinitializer, i32 %A, i32 0
%tmp2 = insertelement <4 x i32> %tmp1, i32 %A, i32 1		%tmp2 = insertelement <4 x i32> %tmp1, i32 %A, i32 1
%tmp3 = insertelement <4 x i32> %tmp2, i32 %A, i32 2		%tmp3 = insertelement <4 x i32> %tmp2, i32 %A, i32 2
%tmp4 = insertelement <4 x i32> %tmp3, i32 %A, i32 3		%tmp4 = insertelement <4 x i32> %tmp3, i32 %A, i32 3
ret <4 x i32> %tmp4		ret <4 x i32> %tmp4
}		}

define <4 x float> @v_dupQfloat(float %A) nounwind {		define <4 x float> @v_dupQfloat(float %A) nounwind {
; CHECK-LABEL: v_dupQfloat:		; CHECK-LABEL: v_dupQfloat:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.32 q8, r0		; CHECK-NEXT: vmov s0, r0
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov.f32 s1, s0
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r0, r1, d0
		; CHECK-NEXT: vmov.f32 s2, s0
		; CHECK-NEXT: vmov.f32 s3, s0
		; CHECK-NEXT: vmov r2, r3, d1
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%tmp1 = insertelement <4 x float> zeroinitializer, float %A, i32 0		%tmp1 = insertelement <4 x float> zeroinitializer, float %A, i32 0
%tmp2 = insertelement <4 x float> %tmp1, float %A, i32 1		%tmp2 = insertelement <4 x float> %tmp1, float %A, i32 1
%tmp3 = insertelement <4 x float> %tmp2, float %A, i32 2		%tmp3 = insertelement <4 x float> %tmp2, float %A, i32 2
%tmp4 = insertelement <4 x float> %tmp3, float %A, i32 3		%tmp4 = insertelement <4 x float> %tmp3, float %A, i32 3
ret <4 x float> %tmp4		ret <4 x float> %tmp4
}		}

▲ Show 20 Lines • Show All 246 Lines • ▼ Show 20 Lines	; CHECK-NEXT: mov pc, lr
%2 = shufflevector <8 x i8> %1, <8 x i8> undef, <8 x i32> zeroinitializer		%2 = shufflevector <8 x i8> %1, <8 x i8> undef, <8 x i32> zeroinitializer
store <8 x i8> %2, <8 x i8>* %ptr, align 8		store <8 x i8> %2, <8 x i8>* %ptr, align 8
ret void		ret void
}		}

define <4 x i32> @tdupi(i32 %x, i32 %y) {		define <4 x i32> @tdupi(i32 %x, i32 %y) {
; CHECK-LABEL: tdupi:		; CHECK-LABEL: tdupi:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.32 q8, r0		; CHECK-NEXT: vdup.32 d16, r0
		; CHECK-NEXT: vmov.32 d17[0], r0
; CHECK-NEXT: vmov.32 d17[1], r1		; CHECK-NEXT: vmov.32 d17[1], r1
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov r0, r1, d16
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r2, r3, d17
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%1 = insertelement <4 x i32> undef, i32 %x, i32 0		%1 = insertelement <4 x i32> undef, i32 %x, i32 0
%2 = insertelement <4 x i32> %1, i32 %x, i32 1		%2 = insertelement <4 x i32> %1, i32 %x, i32 1
%3 = insertelement <4 x i32> %2, i32 %x, i32 2		%3 = insertelement <4 x i32> %2, i32 %x, i32 2
%4 = insertelement <4 x i32> %3, i32 %y, i32 3		%4 = insertelement <4 x i32> %3, i32 %y, i32 3
ret <4 x i32> %4		ret <4 x i32> %4
}		}

define <4 x float> @tdupf(float %x, float %y) {		define <4 x float> @tdupf(float %x, float %y) {
; CHECK-LABEL: tdupf:		; CHECK-LABEL: tdupf:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vdup.32 q0, r0		; CHECK-NEXT: vmov s0, r0
; CHECK-NEXT: vmov s3, r1		; CHECK-NEXT: vmov s3, r1
		; CHECK-NEXT: vmov.f32 s1, s0
; CHECK-NEXT: vmov r0, r1, d0		; CHECK-NEXT: vmov r0, r1, d0
		; CHECK-NEXT: vmov.f32 s2, s0
; CHECK-NEXT: vmov r2, r3, d1		; CHECK-NEXT: vmov r2, r3, d1
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%1 = insertelement <4 x float> undef, float %x, i32 0		%1 = insertelement <4 x float> undef, float %x, i32 0
%2 = insertelement <4 x float> %1, float %x, i32 1		%2 = insertelement <4 x float> %1, float %x, i32 1
%3 = insertelement <4 x float> %2, float %x, i32 2		%3 = insertelement <4 x float> %2, float %x, i32 2
%4 = insertelement <4 x float> %3, float %y, i32 3		%4 = insertelement <4 x float> %3, float %y, i32 3
ret <4 x float> %4		ret <4 x float> %4
}		}

; This test checks that when splatting an element from a vector into another,		; This test checks that when splatting an element from a vector into another,
; the value isn't moved out to GPRs first.		; the value isn't moved out to GPRs first.
define <4 x i32> @tduplane(<4 x i32> %invec) {		define <4 x i32> @tduplane(<4 x i32> %invec) {
; CHECK-LABEL: tduplane:		; CHECK-LABEL: tduplane:
; CHECK: @ %bb.0:		; CHECK: @ %bb.0:
; CHECK-NEXT: vmov d16, r0, r1		; CHECK-NEXT: vmov d16, r0, r1
; CHECK-NEXT: mov r0, #255		; CHECK-NEXT: vmov.32 r0, d16[1]
		; CHECK-NEXT: vmov d17, r2, r3
; CHECK-NEXT: vdup.32 q8, d16[1]		; CHECK-NEXT: vdup.32 q8, d16[1]
		; CHECK-NEXT: vmov.32 d17[0], r0
		; CHECK-NEXT: mov r0, #255
; CHECK-NEXT: vmov.32 d17[1], r0		; CHECK-NEXT: vmov.32 d17[1], r0
; CHECK-NEXT: vmov r0, r1, d16		; CHECK-NEXT: vmov r0, r1, d16
; CHECK-NEXT: vmov r2, r3, d17		; CHECK-NEXT: vmov r2, r3, d17
; CHECK-NEXT: mov pc, lr		; CHECK-NEXT: mov pc, lr
%in = extractelement <4 x i32> %invec, i32 1		%in = extractelement <4 x i32> %invec, i32 1
%1 = insertelement <4 x i32> undef, i32 %in, i32 0		%1 = insertelement <4 x i32> undef, i32 %in, i32 0
%2 = insertelement <4 x i32> %1, i32 %in, i32 1		%2 = insertelement <4 x i32> %1, i32 %in, i32 1
%3 = insertelement <4 x i32> %2, i32 %in, i32 2		%3 = insertelement <4 x i32> %2, i32 %in, i32 2
▲ Show 20 Lines • Show All 146 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/vecreduce-fadd-legalization-strict.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: mov pc, lr			; CHECK-NEXT: mov pc, lr
	%b = call fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)			%b = call fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: @ %bb.0:			; CHECK: @ %bb.0:
	; CHECK-NEXT: vmov d3, r2, r3
	; CHECK-NEXT: vldr s0, .LCPI6_0
	; CHECK-NEXT: vmov d2, r0, r1			; CHECK-NEXT: vmov d2, r0, r1
				; CHECK-NEXT: vldr s0, .LCPI6_0
	; CHECK-NEXT: mov r0, sp			; CHECK-NEXT: mov r0, sp
	; CHECK-NEXT: vadd.f32 s0, s4, s0			; CHECK-NEXT: vadd.f32 s0, s4, s0
	; CHECK-NEXT: vadd.f32 s0, s0, s5			; CHECK-NEXT: vadd.f32 s0, s0, s5
				; CHECK-NEXT: vmov d3, r2, r3
	; CHECK-NEXT: vadd.f32 s0, s0, s6			; CHECK-NEXT: vadd.f32 s0, s0, s6
	; CHECK-NEXT: vadd.f32 s0, s0, s7			; CHECK-NEXT: vadd.f32 s0, s0, s7
	; CHECK-NEXT: vld1.64 {d2, d3}, [r0]			; CHECK-NEXT: vld1.64 {d2, d3}, [r0]
	; CHECK-NEXT: add r0, sp, #16			; CHECK-NEXT: add r0, sp, #16
	; CHECK-NEXT: vadd.f32 s0, s0, s4			; CHECK-NEXT: vadd.f32 s0, s0, s4
	; CHECK-NEXT: vadd.f32 s0, s0, s5			; CHECK-NEXT: vadd.f32 s0, s0, s5
	; CHECK-NEXT: vadd.f32 s0, s0, s6			; CHECK-NEXT: vadd.f32 s0, s0, s6
	; CHECK-NEXT: vadd.f32 s0, s0, s7			; CHECK-NEXT: vadd.f32 s0, s0, s7
	Show All 20 Lines

llvm/test/CodeGen/ARM/vecreduce-fmul-legalization-strict.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: mov pc, lr			; CHECK-NEXT: mov pc, lr
	%b = call fp128 @llvm.experimental.vector.reduce.v2.fmul.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)			%b = call fp128 @llvm.experimental.vector.reduce.v2.fmul.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: @ %bb.0:			; CHECK: @ %bb.0:
	; CHECK-NEXT: vmov d3, r2, r3
	; CHECK-NEXT: vldr s0, .LCPI6_0
	; CHECK-NEXT: vmov d2, r0, r1			; CHECK-NEXT: vmov d2, r0, r1
				; CHECK-NEXT: vldr s0, .LCPI6_0
	; CHECK-NEXT: mov r0, sp			; CHECK-NEXT: mov r0, sp
	; CHECK-NEXT: vmul.f32 s0, s4, s0			; CHECK-NEXT: vmul.f32 s0, s4, s0
	; CHECK-NEXT: vmul.f32 s0, s0, s5			; CHECK-NEXT: vmul.f32 s0, s0, s5
				; CHECK-NEXT: vmov d3, r2, r3
	; CHECK-NEXT: vmul.f32 s0, s0, s6			; CHECK-NEXT: vmul.f32 s0, s0, s6
	; CHECK-NEXT: vmul.f32 s0, s0, s7			; CHECK-NEXT: vmul.f32 s0, s0, s7
	; CHECK-NEXT: vld1.64 {d2, d3}, [r0]			; CHECK-NEXT: vld1.64 {d2, d3}, [r0]
	; CHECK-NEXT: add r0, sp, #16			; CHECK-NEXT: add r0, sp, #16
	; CHECK-NEXT: vmul.f32 s0, s0, s4			; CHECK-NEXT: vmul.f32 s0, s0, s4
	; CHECK-NEXT: vmul.f32 s0, s0, s5			; CHECK-NEXT: vmul.f32 s0, s0, s5
	; CHECK-NEXT: vmul.f32 s0, s0, s6			; CHECK-NEXT: vmul.f32 s0, s0, s6
	; CHECK-NEXT: vmul.f32 s0, s0, s7			; CHECK-NEXT: vmul.f32 s0, s0, s7
	Show All 20 Lines

llvm/test/CodeGen/ARM/vldlane.ll

Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	;CHECK: vld1.32 {d16[1]}, [r0:32]
%tmp1 = load <2 x float>, <2 x float>* %B		%tmp1 = load <2 x float>, <2 x float>* %B
%tmp2 = load float, float* %A, align 4		%tmp2 = load float, float* %A, align 4
%tmp3 = insertelement <2 x float> %tmp1, float %tmp2, i32 1		%tmp3 = insertelement <2 x float> %tmp1, float %tmp2, i32 1
ret <2 x float> %tmp3		ret <2 x float> %tmp3
}		}

define <16 x i8> @vld1laneQi8(i8* %A, <16 x i8>* %B) nounwind {		define <16 x i8> @vld1laneQi8(i8* %A, <16 x i8>* %B) nounwind {
;CHECK-LABEL: vld1laneQi8:		;CHECK-LABEL: vld1laneQi8:
;CHECK: vld1.8 {d17[1]}, [r0]		;CHECK: vld1.8 {d{{[0-9]+}}[1]}, [r0]
%tmp1 = load <16 x i8>, <16 x i8>* %B		%tmp1 = load <16 x i8>, <16 x i8>* %B
%tmp2 = load i8, i8* %A, align 8		%tmp2 = load i8, i8* %A, align 8
%tmp3 = insertelement <16 x i8> %tmp1, i8 %tmp2, i32 9		%tmp3 = insertelement <16 x i8> %tmp1, i8 %tmp2, i32 9
ret <16 x i8> %tmp3		ret <16 x i8> %tmp3
}		}

define <8 x i16> @vld1laneQi16(i16* %A, <8 x i16>* %B) nounwind {		define <8 x i16> @vld1laneQi16(i16* %A, <8 x i16>* %B) nounwind {
;CHECK-LABEL: vld1laneQi16:		;CHECK-LABEL: vld1laneQi16:
;CHECK: vld1.16 {d17[1]}, [r0:16]		;CHECK: vld1.16 {d{{[0-9]+}}[1]}, [r0:16]
%tmp1 = load <8 x i16>, <8 x i16>* %B		%tmp1 = load <8 x i16>, <8 x i16>* %B
%tmp2 = load i16, i16* %A, align 8		%tmp2 = load i16, i16* %A, align 8
%tmp3 = insertelement <8 x i16> %tmp1, i16 %tmp2, i32 5		%tmp3 = insertelement <8 x i16> %tmp1, i16 %tmp2, i32 5
ret <8 x i16> %tmp3		ret <8 x i16> %tmp3
}		}

define <4 x i32> @vld1laneQi32(i32* %A, <4 x i32>* %B) nounwind {		define <4 x i32> @vld1laneQi32(i32* %A, <4 x i32>* %B) nounwind {
;CHECK-LABEL: vld1laneQi32:		;CHECK-LABEL: vld1laneQi32:
;CHECK: vld1.32 {d17[1]}, [r0:32]		;CHECK: vld1.32 {d{{[0-9]+}}[1]}, [r0:32]
%tmp1 = load <4 x i32>, <4 x i32>* %B		%tmp1 = load <4 x i32>, <4 x i32>* %B
%tmp2 = load i32, i32* %A, align 8		%tmp2 = load i32, i32* %A, align 8
%tmp3 = insertelement <4 x i32> %tmp1, i32 %tmp2, i32 3		%tmp3 = insertelement <4 x i32> %tmp1, i32 %tmp2, i32 3
ret <4 x i32> %tmp3		ret <4 x i32> %tmp3
}		}

define <4 x float> @vld1laneQf(float* %A, <4 x float>* %B) nounwind {		define <4 x float> @vld1laneQf(float* %A, <4 x float>* %B) nounwind {
;CHECK-LABEL: vld1laneQf:		;CHECK-LABEL: vld1laneQf:
;CHECK: vld1.32 {d16[0]}, [r0:32]		;CHECK: vld1.32 {d{{[0-9]+}}[0]}, [r0:32]
%tmp1 = load <4 x float>, <4 x float>* %B		%tmp1 = load <4 x float>, <4 x float>* %B
%tmp2 = load float, float* %A		%tmp2 = load float, float* %A
%tmp3 = insertelement <4 x float> %tmp1, float %tmp2, i32 0		%tmp3 = insertelement <4 x float> %tmp1, float %tmp2, i32 0
ret <4 x float> %tmp3		ret <4 x float> %tmp3
}		}

%struct.__neon_int8x8x2_t = type { <8 x i8>, <8 x i8> }		%struct.__neon_int8x8x2_t = type { <8 x i8>, <8 x i8> }
%struct.__neon_int16x4x2_t = type { <4 x i16>, <4 x i16> }		%struct.__neon_int16x4x2_t = type { <4 x i16>, <4 x i16> }
▲ Show 20 Lines • Show All 447 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/vzip.ll

	Show First 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; but which the current handling of two-result vzip can't do - thus ending up			; but which the current handling of two-result vzip can't do - thus ending up
	; as a vtrn.			; as a vtrn.
	define <8 x i16> @vzip_lower_shufflemask_undef_rev(<4 x i16>* %A, <4 x i16>* %B) {			define <8 x i16> @vzip_lower_shufflemask_undef_rev(<4 x i16>* %A, <4 x i16>* %B) {
	; CHECK-LABEL: vzip_lower_shufflemask_undef_rev:			; CHECK-LABEL: vzip_lower_shufflemask_undef_rev:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vldr d16, [r1]			; CHECK-NEXT: vldr d16, [r1]
	; CHECK-NEXT: vldr d19, [r0]			; CHECK-NEXT: vldr d19, [r0]
	; CHECK-NEXT: vtrn.16 d19, d16			; CHECK-NEXT: vtrn.16 d19, d16
	; CHECK-NEXT: vmov r0, r1, d18			; CHECK-NEXT: vmov r0, r1, d16
	; CHECK-NEXT: vmov r2, r3, d19			; CHECK-NEXT: vmov r2, r3, d19
	; CHECK-NEXT: mov pc, lr			; CHECK-NEXT: mov pc, lr
	entry:			entry:
	%tmp1 = load <4 x i16>, <4 x i16>* %A			%tmp1 = load <4 x i16>, <4 x i16>* %A
	%tmp2 = load <4 x i16>, <4 x i16>* %B			%tmp2 = load <4 x i16>, <4 x i16>* %B
	%0 = shufflevector <4 x i16> %tmp1, <4 x i16> %tmp2, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 4, i32 undef, i32 undef>			%0 = shufflevector <4 x i16> %tmp1, <4 x i16> %tmp2, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 4, i32 undef, i32 undef>
	ret <8 x i16> %0			ret <8 x i16> %0
	}			}
	▲ Show 20 Lines • Show All 81 Lines • Show Last 20 Lines

llvm/test/CodeGen/Mips/cconv/vector.ll

	Show First 20 Lines • Show All 954 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: andi $2, $2, 65535			; MIPS64-NEXT: andi $2, $2, 65535
	; MIPS64-NEXT: or $2, $2, $3			; MIPS64-NEXT: or $2, $2, $3
	; MIPS64-NEXT: dsll $2, $2, 32			; MIPS64-NEXT: dsll $2, $2, 32
	; MIPS64-NEXT: dsrl $2, $2, 32			; MIPS64-NEXT: dsrl $2, $2, 32
	; MIPS64-NEXT: or $2, $2, $1			; MIPS64-NEXT: or $2, $2, $1
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: i8_8:			; MIPS32R5-LABEL: i8_8:
	; MIPS32R5EB: # %bb.0:			; MIPS32R5: # %bb.0:
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -48			; MIPS32R5-NEXT: addiu $sp, $sp, -24
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 48			; MIPS32R5-NEXT: .cfi_def_cfa_offset 24
	; MIPS32R5EB-NEXT: sw $ra, 44($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: sw $6, 8($sp)
	; MIPS32R5EB-NEXT: sw $fp, 40($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: lbu $1, 9($sp)
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: lbu $2, 8($sp)
	; MIPS32R5EB-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: sw $7, 12($sp)
	; MIPS32R5EB-NEXT: move $fp, $sp			; MIPS32R5-NEXT: insert.h $w0[0], $2
	; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30			; MIPS32R5-NEXT: insert.h $w0[1], $1
	; MIPS32R5EB-NEXT: addiu $1, $zero, -16			; MIPS32R5-NEXT: lbu $1, 10($sp)
	; MIPS32R5EB-NEXT: and $sp, $sp, $1			; MIPS32R5-NEXT: sw $4, 16($sp)
	; MIPS32R5EB-NEXT: sw $6, 24($sp)			; MIPS32R5-NEXT: insert.h $w0[2], $1
	; MIPS32R5EB-NEXT: lbu $1, 25($sp)			; MIPS32R5-NEXT: lbu $1, 11($sp)
	; MIPS32R5EB-NEXT: lbu $2, 24($sp)			; MIPS32R5-NEXT: insert.h $w0[3], $1
	; MIPS32R5EB-NEXT: sw $7, 28($sp)			; MIPS32R5-NEXT: lbu $1, 12($sp)
	; MIPS32R5EB-NEXT: insert.h $w0[0], $2			; MIPS32R5-NEXT: sw $5, 20($sp)
	; MIPS32R5EB-NEXT: insert.h $w0[1], $1			; MIPS32R5-NEXT: insert.h $w0[4], $1
	; MIPS32R5EB-NEXT: lbu $1, 26($sp)			; MIPS32R5-NEXT: lbu $1, 17($sp)
	; MIPS32R5EB-NEXT: sw $4, 32($sp)			; MIPS32R5-NEXT: lbu $2, 16($sp)
	; MIPS32R5EB-NEXT: insert.h $w0[2], $1			; MIPS32R5-NEXT: insert.h $w1[0], $2
	; MIPS32R5EB-NEXT: lbu $1, 27($sp)			; MIPS32R5-NEXT: insert.h $w1[1], $1
	; MIPS32R5EB-NEXT: insert.h $w0[3], $1			; MIPS32R5-NEXT: lbu $1, 13($sp)
	; MIPS32R5EB-NEXT: lbu $1, 28($sp)			; MIPS32R5-NEXT: lbu $2, 18($sp)
	; MIPS32R5EB-NEXT: sw $5, 36($sp)			; MIPS32R5-NEXT: insert.h $w1[2], $2
	; MIPS32R5EB-NEXT: insert.h $w0[4], $1			; MIPS32R5-NEXT: insert.h $w0[5], $1
	; MIPS32R5EB-NEXT: lbu $1, 33($sp)			; MIPS32R5-NEXT: lbu $1, 19($sp)
	; MIPS32R5EB-NEXT: lbu $2, 32($sp)			; MIPS32R5-NEXT: lbu $2, 15($sp)
	; MIPS32R5EB-NEXT: insert.h $w1[0], $2			; MIPS32R5-NEXT: lbu $3, 14($sp)
	; MIPS32R5EB-NEXT: insert.h $w1[1], $1			; MIPS32R5-NEXT: lbu $4, 23($sp)
	; MIPS32R5EB-NEXT: lbu $1, 29($sp)			; MIPS32R5-NEXT: insert.h $w0[6], $3
	; MIPS32R5EB-NEXT: lbu $2, 34($sp)			; MIPS32R5-NEXT: insert.h $w0[7], $2
	; MIPS32R5EB-NEXT: insert.h $w1[2], $2			; MIPS32R5-NEXT: insert.h $w1[3], $1
	; MIPS32R5EB-NEXT: insert.h $w0[5], $1			; MIPS32R5-NEXT: lbu $1, 20($sp)
	; MIPS32R5EB-NEXT: lbu $1, 35($sp)			; MIPS32R5-NEXT: insert.h $w1[4], $1
	; MIPS32R5EB-NEXT: lbu $2, 31($sp)			; MIPS32R5-NEXT: lbu $1, 21($sp)
	; MIPS32R5EB-NEXT: lbu $3, 30($sp)			; MIPS32R5-NEXT: insert.h $w1[5], $1
	; MIPS32R5EB-NEXT: lbu $4, 39($sp)			; MIPS32R5-NEXT: lbu $1, 22($sp)
	; MIPS32R5EB-NEXT: insert.h $w0[6], $3			; MIPS32R5-NEXT: insert.h $w1[6], $1
	; MIPS32R5EB-NEXT: insert.h $w0[7], $2			; MIPS32R5-NEXT: insert.h $w1[7], $4
	; MIPS32R5EB-NEXT: insert.h $w1[3], $1			; MIPS32R5-NEXT: addv.h $w0, $w1, $w0
	; MIPS32R5EB-NEXT: lbu $1, 36($sp)			; MIPS32R5-NEXT: copy_s.h $1, $w0[4]
	; MIPS32R5EB-NEXT: insert.h $w1[4], $1			; MIPS32R5-NEXT: copy_s.h $2, $w0[5]
	; MIPS32R5EB-NEXT: lbu $1, 37($sp)			; MIPS32R5-NEXT: copy_s.h $3, $w0[6]
	; MIPS32R5EB-NEXT: insert.h $w1[5], $1			; MIPS32R5-NEXT: copy_s.h $4, $w0[7]
	; MIPS32R5EB-NEXT: lbu $1, 38($sp)			; MIPS32R5-NEXT: copy_s.h $5, $w0[0]
	; MIPS32R5EB-NEXT: insert.h $w1[6], $1			; MIPS32R5-NEXT: copy_s.h $6, $w0[1]
	; MIPS32R5EB-NEXT: insert.h $w1[7], $4			; MIPS32R5-NEXT: copy_s.h $7, $w0[2]
	; MIPS32R5EB-NEXT: addv.h $w0, $w1, $w0			; MIPS32R5-NEXT: copy_s.h $8, $w0[3]
	; MIPS32R5EB-NEXT: copy_s.h $1, $w0[0]			; MIPS32R5-NEXT: sb $8, 3($sp)
	; MIPS32R5EB-NEXT: copy_s.h $2, $w0[1]			; MIPS32R5-NEXT: sb $7, 2($sp)
	; MIPS32R5EB-NEXT: copy_s.h $3, $w0[2]			; MIPS32R5-NEXT: sb $6, 1($sp)
	; MIPS32R5EB-NEXT: copy_s.h $4, $w0[3]			; MIPS32R5-NEXT: sb $5, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.h $5, $w0[4]			; MIPS32R5-NEXT: sb $4, 7($sp)
	; MIPS32R5EB-NEXT: copy_s.h $6, $w0[5]			; MIPS32R5-NEXT: sb $3, 6($sp)
	; MIPS32R5EB-NEXT: copy_s.h $7, $w0[6]			; MIPS32R5-NEXT: sb $2, 5($sp)
	; MIPS32R5EB-NEXT: copy_s.h $8, $w0[7]			; MIPS32R5-NEXT: sb $1, 4($sp)
	; MIPS32R5EB-NEXT: sb $8, 23($sp)			; MIPS32R5-NEXT: lw $2, 0($sp)
	; MIPS32R5EB-NEXT: sb $7, 22($sp)			; MIPS32R5-NEXT: lw $3, 4($sp)
	; MIPS32R5EB-NEXT: sb $6, 21($sp)			; MIPS32R5-NEXT: addiu $sp, $sp, 24
	; MIPS32R5EB-NEXT: sb $5, 20($sp)			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5EB-NEXT: sb $4, 19($sp)			; MIPS32R5-NEXT: nop
				foadAuthorUnsubmitted Done Reply Inline Actions There are some regressions in this file but also some improvements. I haven't worked out what's going on yet. foad: There are some regressions in this file but also some improvements. I haven't worked out what's…
	; MIPS32R5EB-NEXT: sb $3, 18($sp)
	; MIPS32R5EB-NEXT: sb $2, 17($sp)
	; MIPS32R5EB-NEXT: sb $1, 16($sp)
	; MIPS32R5EB-NEXT: lw $1, 20($sp)
	; MIPS32R5EB-NEXT: sw $1, 12($sp)
	; MIPS32R5EB-NEXT: lw $1, 16($sp)
	; MIPS32R5EB-NEXT: sw $1, 4($sp)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[3]
	; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5EB-NEXT: lw $fp, 40($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: lw $ra, 44($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 48
	; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5-LABEL: i8_8:			; MIPS64R5-LABEL: i8_8:
	; MIPS64R5: # %bb.0:			; MIPS64R5: # %bb.0:
	; MIPS64R5-NEXT: daddiu $sp, $sp, -32			; MIPS64R5-NEXT: daddiu $sp, $sp, -32
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 32			; MIPS64R5-NEXT: .cfi_def_cfa_offset 32
	; MIPS64R5-NEXT: sd $5, 16($sp)			; MIPS64R5-NEXT: sd $5, 16($sp)
	; MIPS64R5-NEXT: lbu $1, 17($sp)			; MIPS64R5-NEXT: lbu $1, 17($sp)
	; MIPS64R5-NEXT: lbu $2, 16($sp)			; MIPS64R5-NEXT: lbu $2, 16($sp)
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; MIPS64R5-NEXT: sb $4, 11($sp)			; MIPS64R5-NEXT: sb $4, 11($sp)
	; MIPS64R5-NEXT: sb $3, 10($sp)			; MIPS64R5-NEXT: sb $3, 10($sp)
	; MIPS64R5-NEXT: sb $2, 9($sp)			; MIPS64R5-NEXT: sb $2, 9($sp)
	; MIPS64R5-NEXT: sb $1, 8($sp)			; MIPS64R5-NEXT: sb $1, 8($sp)
	; MIPS64R5-NEXT: ld $2, 8($sp)			; MIPS64R5-NEXT: ld $2, 8($sp)
	; MIPS64R5-NEXT: daddiu $sp, $sp, 32			; MIPS64R5-NEXT: daddiu $sp, $sp, 32
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	;
	; MIPS32R5EL-LABEL: i8_8:
	; MIPS32R5EL: # %bb.0:
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -48
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 48
	; MIPS32R5EL-NEXT: sw $ra, 44($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: sw $fp, 40($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: .cfi_offset 30, -8
	; MIPS32R5EL-NEXT: move $fp, $sp
	; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EL-NEXT: addiu $1, $zero, -16
	; MIPS32R5EL-NEXT: and $sp, $sp, $1
	; MIPS32R5EL-NEXT: sw $6, 24($sp)
	; MIPS32R5EL-NEXT: lbu $1, 25($sp)
	; MIPS32R5EL-NEXT: lbu $2, 24($sp)
	; MIPS32R5EL-NEXT: sw $7, 28($sp)
	; MIPS32R5EL-NEXT: insert.h $w0[0], $2
	; MIPS32R5EL-NEXT: insert.h $w0[1], $1
	; MIPS32R5EL-NEXT: lbu $1, 26($sp)
	; MIPS32R5EL-NEXT: sw $4, 32($sp)
	; MIPS32R5EL-NEXT: insert.h $w0[2], $1
	; MIPS32R5EL-NEXT: lbu $1, 27($sp)
	; MIPS32R5EL-NEXT: insert.h $w0[3], $1
	; MIPS32R5EL-NEXT: lbu $1, 28($sp)
	; MIPS32R5EL-NEXT: sw $5, 36($sp)
	; MIPS32R5EL-NEXT: insert.h $w0[4], $1
	; MIPS32R5EL-NEXT: lbu $1, 33($sp)
	; MIPS32R5EL-NEXT: lbu $2, 32($sp)
	; MIPS32R5EL-NEXT: insert.h $w1[0], $2
	; MIPS32R5EL-NEXT: insert.h $w1[1], $1
	; MIPS32R5EL-NEXT: lbu $1, 29($sp)
	; MIPS32R5EL-NEXT: lbu $2, 34($sp)
	; MIPS32R5EL-NEXT: insert.h $w1[2], $2
	; MIPS32R5EL-NEXT: insert.h $w0[5], $1
	; MIPS32R5EL-NEXT: lbu $1, 35($sp)
	; MIPS32R5EL-NEXT: lbu $2, 31($sp)
	; MIPS32R5EL-NEXT: lbu $3, 30($sp)
	; MIPS32R5EL-NEXT: lbu $4, 39($sp)
	; MIPS32R5EL-NEXT: insert.h $w0[6], $3
	; MIPS32R5EL-NEXT: insert.h $w0[7], $2
	; MIPS32R5EL-NEXT: insert.h $w1[3], $1
	; MIPS32R5EL-NEXT: lbu $1, 36($sp)
	; MIPS32R5EL-NEXT: insert.h $w1[4], $1
	; MIPS32R5EL-NEXT: lbu $1, 37($sp)
	; MIPS32R5EL-NEXT: insert.h $w1[5], $1
	; MIPS32R5EL-NEXT: lbu $1, 38($sp)
	; MIPS32R5EL-NEXT: insert.h $w1[6], $1
	; MIPS32R5EL-NEXT: insert.h $w1[7], $4
	; MIPS32R5EL-NEXT: addv.h $w0, $w1, $w0
	; MIPS32R5EL-NEXT: copy_s.h $1, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.h $2, $w0[1]
	; MIPS32R5EL-NEXT: copy_s.h $3, $w0[2]
	; MIPS32R5EL-NEXT: copy_s.h $4, $w0[3]
	; MIPS32R5EL-NEXT: copy_s.h $5, $w0[4]
	; MIPS32R5EL-NEXT: copy_s.h $6, $w0[5]
	; MIPS32R5EL-NEXT: copy_s.h $7, $w0[6]
	; MIPS32R5EL-NEXT: copy_s.h $8, $w0[7]
	; MIPS32R5EL-NEXT: sb $8, 23($sp)
	; MIPS32R5EL-NEXT: sb $7, 22($sp)
	; MIPS32R5EL-NEXT: sb $6, 21($sp)
	; MIPS32R5EL-NEXT: sb $5, 20($sp)
	; MIPS32R5EL-NEXT: sb $4, 19($sp)
	; MIPS32R5EL-NEXT: sb $3, 18($sp)
	; MIPS32R5EL-NEXT: sb $2, 17($sp)
	; MIPS32R5EL-NEXT: sb $1, 16($sp)
	; MIPS32R5EL-NEXT: lw $1, 20($sp)
	; MIPS32R5EL-NEXT: sw $1, 8($sp)
	; MIPS32R5EL-NEXT: lw $1, 16($sp)
	; MIPS32R5EL-NEXT: sw $1, 0($sp)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: move $sp, $fp
	; MIPS32R5EL-NEXT: lw $fp, 40($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: lw $ra, 44($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 48
	; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop
	%1 = add <8 x i8> %a, %b			%1 = add <8 x i8> %a, %b
	ret <8 x i8> %1			ret <8 x i8> %1
	}			}

	define <16 x i8> @i8_16(<16 x i8> %a, <16 x i8> %b) {			define <16 x i8> @i8_16(<16 x i8> %a, <16 x i8> %b) {
	; MIPS32-LABEL: i8_16:			; MIPS32-LABEL: i8_16:
	; MIPS32: # %bb.0:			; MIPS32: # %bb.0:
	; MIPS32-NEXT: lw $1, 24($sp)			; MIPS32-NEXT: lw $1, 24($sp)
	▲ Show 20 Lines • Show All 449 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: sll $2, $2, 16			; MIPS64-NEXT: sll $2, $2, 16
	; MIPS64-NEXT: or $2, $4, $2			; MIPS64-NEXT: or $2, $4, $2
	; MIPS64-NEXT: dsll $2, $2, 32			; MIPS64-NEXT: dsll $2, $2, 32
	; MIPS64-NEXT: dsrl $2, $2, 32			; MIPS64-NEXT: dsrl $2, $2, 32
	; MIPS64-NEXT: or $2, $2, $1			; MIPS64-NEXT: or $2, $2, $1
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: i16_4:			; MIPS32R5-LABEL: i16_4:
	; MIPS32R5EB: # %bb.0:			; MIPS32R5: # %bb.0:
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -48			; MIPS32R5-NEXT: addiu $sp, $sp, -24
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 48			; MIPS32R5-NEXT: .cfi_def_cfa_offset 24
	; MIPS32R5EB-NEXT: sw $ra, 44($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: sw $6, 8($sp)
	; MIPS32R5EB-NEXT: sw $fp, 40($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: sw $7, 12($sp)
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: lhu $1, 10($sp)
	; MIPS32R5EB-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: lhu $2, 8($sp)
	; MIPS32R5EB-NEXT: move $fp, $sp			; MIPS32R5-NEXT: sw $4, 16($sp)
	; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30			; MIPS32R5-NEXT: insert.w $w0[0], $2
	; MIPS32R5EB-NEXT: addiu $1, $zero, -16			; MIPS32R5-NEXT: insert.w $w0[1], $1
	; MIPS32R5EB-NEXT: and $sp, $sp, $1			; MIPS32R5-NEXT: lhu $1, 12($sp)
	; MIPS32R5EB-NEXT: sw $6, 24($sp)			; MIPS32R5-NEXT: sw $5, 20($sp)
	; MIPS32R5EB-NEXT: sw $7, 28($sp)			; MIPS32R5-NEXT: insert.w $w0[2], $1
	; MIPS32R5EB-NEXT: lhu $1, 26($sp)			; MIPS32R5-NEXT: lhu $1, 14($sp)
	; MIPS32R5EB-NEXT: lhu $2, 24($sp)			; MIPS32R5-NEXT: insert.w $w0[3], $1
	; MIPS32R5EB-NEXT: sw $4, 32($sp)			; MIPS32R5-NEXT: lhu $1, 18($sp)
	; MIPS32R5EB-NEXT: insert.w $w0[0], $2			; MIPS32R5-NEXT: lhu $2, 16($sp)
	; MIPS32R5EB-NEXT: insert.w $w0[1], $1			; MIPS32R5-NEXT: insert.w $w1[0], $2
	; MIPS32R5EB-NEXT: lhu $1, 28($sp)			; MIPS32R5-NEXT: insert.w $w1[1], $1
	; MIPS32R5EB-NEXT: sw $5, 36($sp)			; MIPS32R5-NEXT: lhu $1, 20($sp)
	; MIPS32R5EB-NEXT: insert.w $w0[2], $1			; MIPS32R5-NEXT: insert.w $w1[2], $1
	; MIPS32R5EB-NEXT: lhu $1, 30($sp)			; MIPS32R5-NEXT: lhu $1, 22($sp)
	; MIPS32R5EB-NEXT: insert.w $w0[3], $1			; MIPS32R5-NEXT: insert.w $w1[3], $1
	; MIPS32R5EB-NEXT: lhu $1, 34($sp)			; MIPS32R5-NEXT: addv.w $w0, $w1, $w0
	; MIPS32R5EB-NEXT: lhu $2, 32($sp)			; MIPS32R5-NEXT: copy_s.w $1, $w0[2]
	; MIPS32R5EB-NEXT: insert.w $w1[0], $2			; MIPS32R5-NEXT: copy_s.w $2, $w0[3]
	; MIPS32R5EB-NEXT: insert.w $w1[1], $1			; MIPS32R5-NEXT: copy_s.w $3, $w0[0]
	; MIPS32R5EB-NEXT: lhu $1, 36($sp)			; MIPS32R5-NEXT: copy_s.w $4, $w0[1]
	; MIPS32R5EB-NEXT: insert.w $w1[2], $1			; MIPS32R5-NEXT: sh $4, 2($sp)
	; MIPS32R5EB-NEXT: lhu $1, 38($sp)			; MIPS32R5-NEXT: sh $3, 0($sp)
	; MIPS32R5EB-NEXT: insert.w $w1[3], $1			; MIPS32R5-NEXT: sh $2, 6($sp)
	; MIPS32R5EB-NEXT: addv.w $w0, $w1, $w0			; MIPS32R5-NEXT: sh $1, 4($sp)
	; MIPS32R5EB-NEXT: copy_s.w $1, $w0[0]			; MIPS32R5-NEXT: lw $2, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]			; MIPS32R5-NEXT: lw $3, 4($sp)
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[2]			; MIPS32R5-NEXT: addiu $sp, $sp, 24
	; MIPS32R5EB-NEXT: copy_s.w $4, $w0[3]			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5EB-NEXT: sh $4, 22($sp)			; MIPS32R5-NEXT: nop
	; MIPS32R5EB-NEXT: sh $3, 20($sp)
	; MIPS32R5EB-NEXT: sh $2, 18($sp)
	; MIPS32R5EB-NEXT: sh $1, 16($sp)
	; MIPS32R5EB-NEXT: lw $1, 20($sp)
	; MIPS32R5EB-NEXT: sw $1, 12($sp)
	; MIPS32R5EB-NEXT: lw $1, 16($sp)
	; MIPS32R5EB-NEXT: sw $1, 4($sp)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[3]
	; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5EB-NEXT: lw $fp, 40($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: lw $ra, 44($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 48
	; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5-LABEL: i16_4:			; MIPS64R5-LABEL: i16_4:
	; MIPS64R5: # %bb.0:			; MIPS64R5: # %bb.0:
	; MIPS64R5-NEXT: daddiu $sp, $sp, -32			; MIPS64R5-NEXT: daddiu $sp, $sp, -32
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 32			; MIPS64R5-NEXT: .cfi_def_cfa_offset 32
	; MIPS64R5-NEXT: sd $5, 16($sp)			; MIPS64R5-NEXT: sd $5, 16($sp)
	; MIPS64R5-NEXT: sd $4, 24($sp)			; MIPS64R5-NEXT: sd $4, 24($sp)
	; MIPS64R5-NEXT: lhu $1, 18($sp)			; MIPS64R5-NEXT: lhu $1, 18($sp)
	Show All 20 Lines
	; MIPS64R5-NEXT: sh $4, 14($sp)			; MIPS64R5-NEXT: sh $4, 14($sp)
	; MIPS64R5-NEXT: sh $3, 12($sp)			; MIPS64R5-NEXT: sh $3, 12($sp)
	; MIPS64R5-NEXT: sh $2, 10($sp)			; MIPS64R5-NEXT: sh $2, 10($sp)
	; MIPS64R5-NEXT: sh $1, 8($sp)			; MIPS64R5-NEXT: sh $1, 8($sp)
	; MIPS64R5-NEXT: ld $2, 8($sp)			; MIPS64R5-NEXT: ld $2, 8($sp)
	; MIPS64R5-NEXT: daddiu $sp, $sp, 32			; MIPS64R5-NEXT: daddiu $sp, $sp, 32
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	;
	; MIPS32R5EL-LABEL: i16_4:
	; MIPS32R5EL: # %bb.0:
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -48
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 48
	; MIPS32R5EL-NEXT: sw $ra, 44($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: sw $fp, 40($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: .cfi_offset 30, -8
	; MIPS32R5EL-NEXT: move $fp, $sp
	; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EL-NEXT: addiu $1, $zero, -16
	; MIPS32R5EL-NEXT: and $sp, $sp, $1
	; MIPS32R5EL-NEXT: sw $6, 24($sp)
	; MIPS32R5EL-NEXT: sw $7, 28($sp)
	; MIPS32R5EL-NEXT: lhu $1, 26($sp)
	; MIPS32R5EL-NEXT: lhu $2, 24($sp)
	; MIPS32R5EL-NEXT: sw $4, 32($sp)
	; MIPS32R5EL-NEXT: insert.w $w0[0], $2
	; MIPS32R5EL-NEXT: insert.w $w0[1], $1
	; MIPS32R5EL-NEXT: lhu $1, 28($sp)
	; MIPS32R5EL-NEXT: sw $5, 36($sp)
	; MIPS32R5EL-NEXT: insert.w $w0[2], $1
	; MIPS32R5EL-NEXT: lhu $1, 30($sp)
	; MIPS32R5EL-NEXT: insert.w $w0[3], $1
	; MIPS32R5EL-NEXT: lhu $1, 34($sp)
	; MIPS32R5EL-NEXT: lhu $2, 32($sp)
	; MIPS32R5EL-NEXT: insert.w $w1[0], $2
	; MIPS32R5EL-NEXT: insert.w $w1[1], $1
	; MIPS32R5EL-NEXT: lhu $1, 36($sp)
	; MIPS32R5EL-NEXT: insert.w $w1[2], $1
	; MIPS32R5EL-NEXT: lhu $1, 38($sp)
	; MIPS32R5EL-NEXT: insert.w $w1[3], $1
	; MIPS32R5EL-NEXT: addv.w $w0, $w1, $w0
	; MIPS32R5EL-NEXT: copy_s.w $1, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: copy_s.w $4, $w0[3]
	; MIPS32R5EL-NEXT: sh $4, 22($sp)
	; MIPS32R5EL-NEXT: sh $3, 20($sp)
	; MIPS32R5EL-NEXT: sh $2, 18($sp)
	; MIPS32R5EL-NEXT: sh $1, 16($sp)
	; MIPS32R5EL-NEXT: lw $1, 20($sp)
	; MIPS32R5EL-NEXT: sw $1, 8($sp)
	; MIPS32R5EL-NEXT: lw $1, 16($sp)
	; MIPS32R5EL-NEXT: sw $1, 0($sp)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: move $sp, $fp
	; MIPS32R5EL-NEXT: lw $fp, 40($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: lw $ra, 44($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 48
	; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop
	%1 = add <4 x i16> %a, %b			%1 = add <4 x i16> %a, %b
	ret <4 x i16> %1			ret <4 x i16> %1
	}			}

	define <8 x i16> @i16_8(<8 x i16> %a, <8 x i16> %b) {			define <8 x i16> @i16_8(<8 x i16> %a, <8 x i16> %b) {
	; MIPS32-LABEL: i16_8:			; MIPS32-LABEL: i16_8:
	; MIPS32: # %bb.0:			; MIPS32: # %bb.0:
	; MIPS32-NEXT: lw $1, 24($sp)			; MIPS32-NEXT: lw $1, 24($sp)
	▲ Show 20 Lines • Show All 1,026 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_8_i8)))			; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_8_i8)))
	; MIPS64-NEXT: daddu $1, $1, $25			; MIPS64-NEXT: daddu $1, $1, $25
	; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_8_i8)))			; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_8_i8)))
	; MIPS64-NEXT: ld $1, %got_disp(gv8i8)($1)			; MIPS64-NEXT: ld $1, %got_disp(gv8i8)($1)
	; MIPS64-NEXT: ld $2, 0($1)			; MIPS64-NEXT: ld $2, 0($1)
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: ret_8_i8:			; MIPS32R5-LABEL: ret_8_i8:
	; MIPS32R5EB: # %bb.0:			; MIPS32R5: # %bb.0:
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -32			; MIPS32R5-NEXT: lui $1, %hi(gv8i8)
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 32			; MIPS32R5-NEXT: lw $2, %lo(gv8i8)($1)
	; MIPS32R5EB-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: addiu $1, $1, %lo(gv8i8)
	; MIPS32R5EB-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: lw $3, 4($1)
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5EB-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: nop
	; MIPS32R5EB-NEXT: move $fp, $sp
	; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EB-NEXT: addiu $1, $zero, -16
	; MIPS32R5EB-NEXT: and $sp, $sp, $1
	; MIPS32R5EB-NEXT: lui $1, %hi(gv8i8)
	; MIPS32R5EB-NEXT: lw $2, %lo(gv8i8)($1)
	; MIPS32R5EB-NEXT: sw $2, 4($sp)
	; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv8i8)
	; MIPS32R5EB-NEXT: lw $1, 4($1)
	; MIPS32R5EB-NEXT: sw $1, 12($sp)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[3]
	; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5EB-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5-LABEL: ret_8_i8:			; MIPS64R5-LABEL: ret_8_i8:
	; MIPS64R5: # %bb.0:			; MIPS64R5: # %bb.0:
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_8_i8)))			; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_8_i8)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_8_i8)))			; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_8_i8)))
	; MIPS64R5-NEXT: ld $1, %got_disp(gv8i8)($1)			; MIPS64R5-NEXT: ld $1, %got_disp(gv8i8)($1)
	; MIPS64R5-NEXT: ld $2, 0($1)			; MIPS64R5-NEXT: ld $2, 0($1)
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	;
	; MIPS32R5EL-LABEL: ret_8_i8:
	; MIPS32R5EL: # %bb.0:
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -32
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 32
	; MIPS32R5EL-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: .cfi_offset 30, -8
	; MIPS32R5EL-NEXT: move $fp, $sp
	; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EL-NEXT: addiu $1, $zero, -16
	; MIPS32R5EL-NEXT: and $sp, $sp, $1
	; MIPS32R5EL-NEXT: lui $1, %hi(gv8i8)
	; MIPS32R5EL-NEXT: lw $2, %lo(gv8i8)($1)
	; MIPS32R5EL-NEXT: sw $2, 0($sp)
	; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv8i8)
	; MIPS32R5EL-NEXT: lw $1, 4($1)
	; MIPS32R5EL-NEXT: sw $1, 8($sp)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: move $sp, $fp
	; MIPS32R5EL-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop
	%1 = load <8 x i8>, <8 x i8> * @gv8i8			%1 = load <8 x i8>, <8 x i8> * @gv8i8
	ret <8 x i8> %1			ret <8 x i8> %1
	}			}

	define <16 x i8> @ret_16_i8() {			define <16 x i8> @ret_16_i8() {
	; MIPS32-LABEL: ret_16_i8:			; MIPS32-LABEL: ret_16_i8:
	; MIPS32: # %bb.0:			; MIPS32: # %bb.0:
	; MIPS32-NEXT: lui $1, %hi(gv16i8)			; MIPS32-NEXT: lui $1, %hi(gv16i8)
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_4_i16)))			; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_4_i16)))
	; MIPS64-NEXT: daddu $1, $1, $25			; MIPS64-NEXT: daddu $1, $1, $25
	; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_4_i16)))			; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_4_i16)))
	; MIPS64-NEXT: ld $1, %got_disp(gv4i16)($1)			; MIPS64-NEXT: ld $1, %got_disp(gv4i16)($1)
	; MIPS64-NEXT: ld $2, 0($1)			; MIPS64-NEXT: ld $2, 0($1)
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: ret_4_i16:			; MIPS32R5-LABEL: ret_4_i16:
	; MIPS32R5EB: # %bb.0:			; MIPS32R5: # %bb.0:
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -32			; MIPS32R5-NEXT: lui $1, %hi(gv4i16)
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 32			; MIPS32R5-NEXT: lw $2, %lo(gv4i16)($1)
	; MIPS32R5EB-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: addiu $1, $1, %lo(gv4i16)
	; MIPS32R5EB-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: lw $3, 4($1)
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5EB-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: nop
	; MIPS32R5EB-NEXT: move $fp, $sp
	; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EB-NEXT: addiu $1, $zero, -16
	; MIPS32R5EB-NEXT: and $sp, $sp, $1
	; MIPS32R5EB-NEXT: lui $1, %hi(gv4i16)
	; MIPS32R5EB-NEXT: lw $2, %lo(gv4i16)($1)
	; MIPS32R5EB-NEXT: sw $2, 4($sp)
	; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv4i16)
	; MIPS32R5EB-NEXT: lw $1, 4($1)
	; MIPS32R5EB-NEXT: sw $1, 12($sp)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[3]
	; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5EB-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5-LABEL: ret_4_i16:			; MIPS64R5-LABEL: ret_4_i16:
	; MIPS64R5: # %bb.0:			; MIPS64R5: # %bb.0:
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_4_i16)))			; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_4_i16)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_4_i16)))			; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_4_i16)))
	; MIPS64R5-NEXT: ld $1, %got_disp(gv4i16)($1)			; MIPS64R5-NEXT: ld $1, %got_disp(gv4i16)($1)
	; MIPS64R5-NEXT: ld $2, 0($1)			; MIPS64R5-NEXT: ld $2, 0($1)
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	;
	; MIPS32R5EL-LABEL: ret_4_i16:
	; MIPS32R5EL: # %bb.0:
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -32
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 32
	; MIPS32R5EL-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: .cfi_offset 30, -8
	; MIPS32R5EL-NEXT: move $fp, $sp
	; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EL-NEXT: addiu $1, $zero, -16
	; MIPS32R5EL-NEXT: and $sp, $sp, $1
	; MIPS32R5EL-NEXT: lui $1, %hi(gv4i16)
	; MIPS32R5EL-NEXT: lw $2, %lo(gv4i16)($1)
	; MIPS32R5EL-NEXT: sw $2, 0($sp)
	; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv4i16)
	; MIPS32R5EL-NEXT: lw $1, 4($1)
	; MIPS32R5EL-NEXT: sw $1, 8($sp)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: move $sp, $fp
	; MIPS32R5EL-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop
	%1 = load <4 x i16>, <4 x i16> * @gv4i16			%1 = load <4 x i16>, <4 x i16> * @gv4i16
	ret <4 x i16> %1			ret <4 x i16> %1
	}			}

	define <8 x i16> @ret_8_i16() {			define <8 x i16> @ret_8_i16() {
	; MIPS32-LABEL: ret_8_i16:			; MIPS32-LABEL: ret_8_i16:
	; MIPS32: # %bb.0:			; MIPS32: # %bb.0:
	; MIPS32-NEXT: lui $1, %hi(gv8i16)			; MIPS32-NEXT: lui $1, %hi(gv8i16)
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_2_i32)))			; MIPS64-NEXT: lui $1, %hi(%neg(%gp_rel(ret_2_i32)))
	; MIPS64-NEXT: daddu $1, $1, $25			; MIPS64-NEXT: daddu $1, $1, $25
	; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_2_i32)))			; MIPS64-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_2_i32)))
	; MIPS64-NEXT: ld $1, %got_disp(gv2i32)($1)			; MIPS64-NEXT: ld $1, %got_disp(gv2i32)($1)
	; MIPS64-NEXT: ld $2, 0($1)			; MIPS64-NEXT: ld $2, 0($1)
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: ret_2_i32:			; MIPS32R5-LABEL: ret_2_i32:
	; MIPS32R5EB: # %bb.0:			; MIPS32R5: # %bb.0:
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -32			; MIPS32R5-NEXT: lui $1, %hi(gv2i32)
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 32			; MIPS32R5-NEXT: lw $2, %lo(gv2i32)($1)
	; MIPS32R5EB-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: addiu $1, $1, %lo(gv2i32)
	; MIPS32R5EB-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: lw $3, 4($1)
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5EB-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: nop
	; MIPS32R5EB-NEXT: move $fp, $sp
	; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EB-NEXT: addiu $1, $zero, -16
	; MIPS32R5EB-NEXT: and $sp, $sp, $1
	; MIPS32R5EB-NEXT: lui $1, %hi(gv2i32)
	; MIPS32R5EB-NEXT: lw $2, %lo(gv2i32)($1)
	; MIPS32R5EB-NEXT: sw $2, 4($sp)
	; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv2i32)
	; MIPS32R5EB-NEXT: lw $1, 4($1)
	; MIPS32R5EB-NEXT: sw $1, 12($sp)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[3]
	; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5EB-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5-LABEL: ret_2_i32:			; MIPS64R5-LABEL: ret_2_i32:
	; MIPS64R5: # %bb.0:			; MIPS64R5: # %bb.0:
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_2_i32)))			; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(ret_2_i32)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_2_i32)))			; MIPS64R5-NEXT: daddiu $1, $1, %lo(%neg(%gp_rel(ret_2_i32)))
	; MIPS64R5-NEXT: ld $1, %got_disp(gv2i32)($1)			; MIPS64R5-NEXT: ld $1, %got_disp(gv2i32)($1)
	; MIPS64R5-NEXT: ld $2, 0($1)			; MIPS64R5-NEXT: ld $2, 0($1)
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	;
	; MIPS32R5EL-LABEL: ret_2_i32:
	; MIPS32R5EL: # %bb.0:
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -32
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 32
	; MIPS32R5EL-NEXT: sw $ra, 28($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: sw $fp, 24($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: .cfi_offset 30, -8
	; MIPS32R5EL-NEXT: move $fp, $sp
	; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5EL-NEXT: addiu $1, $zero, -16
	; MIPS32R5EL-NEXT: and $sp, $sp, $1
	; MIPS32R5EL-NEXT: lui $1, %hi(gv2i32)
	; MIPS32R5EL-NEXT: lw $2, %lo(gv2i32)($1)
	; MIPS32R5EL-NEXT: sw $2, 0($sp)
	; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv2i32)
	; MIPS32R5EL-NEXT: lw $1, 4($1)
	; MIPS32R5EL-NEXT: sw $1, 8($sp)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($sp)
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: move $sp, $fp
	; MIPS32R5EL-NEXT: lw $fp, 24($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: lw $ra, 28($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 32
	; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop
	%1 = load <2 x i32>, <2 x i32> * @gv2i32			%1 = load <2 x i32>, <2 x i32> * @gv2i32
	ret <2 x i32> %1			ret <2 x i32> %1
	}			}

	define <4 x i32> @ret_4_i32() {			define <4 x i32> @ret_4_i32() {
	; MIPS32-LABEL: ret_4_i32:			; MIPS32-LABEL: ret_4_i32:
	; MIPS32: # %bb.0:			; MIPS32: # %bb.0:
	; MIPS32-NEXT: lui $1, %hi(gv4i32)			; MIPS32-NEXT: lui $1, %hi(gv4i32)
	▲ Show 20 Lines • Show All 944 Lines • ▼ Show 20 Lines
	; MIPS64EB-NEXT: sd $3, 8($1)			; MIPS64EB-NEXT: sd $3, 8($1)
	; MIPS64EB-NEXT: sd $2, 0($1)			; MIPS64EB-NEXT: sd $2, 0($1)
	; MIPS64EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64EB-NEXT: daddiu $sp, $sp, 16			; MIPS64EB-NEXT: daddiu $sp, $sp, 16
	; MIPS64EB-NEXT: jr $ra			; MIPS64EB-NEXT: jr $ra
	; MIPS64EB-NEXT: nop			; MIPS64EB-NEXT: nop
	;			;
	; MIPS32R5-LABEL: calli8_16:			; MIPS32R5EB-LABEL: calli8_16:
	; MIPS32R5: # %bb.0: # %entry			; MIPS32R5EB: # %bb.0: # %entry
	; MIPS32R5-NEXT: addiu $sp, $sp, -40			; MIPS32R5EB-NEXT: addiu $sp, $sp, -40
	; MIPS32R5-NEXT: .cfi_def_cfa_offset 40			; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 40
	; MIPS32R5-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill			; MIPS32R5EB-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: .cfi_offset 31, -4			; MIPS32R5EB-NEXT: .cfi_offset 31, -4
	; MIPS32R5-NEXT: lui $1, %hi($CPI30_0)			; MIPS32R5EB-NEXT: lui $1, 3080
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI30_0)			; MIPS32R5EB-NEXT: ori $1, $1, 2314
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5EB-NEXT: lui $2, 1801
	; MIPS32R5-NEXT: copy_s.w $4, $w0[0]			; MIPS32R5EB-NEXT: sw $1, 28($sp)
	; MIPS32R5-NEXT: copy_s.w $5, $w0[1]			; MIPS32R5EB-NEXT: ori $1, $2, 1801
	; MIPS32R5-NEXT: copy_s.w $6, $w0[2]			; MIPS32R5EB-NEXT: sw $1, 24($sp)
	; MIPS32R5-NEXT: copy_s.w $7, $w0[3]			; MIPS32R5EB-NEXT: sw $1, 20($sp)
	; MIPS32R5-NEXT: lui $1, %hi($CPI30_1)			; MIPS32R5EB-NEXT: sw $1, 16($sp)
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI30_1)			; MIPS32R5EB-NEXT: lui $1, 1543
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5EB-NEXT: ori $4, $1, 1543
	; MIPS32R5-NEXT: copy_s.w $1, $w0[0]			; MIPS32R5EB-NEXT: ori $7, $1, 2314
	; MIPS32R5-NEXT: copy_s.w $2, $w0[1]			; MIPS32R5EB-NEXT: move $5, $4
	; MIPS32R5-NEXT: copy_s.w $3, $w0[2]			; MIPS32R5EB-NEXT: move $6, $4
	; MIPS32R5-NEXT: copy_s.w $8, $w0[3]			; MIPS32R5EB-NEXT: jal i8_16
	; MIPS32R5-NEXT: sw $8, 28($sp)			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: sw $3, 24($sp)			; MIPS32R5EB-NEXT: insert.w $w0[0], $2
	; MIPS32R5-NEXT: sw $2, 20($sp)			; MIPS32R5EB-NEXT: insert.w $w0[1], $3
	; MIPS32R5-NEXT: sw $1, 16($sp)			; MIPS32R5EB-NEXT: insert.w $w0[2], $4
	; MIPS32R5-NEXT: jal i8_16			; MIPS32R5EB-NEXT: lui $1, %hi(gv16i8)
	; MIPS32R5-NEXT: nop			; MIPS32R5EB-NEXT: insert.w $w0[3], $5
	; MIPS32R5-NEXT: lui $1, %hi(gv16i8)			; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv16i8)
	; MIPS32R5-NEXT: insert.w $w0[0], $2			; MIPS32R5EB-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: insert.w $w0[1], $3			; MIPS32R5EB-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $1, $1, %lo(gv16i8)			; MIPS32R5EB-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: insert.w $w0[2], $4			; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5-NEXT: insert.w $w0[3], $5			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: calli8_16:			; MIPS64R5EB-LABEL: calli8_16:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5EB: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5EB-NEXT: .cfi_offset 31, -8
	; MIPS64R5-NEXT: .cfi_offset 28, -16			; MIPS64R5EB-NEXT: .cfi_offset 28, -16
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(calli8_16)))			; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(calli8_16)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5EB-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli8_16)))			; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli8_16)))
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI30_0)($gp)			; MIPS64R5EB-NEXT: lui $1, 1801
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI30_0)			; MIPS64R5EB-NEXT: daddiu $1, $1, 1801
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EB-NEXT: daddiu $1, $1, 1801
	; MIPS64R5-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5EB-NEXT: lui $2, 1543
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI30_1)($gp)			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI30_1)			; MIPS64R5EB-NEXT: daddiu $2, $2, 1543
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: dsll $2, $2, 16
	; MIPS64R5-NEXT: copy_s.d $6, $w0[0]			; MIPS64R5EB-NEXT: daddiu $2, $2, 1543
	; MIPS64R5-NEXT: copy_s.d $7, $w0[1]			; MIPS64R5EB-NEXT: dsll $2, $2, 16
	; MIPS64R5-NEXT: ld $25, %call16(i8_16)($gp)			; MIPS64R5EB-NEXT: daddiu $4, $2, 1543
	; MIPS64R5-NEXT: jalr $25			; MIPS64R5EB-NEXT: daddiu $5, $2, 2314
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: daddiu $6, $1, 1801
	; MIPS64R5-NEXT: insert.d $w0[0], $2			; MIPS64R5EB-NEXT: lui $1, 225
	; MIPS64R5-NEXT: insert.d $w0[1], $3			; MIPS64R5EB-NEXT: daddiu $1, $1, 8417
	; MIPS64R5-NEXT: ld $1, %got_disp(gv16i8)($gp)			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5-NEXT: st.d $w0, 0($1)			; MIPS64R5EB-NEXT: daddiu $1, $1, 8577
	; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: dsll $1, $1, 19
	; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: daddiu $7, $1, 2314
	; MIPS64R5-NEXT: daddiu $sp, $sp, 16			; MIPS64R5EB-NEXT: ld $25, %call16(i8_16)($gp)
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5EB-NEXT: jalr $25
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: nop
				; MIPS64R5EB-NEXT: ld $1, %got_disp(gv16i8)($gp)
				; MIPS64R5EB-NEXT: insert.d $w0[0], $2
				; MIPS64R5EB-NEXT: insert.d $w0[1], $3
				; MIPS64R5EB-NEXT: st.d $w0, 0($1)
				; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EB-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EB-NEXT: jr $ra
				; MIPS64R5EB-NEXT: nop
	;			;
	; MIPS32EL-LABEL: calli8_16:			; MIPS32EL-LABEL: calli8_16:
	; MIPS32EL: # %bb.0: # %entry			; MIPS32EL: # %bb.0: # %entry
	; MIPS32EL-NEXT: addiu $sp, $sp, -40			; MIPS32EL-NEXT: addiu $sp, $sp, -40
	; MIPS32EL-NEXT: .cfi_def_cfa_offset 40			; MIPS32EL-NEXT: .cfi_def_cfa_offset 40
	; MIPS32EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill			; MIPS32EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
	; MIPS32EL-NEXT: .cfi_offset 31, -4			; MIPS32EL-NEXT: .cfi_offset 31, -4
	; MIPS32EL-NEXT: lui $1, 2569			; MIPS32EL-NEXT: lui $1, 2569
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; MIPS64EL-NEXT: ld $1, %got_disp(gv16i8)($gp)			; MIPS64EL-NEXT: ld $1, %got_disp(gv16i8)($gp)
	; MIPS64EL-NEXT: sd $3, 8($1)			; MIPS64EL-NEXT: sd $3, 8($1)
	; MIPS64EL-NEXT: sd $2, 0($1)			; MIPS64EL-NEXT: sd $2, 0($1)
	; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: daddiu $sp, $sp, 16			; MIPS64EL-NEXT: daddiu $sp, $sp, 16
	; MIPS64EL-NEXT: jr $ra			; MIPS64EL-NEXT: jr $ra
	; MIPS64EL-NEXT: nop			; MIPS64EL-NEXT: nop
				;
				; MIPS32R5EL-LABEL: calli8_16:
				; MIPS32R5EL: # %bb.0: # %entry
				; MIPS32R5EL-NEXT: addiu $sp, $sp, -40
				; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 40
				; MIPS32R5EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
				; MIPS32R5EL-NEXT: .cfi_offset 31, -4
				; MIPS32R5EL-NEXT: lui $1, 2569
				; MIPS32R5EL-NEXT: ori $2, $1, 2060
				; MIPS32R5EL-NEXT: lui $3, 2311
				; MIPS32R5EL-NEXT: sw $2, 28($sp)
				; MIPS32R5EL-NEXT: ori $2, $3, 2311
				; MIPS32R5EL-NEXT: sw $2, 24($sp)
				; MIPS32R5EL-NEXT: sw $2, 20($sp)
				; MIPS32R5EL-NEXT: sw $2, 16($sp)
				; MIPS32R5EL-NEXT: lui $2, 1798
				; MIPS32R5EL-NEXT: ori $4, $2, 1798
				; MIPS32R5EL-NEXT: ori $7, $1, 1798
				; MIPS32R5EL-NEXT: move $5, $4
				; MIPS32R5EL-NEXT: move $6, $4
				; MIPS32R5EL-NEXT: jal i8_16
				; MIPS32R5EL-NEXT: nop
				; MIPS32R5EL-NEXT: insert.w $w0[0], $2
				; MIPS32R5EL-NEXT: insert.w $w0[1], $3
				; MIPS32R5EL-NEXT: insert.w $w0[2], $4
				; MIPS32R5EL-NEXT: lui $1, %hi(gv16i8)
				; MIPS32R5EL-NEXT: insert.w $w0[3], $5
				; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv16i8)
				; MIPS32R5EL-NEXT: st.w $w0, 0($1)
				; MIPS32R5EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
				; MIPS32R5EL-NEXT: addiu $sp, $sp, 40
				; MIPS32R5EL-NEXT: jr $ra
				; MIPS32R5EL-NEXT: nop
				;
				; MIPS64R5EL-LABEL: calli8_16:
				; MIPS64R5EL: # %bb.0: # %entry
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16
				; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16
				; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: .cfi_offset 31, -8
				; MIPS64R5EL-NEXT: .cfi_offset 28, -16
				; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(calli8_16)))
				; MIPS64R5EL-NEXT: daddu $1, $1, $25
				; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli8_16)))
				; MIPS64R5EL-NEXT: lui $1, 1285
				; MIPS64R5EL-NEXT: daddiu $1, $1, -31869
				; MIPS64R5EL-NEXT: dsll $1, $1, 16
				; MIPS64R5EL-NEXT: daddiu $1, $1, 899
				; MIPS64R5EL-NEXT: lui $2, 2311
				; MIPS64R5EL-NEXT: daddiu $2, $2, 2311
				; MIPS64R5EL-NEXT: dsll $2, $2, 16
				; MIPS64R5EL-NEXT: daddiu $2, $2, 2311
				; MIPS64R5EL-NEXT: dsll $2, $2, 16
				; MIPS64R5EL-NEXT: dsll $1, $1, 17
				; MIPS64R5EL-NEXT: lui $3, 899
				; MIPS64R5EL-NEXT: daddiu $3, $3, 899
				; MIPS64R5EL-NEXT: dsll $3, $3, 16
				; MIPS64R5EL-NEXT: daddiu $3, $3, 899
				; MIPS64R5EL-NEXT: dsll $3, $3, 17
				; MIPS64R5EL-NEXT: daddiu $4, $3, 1798
				; MIPS64R5EL-NEXT: daddiu $5, $1, 1798
				; MIPS64R5EL-NEXT: daddiu $6, $2, 2311
				; MIPS64R5EL-NEXT: lui $1, 642
				; MIPS64R5EL-NEXT: daddiu $1, $1, 16899
				; MIPS64R5EL-NEXT: dsll $1, $1, 18
				; MIPS64R5EL-NEXT: daddiu $1, $1, 2311
				; MIPS64R5EL-NEXT: dsll $1, $1, 16
				; MIPS64R5EL-NEXT: daddiu $7, $1, 2311
				; MIPS64R5EL-NEXT: ld $25, %call16(i8_16)($gp)
				; MIPS64R5EL-NEXT: jalr $25
				; MIPS64R5EL-NEXT: nop
				; MIPS64R5EL-NEXT: ld $1, %got_disp(gv16i8)($gp)
				; MIPS64R5EL-NEXT: insert.d $w0[0], $2
				; MIPS64R5EL-NEXT: insert.d $w0[1], $3
				; MIPS64R5EL-NEXT: st.d $w0, 0($1)
				; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EL-NEXT: jr $ra
				; MIPS64R5EL-NEXT: nop
	entry:			entry:
	%0 = call <16 x i8> @i8_16(<16 x i8> <i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7, i8 6, i8 7, i8 9, i8 10>, <16 x i8> <i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 12, i8 8, i8 9, i8 10>)			%0 = call <16 x i8> @i8_16(<16 x i8> <i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7,i8 6, i8 7, i8 6, i8 7, i8 9, i8 10>, <16 x i8> <i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 7, i8 9,i8 12, i8 8, i8 9, i8 10>)
	store <16 x i8> %0, <16 x i8> * @gv16i8			store <16 x i8> %0, <16 x i8> * @gv16i8
	ret void			ret void
	}			}

	define void @calli16_2() {			define void @calli16_2() {
	; MIPS32EB-LABEL: calli16_2:			; MIPS32EB-LABEL: calli16_2:
	▲ Show 20 Lines • Show All 489 Lines • ▼ Show 20 Lines
	; MIPS64EB-NEXT: nop			; MIPS64EB-NEXT: nop
	;			;
	; MIPS32R5EB-LABEL: calli16_8:			; MIPS32R5EB-LABEL: calli16_8:
	; MIPS32R5EB: # %bb.0: # %entry			; MIPS32R5EB: # %bb.0: # %entry
	; MIPS32R5EB-NEXT: addiu $sp, $sp, -40			; MIPS32R5EB-NEXT: addiu $sp, $sp, -40
	; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 40			; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 40
	; MIPS32R5EB-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill			; MIPS32R5EB-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
	; MIPS32R5EB-NEXT: .cfi_offset 31, -4			; MIPS32R5EB-NEXT: .cfi_offset 31, -4
				; MIPS32R5EB-NEXT: lui $1, 9
				; MIPS32R5EB-NEXT: ori $5, $1, 10
				; MIPS32R5EB-NEXT: sw $5, 28($sp)
				; MIPS32R5EB-NEXT: lui $1, 12
				; MIPS32R5EB-NEXT: ori $1, $1, 8
				; MIPS32R5EB-NEXT: sw $1, 24($sp)
				; MIPS32R5EB-NEXT: sw $5, 20($sp)
	; MIPS32R5EB-NEXT: lui $1, 6			; MIPS32R5EB-NEXT: lui $1, 6
	; MIPS32R5EB-NEXT: ori $1, $1, 7			; MIPS32R5EB-NEXT: ori $4, $1, 7
	; MIPS32R5EB-NEXT: lui $2, 9			; MIPS32R5EB-NEXT: sw $4, 16($sp)
	; MIPS32R5EB-NEXT: ori $2, $2, 10			; MIPS32R5EB-NEXT: move $6, $4
	; MIPS32R5EB-NEXT: fill.w $w0, $2			; MIPS32R5EB-NEXT: move $7, $5
	; MIPS32R5EB-NEXT: insert.w $w0[1], $1
	; MIPS32R5EB-NEXT: splati.d $w0, $w0[0]
	; MIPS32R5EB-NEXT: copy_s.w $4, $w0[0]
	; MIPS32R5EB-NEXT: copy_s.w $5, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $6, $w0[2]
	; MIPS32R5EB-NEXT: copy_s.w $7, $w0[3]
	; MIPS32R5EB-NEXT: lui $1, %hi($CPI33_0)
	; MIPS32R5EB-NEXT: addiu $1, $1, %lo($CPI33_0)
	; MIPS32R5EB-NEXT: ld.w $w0, 0($1)
	; MIPS32R5EB-NEXT: copy_s.w $1, $w0[0]
	; MIPS32R5EB-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EB-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EB-NEXT: copy_s.w $8, $w0[3]
	; MIPS32R5EB-NEXT: sw $8, 28($sp)
	; MIPS32R5EB-NEXT: sw $3, 24($sp)
	; MIPS32R5EB-NEXT: sw $2, 20($sp)
	; MIPS32R5EB-NEXT: sw $1, 16($sp)
	; MIPS32R5EB-NEXT: jal i16_8			; MIPS32R5EB-NEXT: jal i16_8
	; MIPS32R5EB-NEXT: nop			; MIPS32R5EB-NEXT: nop
	; MIPS32R5EB-NEXT: lui $1, %hi(gv8i16)
	; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv8i16)
	; MIPS32R5EB-NEXT: insert.w $w0[0], $2			; MIPS32R5EB-NEXT: insert.w $w0[0], $2
	; MIPS32R5EB-NEXT: insert.w $w0[1], $3			; MIPS32R5EB-NEXT: insert.w $w0[1], $3
	; MIPS32R5EB-NEXT: insert.w $w0[2], $4			; MIPS32R5EB-NEXT: insert.w $w0[2], $4
				; MIPS32R5EB-NEXT: lui $1, %hi(gv8i16)
	; MIPS32R5EB-NEXT: insert.w $w0[3], $5			; MIPS32R5EB-NEXT: insert.w $w0[3], $5
				; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv8i16)
	; MIPS32R5EB-NEXT: st.w $w0, 0($1)			; MIPS32R5EB-NEXT: st.w $w0, 0($1)
	; MIPS32R5EB-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload			; MIPS32R5EB-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5EB-NEXT: addiu $sp, $sp, 40			; MIPS32R5EB-NEXT: addiu $sp, $sp, 40
	; MIPS32R5EB-NEXT: jr $ra			; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5EB-NEXT: nop			; MIPS32R5EB-NEXT: nop
	;			;
	; MIPS64R5EB-LABEL: calli16_8:			; MIPS64R5EB-LABEL: calli16_8:
	; MIPS64R5EB: # %bb.0: # %entry			; MIPS64R5EB: # %bb.0: # %entry
	; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5EB-NEXT: .cfi_offset 31, -8			; MIPS64R5EB-NEXT: .cfi_offset 31, -8
	; MIPS64R5EB-NEXT: .cfi_offset 28, -16			; MIPS64R5EB-NEXT: .cfi_offset 28, -16
	; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(calli16_8)))			; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(calli16_8)))
	; MIPS64R5EB-NEXT: daddu $1, $1, $25			; MIPS64R5EB-NEXT: daddu $1, $1, $25
	; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli16_8)))			; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli16_8)))
	; MIPS64R5EB-NEXT: lui $1, 9			; MIPS64R5EB-NEXT: lui $1, 6
	; MIPS64R5EB-NEXT: ori $1, $1, 10			; MIPS64R5EB-NEXT: daddiu $1, $1, 7
	; MIPS64R5EB-NEXT: lui $2, 6			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5EB-NEXT: ori $2, $2, 7			; MIPS64R5EB-NEXT: daddiu $1, $1, 9
	; MIPS64R5EB-NEXT: dinsu $1, $2, 32, 32			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5EB-NEXT: fill.d $w0, $1			; MIPS64R5EB-NEXT: daddiu $4, $1, 10
	; MIPS64R5EB-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EB-NEXT: lui $1, 2
	; MIPS64R5EB-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5EB-NEXT: daddiu $1, $1, -32767
	; MIPS64R5EB-NEXT: ld $1, %got_page(.LCPI33_0)($gp)			; MIPS64R5EB-NEXT: dsll $1, $1, 19
	; MIPS64R5EB-NEXT: daddiu $1, $1, %got_ofst(.LCPI33_0)			; MIPS64R5EB-NEXT: daddiu $1, $1, 9
	; MIPS64R5EB-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: dsll $1, $1, 16
	; MIPS64R5EB-NEXT: copy_s.d $6, $w0[0]			; MIPS64R5EB-NEXT: daddiu $7, $1, 10
	; MIPS64R5EB-NEXT: copy_s.d $7, $w0[1]
	; MIPS64R5EB-NEXT: ld $25, %call16(i16_8)($gp)			; MIPS64R5EB-NEXT: ld $25, %call16(i16_8)($gp)
				; MIPS64R5EB-NEXT: move $5, $4
				; MIPS64R5EB-NEXT: move $6, $4
	; MIPS64R5EB-NEXT: jalr $25			; MIPS64R5EB-NEXT: jalr $25
	; MIPS64R5EB-NEXT: nop			; MIPS64R5EB-NEXT: nop
	; MIPS64R5EB-NEXT: ld $1, %got_disp(gv8i16)($gp)			; MIPS64R5EB-NEXT: ld $1, %got_disp(gv8i16)($gp)
	; MIPS64R5EB-NEXT: insert.d $w0[0], $2			; MIPS64R5EB-NEXT: insert.d $w0[0], $2
	; MIPS64R5EB-NEXT: insert.d $w0[1], $3			; MIPS64R5EB-NEXT: insert.d $w0[1], $3
	; MIPS64R5EB-NEXT: st.d $w0, 0($1)			; MIPS64R5EB-NEXT: st.d $w0, 0($1)
	; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	;			;
	; MIPS32R5EL-LABEL: calli16_8:			; MIPS32R5EL-LABEL: calli16_8:
	; MIPS32R5EL: # %bb.0: # %entry			; MIPS32R5EL: # %bb.0: # %entry
	; MIPS32R5EL-NEXT: addiu $sp, $sp, -40			; MIPS32R5EL-NEXT: addiu $sp, $sp, -40
	; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 40			; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 40
	; MIPS32R5EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill			; MIPS32R5EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
	; MIPS32R5EL-NEXT: .cfi_offset 31, -4			; MIPS32R5EL-NEXT: .cfi_offset 31, -4
	; MIPS32R5EL-NEXT: lui $1, 10			; MIPS32R5EL-NEXT: lui $1, 10
	; MIPS32R5EL-NEXT: ori $1, $1, 9			; MIPS32R5EL-NEXT: ori $5, $1, 9
	; MIPS32R5EL-NEXT: lui $2, 7			; MIPS32R5EL-NEXT: sw $5, 28($sp)
	; MIPS32R5EL-NEXT: ori $2, $2, 6			; MIPS32R5EL-NEXT: lui $1, 8
	; MIPS32R5EL-NEXT: fill.w $w0, $2			; MIPS32R5EL-NEXT: ori $1, $1, 12
	; MIPS32R5EL-NEXT: insert.w $w0[1], $1			; MIPS32R5EL-NEXT: sw $1, 24($sp)
	; MIPS32R5EL-NEXT: splati.d $w0, $w0[0]			; MIPS32R5EL-NEXT: sw $5, 20($sp)
	; MIPS32R5EL-NEXT: copy_s.w $4, $w0[0]			; MIPS32R5EL-NEXT: lui $1, 7
	; MIPS32R5EL-NEXT: copy_s.w $5, $w0[1]			; MIPS32R5EL-NEXT: ori $4, $1, 6
	; MIPS32R5EL-NEXT: copy_s.w $6, $w0[2]			; MIPS32R5EL-NEXT: sw $4, 16($sp)
	; MIPS32R5EL-NEXT: copy_s.w $7, $w0[3]			; MIPS32R5EL-NEXT: move $6, $4
	; MIPS32R5EL-NEXT: lui $1, %hi($CPI33_0)			; MIPS32R5EL-NEXT: move $7, $5
	; MIPS32R5EL-NEXT: addiu $1, $1, %lo($CPI33_0)
	; MIPS32R5EL-NEXT: ld.w $w0, 0($1)
	; MIPS32R5EL-NEXT: copy_s.w $1, $w0[0]
	; MIPS32R5EL-NEXT: copy_s.w $2, $w0[1]
	; MIPS32R5EL-NEXT: copy_s.w $3, $w0[2]
	; MIPS32R5EL-NEXT: copy_s.w $8, $w0[3]
	; MIPS32R5EL-NEXT: sw $8, 28($sp)
	; MIPS32R5EL-NEXT: sw $3, 24($sp)
	; MIPS32R5EL-NEXT: sw $2, 20($sp)
	; MIPS32R5EL-NEXT: sw $1, 16($sp)
	; MIPS32R5EL-NEXT: jal i16_8			; MIPS32R5EL-NEXT: jal i16_8
	; MIPS32R5EL-NEXT: nop			; MIPS32R5EL-NEXT: nop
	; MIPS32R5EL-NEXT: lui $1, %hi(gv8i16)
	; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv8i16)
	; MIPS32R5EL-NEXT: insert.w $w0[0], $2			; MIPS32R5EL-NEXT: insert.w $w0[0], $2
	; MIPS32R5EL-NEXT: insert.w $w0[1], $3			; MIPS32R5EL-NEXT: insert.w $w0[1], $3
	; MIPS32R5EL-NEXT: insert.w $w0[2], $4			; MIPS32R5EL-NEXT: insert.w $w0[2], $4
				; MIPS32R5EL-NEXT: lui $1, %hi(gv8i16)
	; MIPS32R5EL-NEXT: insert.w $w0[3], $5			; MIPS32R5EL-NEXT: insert.w $w0[3], $5
				; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv8i16)
	; MIPS32R5EL-NEXT: st.w $w0, 0($1)			; MIPS32R5EL-NEXT: st.w $w0, 0($1)
	; MIPS32R5EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload			; MIPS32R5EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5EL-NEXT: addiu $sp, $sp, 40			; MIPS32R5EL-NEXT: addiu $sp, $sp, 40
	; MIPS32R5EL-NEXT: jr $ra			; MIPS32R5EL-NEXT: jr $ra
	; MIPS32R5EL-NEXT: nop			; MIPS32R5EL-NEXT: nop
	;			;
	; MIPS64R5EL-LABEL: calli16_8:			; MIPS64R5EL-LABEL: calli16_8:
	; MIPS64R5EL: # %bb.0: # %entry			; MIPS64R5EL: # %bb.0: # %entry
	; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5EL-NEXT: .cfi_offset 31, -8			; MIPS64R5EL-NEXT: .cfi_offset 31, -8
	; MIPS64R5EL-NEXT: .cfi_offset 28, -16			; MIPS64R5EL-NEXT: .cfi_offset 28, -16
	; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(calli16_8)))			; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(calli16_8)))
	; MIPS64R5EL-NEXT: daddu $1, $1, $25			; MIPS64R5EL-NEXT: daddu $1, $1, $25
	; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli16_8)))			; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli16_8)))
	; MIPS64R5EL-NEXT: lui $1, 7			; MIPS64R5EL-NEXT: lui $1, 10
	; MIPS64R5EL-NEXT: ori $1, $1, 6			; MIPS64R5EL-NEXT: daddiu $1, $1, 9
	; MIPS64R5EL-NEXT: lui $2, 10			; MIPS64R5EL-NEXT: dsll $1, $1, 16
	; MIPS64R5EL-NEXT: ori $2, $2, 9			; MIPS64R5EL-NEXT: daddiu $1, $1, 7
	; MIPS64R5EL-NEXT: dinsu $1, $2, 32, 32			; MIPS64R5EL-NEXT: dsll $1, $1, 16
	; MIPS64R5EL-NEXT: fill.d $w0, $1			; MIPS64R5EL-NEXT: daddiu $4, $1, 6
	; MIPS64R5EL-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EL-NEXT: lui $1, 1
	; MIPS64R5EL-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5EL-NEXT: daddiu $1, $1, 16385
	; MIPS64R5EL-NEXT: ld $1, %got_page(.LCPI33_0)($gp)			; MIPS64R5EL-NEXT: dsll $1, $1, 16
	; MIPS64R5EL-NEXT: daddiu $1, $1, %got_ofst(.LCPI33_0)			; MIPS64R5EL-NEXT: daddiu $1, $1, 8193
	; MIPS64R5EL-NEXT: ld.d $w0, 0($1)			; MIPS64R5EL-NEXT: dsll $1, $1, 19
	; MIPS64R5EL-NEXT: copy_s.d $6, $w0[0]			; MIPS64R5EL-NEXT: daddiu $7, $1, 12
	; MIPS64R5EL-NEXT: copy_s.d $7, $w0[1]
	; MIPS64R5EL-NEXT: ld $25, %call16(i16_8)($gp)			; MIPS64R5EL-NEXT: ld $25, %call16(i16_8)($gp)
				; MIPS64R5EL-NEXT: move $5, $4
				; MIPS64R5EL-NEXT: move $6, $4
	; MIPS64R5EL-NEXT: jalr $25			; MIPS64R5EL-NEXT: jalr $25
	; MIPS64R5EL-NEXT: nop			; MIPS64R5EL-NEXT: nop
	; MIPS64R5EL-NEXT: ld $1, %got_disp(gv8i16)($gp)			; MIPS64R5EL-NEXT: ld $1, %got_disp(gv8i16)($gp)
	; MIPS64R5EL-NEXT: insert.d $w0[0], $2			; MIPS64R5EL-NEXT: insert.d $w0[0], $2
	; MIPS64R5EL-NEXT: insert.d $w0[1], $3			; MIPS64R5EL-NEXT: insert.d $w0[1], $3
	; MIPS64R5EL-NEXT: st.d $w0, 0($1)			; MIPS64R5EL-NEXT: st.d $w0, 0($1)
	; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; MIPS32R5-NEXT: insert.w $w0[3], $5			; MIPS32R5-NEXT: insert.w $w0[3], $5
	; MIPS32R5-NEXT: addiu $1, $1, %lo(gv4i32)			; MIPS32R5-NEXT: addiu $1, $1, %lo(gv4i32)
	; MIPS32R5-NEXT: st.w $w0, 0($1)			; MIPS32R5-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload			; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 40			; MIPS32R5-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: jr $ra			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop			; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: calli32_4:			; MIPS64R5EB-LABEL: calli32_4:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5EB: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5EB-NEXT: .cfi_offset 31, -8
	; MIPS64R5-NEXT: .cfi_offset 28, -16			; MIPS64R5EB-NEXT: .cfi_offset 28, -16
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(calli32_4)))			; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(calli32_4)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5EB-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli32_4)))			; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli32_4)))
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI35_0)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 3
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI35_0)			; MIPS64R5EB-NEXT: dsll $2, $1, 33
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: daddiu $4, $2, 7
	; MIPS64R5-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EB-NEXT: dsll $1, $1, 34
	; MIPS64R5-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5EB-NEXT: daddiu $6, $1, 8
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI35_1)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 9
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI35_1)			; MIPS64R5EB-NEXT: dsll $1, $1, 32
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: daddiu $5, $1, 10
	; MIPS64R5-NEXT: copy_s.d $6, $w0[0]			; MIPS64R5EB-NEXT: ld $25, %call16(i32_4)($gp)
	; MIPS64R5-NEXT: copy_s.d $7, $w0[1]			; MIPS64R5EB-NEXT: move $7, $5
	; MIPS64R5-NEXT: ld $25, %call16(i32_4)($gp)			; MIPS64R5EB-NEXT: jalr $25
	; MIPS64R5-NEXT: jalr $25			; MIPS64R5EB-NEXT: nop
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: insert.d $w0[0], $2
	; MIPS64R5-NEXT: insert.d $w0[0], $2			; MIPS64R5EB-NEXT: insert.d $w0[1], $3
	; MIPS64R5-NEXT: insert.d $w0[1], $3			; MIPS64R5EB-NEXT: ld $1, %got_disp(gv4i32)($gp)
	; MIPS64R5-NEXT: ld $1, %got_disp(gv4i32)($gp)			; MIPS64R5EB-NEXT: st.d $w0, 0($1)
	; MIPS64R5-NEXT: st.d $w0, 0($1)			; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: daddiu $sp, $sp, 16
	; MIPS64R5-NEXT: daddiu $sp, $sp, 16			; MIPS64R5EB-NEXT: jr $ra
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5EB-NEXT: nop
	; MIPS64R5-NEXT: nop
	;			;
	; MIPS64EL-LABEL: calli32_4:			; MIPS64EL-LABEL: calli32_4:
	; MIPS64EL: # %bb.0: # %entry			; MIPS64EL: # %bb.0: # %entry
	; MIPS64EL-NEXT: daddiu $sp, $sp, -16			; MIPS64EL-NEXT: daddiu $sp, $sp, -16
	; MIPS64EL-NEXT: .cfi_def_cfa_offset 16			; MIPS64EL-NEXT: .cfi_def_cfa_offset 16
	; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: .cfi_offset 31, -8			; MIPS64EL-NEXT: .cfi_offset 31, -8
	Show All 17 Lines
	; MIPS64EL-NEXT: ld $1, %got_disp(gv4i32)($gp)			; MIPS64EL-NEXT: ld $1, %got_disp(gv4i32)($gp)
	; MIPS64EL-NEXT: sd $3, 8($1)			; MIPS64EL-NEXT: sd $3, 8($1)
	; MIPS64EL-NEXT: sd $2, 0($1)			; MIPS64EL-NEXT: sd $2, 0($1)
	; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: daddiu $sp, $sp, 16			; MIPS64EL-NEXT: daddiu $sp, $sp, 16
	; MIPS64EL-NEXT: jr $ra			; MIPS64EL-NEXT: jr $ra
	; MIPS64EL-NEXT: nop			; MIPS64EL-NEXT: nop
				;
				; MIPS64R5EL-LABEL: calli32_4:
				; MIPS64R5EL: # %bb.0: # %entry
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16
				; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16
				; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: .cfi_offset 31, -8
				; MIPS64R5EL-NEXT: .cfi_offset 28, -16
				; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(calli32_4)))
				; MIPS64R5EL-NEXT: daddu $1, $1, $25
				; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calli32_4)))
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 7
				; MIPS64R5EL-NEXT: dsll $1, $1, 32
				; MIPS64R5EL-NEXT: daddiu $4, $1, 6
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 1
				; MIPS64R5EL-NEXT: dsll $1, $1, 35
				; MIPS64R5EL-NEXT: daddiu $6, $1, 12
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 5
				; MIPS64R5EL-NEXT: dsll $1, $1, 33
				; MIPS64R5EL-NEXT: daddiu $5, $1, 9
				; MIPS64R5EL-NEXT: ld $25, %call16(i32_4)($gp)
				; MIPS64R5EL-NEXT: move $7, $5
				; MIPS64R5EL-NEXT: jalr $25
				; MIPS64R5EL-NEXT: nop
				; MIPS64R5EL-NEXT: insert.d $w0[0], $2
				; MIPS64R5EL-NEXT: insert.d $w0[1], $3
				; MIPS64R5EL-NEXT: ld $1, %got_disp(gv4i32)($gp)
				; MIPS64R5EL-NEXT: st.d $w0, 0($1)
				; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EL-NEXT: jr $ra
				; MIPS64R5EL-NEXT: nop
	entry:			entry:
	%0 = call <4 x i32> @i32_4(<4 x i32> <i32 6, i32 7, i32 9, i32 10>, <4 x i32> <i32 12, i32 8, i32 9, i32 10>)			%0 = call <4 x i32> @i32_4(<4 x i32> <i32 6, i32 7, i32 9, i32 10>, <4 x i32> <i32 12, i32 8, i32 9, i32 10>)
	store <4 x i32> %0, <4 x i32> * @gv4i32			store <4 x i32> %0, <4 x i32> * @gv4i32
	ret void			ret void
	}			}

	define void @calli64_2() {			define void @calli64_2() {
	; MIPS32EB-LABEL: calli64_2:			; MIPS32EB-LABEL: calli64_2:
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: sd $3, 8($1)			; MIPS64-NEXT: sd $3, 8($1)
	; MIPS64-NEXT: sd $2, 0($1)			; MIPS64-NEXT: sd $2, 0($1)
	; MIPS64-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64-NEXT: daddiu $sp, $sp, 16			; MIPS64-NEXT: daddiu $sp, $sp, 16
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5-LABEL: calli64_2:			; MIPS32R5EB-LABEL: calli64_2:
	; MIPS32R5: # %bb.0: # %entry			; MIPS32R5EB: # %bb.0: # %entry
	; MIPS32R5-NEXT: addiu $sp, $sp, -40			; MIPS32R5EB-NEXT: addiu $sp, $sp, -40
	; MIPS32R5-NEXT: .cfi_def_cfa_offset 40			; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 40
	; MIPS32R5-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill			; MIPS32R5EB-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: .cfi_offset 31, -4			; MIPS32R5EB-NEXT: .cfi_offset 31, -4
	; MIPS32R5-NEXT: lui $1, %hi($CPI36_0)			; MIPS32R5EB-NEXT: addiu $1, $zero, 8
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI36_0)			; MIPS32R5EB-NEXT: sw $1, 28($sp)
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5EB-NEXT: addiu $1, $zero, 12
	; MIPS32R5-NEXT: copy_s.w $4, $w0[0]			; MIPS32R5EB-NEXT: sw $1, 20($sp)
	; MIPS32R5-NEXT: copy_s.w $5, $w0[1]			; MIPS32R5EB-NEXT: sw $zero, 24($sp)
	; MIPS32R5-NEXT: copy_s.w $6, $w0[2]			; MIPS32R5EB-NEXT: sw $zero, 16($sp)
	; MIPS32R5-NEXT: copy_s.w $7, $w0[3]			; MIPS32R5EB-NEXT: addiu $4, $zero, 0
	; MIPS32R5-NEXT: lui $1, %hi($CPI36_1)			; MIPS32R5EB-NEXT: addiu $5, $zero, 6
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI36_1)			; MIPS32R5EB-NEXT: addiu $6, $zero, 0
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5EB-NEXT: addiu $7, $zero, 7
	; MIPS32R5-NEXT: copy_s.w $1, $w0[0]			; MIPS32R5EB-NEXT: jal i64_2
	; MIPS32R5-NEXT: copy_s.w $2, $w0[1]			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: copy_s.w $3, $w0[2]			; MIPS32R5EB-NEXT: insert.w $w0[0], $2
	; MIPS32R5-NEXT: copy_s.w $8, $w0[3]			; MIPS32R5EB-NEXT: insert.w $w0[1], $3
	; MIPS32R5-NEXT: sw $8, 28($sp)			; MIPS32R5EB-NEXT: insert.w $w0[2], $4
	; MIPS32R5-NEXT: sw $3, 24($sp)			; MIPS32R5EB-NEXT: lui $1, %hi(gv2i64)
	; MIPS32R5-NEXT: sw $2, 20($sp)			; MIPS32R5EB-NEXT: insert.w $w0[3], $5
	; MIPS32R5-NEXT: sw $1, 16($sp)			; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv2i64)
	; MIPS32R5-NEXT: jal i64_2			; MIPS32R5EB-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: nop			; MIPS32R5EB-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: lui $1, %hi(gv2i64)			; MIPS32R5EB-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: insert.w $w0[0], $2			; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5-NEXT: insert.w $w0[1], $3			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: addiu $1, $1, %lo(gv2i64)
	; MIPS32R5-NEXT: insert.w $w0[2], $4
	; MIPS32R5-NEXT: insert.w $w0[3], $5
	; MIPS32R5-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: calli64_2:			; MIPS64R5-LABEL: calli64_2:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5-NEXT: .cfi_offset 31, -8
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; MIPS32EL-NEXT: sw $5, 12($6)			; MIPS32EL-NEXT: sw $5, 12($6)
	; MIPS32EL-NEXT: sw $4, 8($6)			; MIPS32EL-NEXT: sw $4, 8($6)
	; MIPS32EL-NEXT: sw $3, 4($6)			; MIPS32EL-NEXT: sw $3, 4($6)
	; MIPS32EL-NEXT: sw $2, %lo(gv2i64)($1)			; MIPS32EL-NEXT: sw $2, %lo(gv2i64)($1)
	; MIPS32EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload			; MIPS32EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32EL-NEXT: addiu $sp, $sp, 40			; MIPS32EL-NEXT: addiu $sp, $sp, 40
	; MIPS32EL-NEXT: jr $ra			; MIPS32EL-NEXT: jr $ra
	; MIPS32EL-NEXT: nop			; MIPS32EL-NEXT: nop
				;
				; MIPS32R5EL-LABEL: calli64_2:
				; MIPS32R5EL: # %bb.0: # %entry
				; MIPS32R5EL-NEXT: addiu $sp, $sp, -40
				; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 40
				; MIPS32R5EL-NEXT: sw $ra, 36($sp) # 4-byte Folded Spill
				; MIPS32R5EL-NEXT: .cfi_offset 31, -4
				; MIPS32R5EL-NEXT: addiu $1, $zero, 8
				; MIPS32R5EL-NEXT: sw $1, 24($sp)
				; MIPS32R5EL-NEXT: addiu $1, $zero, 12
				; MIPS32R5EL-NEXT: sw $1, 16($sp)
				; MIPS32R5EL-NEXT: sw $zero, 28($sp)
				; MIPS32R5EL-NEXT: sw $zero, 20($sp)
				; MIPS32R5EL-NEXT: addiu $4, $zero, 6
				; MIPS32R5EL-NEXT: addiu $5, $zero, 0
				; MIPS32R5EL-NEXT: addiu $6, $zero, 7
				; MIPS32R5EL-NEXT: addiu $7, $zero, 0
				; MIPS32R5EL-NEXT: jal i64_2
				; MIPS32R5EL-NEXT: nop
				; MIPS32R5EL-NEXT: insert.w $w0[0], $2
				; MIPS32R5EL-NEXT: insert.w $w0[1], $3
				; MIPS32R5EL-NEXT: insert.w $w0[2], $4
				; MIPS32R5EL-NEXT: lui $1, %hi(gv2i64)
				; MIPS32R5EL-NEXT: insert.w $w0[3], $5
				; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv2i64)
				; MIPS32R5EL-NEXT: st.w $w0, 0($1)
				; MIPS32R5EL-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
				; MIPS32R5EL-NEXT: addiu $sp, $sp, 40
				; MIPS32R5EL-NEXT: jr $ra
				; MIPS32R5EL-NEXT: nop
	entry:			entry:
	%0 = call <2 x i64> @i64_2(<2 x i64> <i64 6, i64 7>, <2 x i64> <i64 12, i64 8>)			%0 = call <2 x i64> @i64_2(<2 x i64> <i64 6, i64 7>, <2 x i64> <i64 12, i64 8>)
	store <2 x i64> %0, <2 x i64> * @gv2i64			store <2 x i64> %0, <2 x i64> * @gv2i64
	ret void			ret void
	}			}

	declare <2 x float> @float2_extern(<2 x float>, <2 x float>)			declare <2 x float> @float2_extern(<2 x float>, <2 x float>)
	declare <4 x float> @float4_extern(<4 x float>, <4 x float>)			declare <4 x float> @float4_extern(<4 x float>, <4 x float>)
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; MIPS32R5-NEXT: swc1 $f0, 4($2)			; MIPS32R5-NEXT: swc1 $f0, 4($2)
	; MIPS32R5-NEXT: lwc1 $f0, 24($sp)			; MIPS32R5-NEXT: lwc1 $f0, 24($sp)
	; MIPS32R5-NEXT: swc1 $f0, %lo(gv2f32)($1)			; MIPS32R5-NEXT: swc1 $f0, %lo(gv2f32)($1)
	; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload			; MIPS32R5-NEXT: lw $ra, 36($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 40			; MIPS32R5-NEXT: addiu $sp, $sp, 40
	; MIPS32R5-NEXT: jr $ra			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop			; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: callfloat_2:			; MIPS64R5EB-LABEL: callfloat_2:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5EB: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5EB-NEXT: .cfi_offset 31, -8
	; MIPS64R5-NEXT: .cfi_offset 28, -16			; MIPS64R5EB-NEXT: .cfi_offset 28, -16
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_2)))			; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_2)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5EB-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_2)))			; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_2)))
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI37_0)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 383
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI37_0)			; MIPS64R5EB-NEXT: dsll $4, $1, 23
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 261
	; MIPS64R5-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EB-NEXT: dsll $1, $1, 33
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI37_1)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $1, 523
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI37_1)			; MIPS64R5EB-NEXT: dsll $5, $1, 21
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: ld $25, %call16(float2_extern)($gp)
	; MIPS64R5-NEXT: copy_s.d $5, $w0[0]			; MIPS64R5EB-NEXT: jalr $25
	; MIPS64R5-NEXT: ld $25, %call16(float2_extern)($gp)			; MIPS64R5EB-NEXT: nop
	; MIPS64R5-NEXT: jalr $25			; MIPS64R5EB-NEXT: ld $1, %got_disp(gv2f32)($gp)
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: sd $2, 0($1)
	; MIPS64R5-NEXT: ld $1, %got_disp(gv2f32)($gp)			; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64R5-NEXT: sd $2, 0($1)			; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: daddiu $sp, $sp, 16
	; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: jr $ra
	; MIPS64R5-NEXT: daddiu $sp, $sp, 16			; MIPS64R5EB-NEXT: nop
	; MIPS64R5-NEXT: jr $ra
	; MIPS64R5-NEXT: nop
	;			;
	; MIPS64EL-LABEL: callfloat_2:			; MIPS64EL-LABEL: callfloat_2:
	; MIPS64EL: # %bb.0: # %entry			; MIPS64EL: # %bb.0: # %entry
	; MIPS64EL-NEXT: daddiu $sp, $sp, -16			; MIPS64EL-NEXT: daddiu $sp, $sp, -16
	; MIPS64EL-NEXT: .cfi_def_cfa_offset 16			; MIPS64EL-NEXT: .cfi_def_cfa_offset 16
	; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: .cfi_offset 31, -8			; MIPS64EL-NEXT: .cfi_offset 31, -8
	Show All 12 Lines
	; MIPS64EL-NEXT: nop			; MIPS64EL-NEXT: nop
	; MIPS64EL-NEXT: ld $1, %got_disp(gv2f32)($gp)			; MIPS64EL-NEXT: ld $1, %got_disp(gv2f32)($gp)
	; MIPS64EL-NEXT: sd $2, 0($1)			; MIPS64EL-NEXT: sd $2, 0($1)
	; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: daddiu $sp, $sp, 16			; MIPS64EL-NEXT: daddiu $sp, $sp, 16
	; MIPS64EL-NEXT: jr $ra			; MIPS64EL-NEXT: jr $ra
	; MIPS64EL-NEXT: nop			; MIPS64EL-NEXT: nop
				;
				; MIPS64R5EL-LABEL: callfloat_2:
				; MIPS64R5EL: # %bb.0: # %entry
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16
				; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16
				; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: .cfi_offset 31, -8
				; MIPS64R5EL-NEXT: .cfi_offset 28, -16
				; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_2)))
				; MIPS64R5EL-NEXT: daddu $1, $1, $25
				; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_2)))
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 383
				; MIPS64R5EL-NEXT: dsll $4, $1, 55
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 523
				; MIPS64R5EL-NEXT: dsll $1, $1, 31
				; MIPS64R5EL-NEXT: daddiu $1, $1, 261
				; MIPS64R5EL-NEXT: dsll $5, $1, 22
				; MIPS64R5EL-NEXT: ld $25, %call16(float2_extern)($gp)
				; MIPS64R5EL-NEXT: jalr $25
				; MIPS64R5EL-NEXT: nop
				; MIPS64R5EL-NEXT: ld $1, %got_disp(gv2f32)($gp)
				; MIPS64R5EL-NEXT: sd $2, 0($1)
				; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EL-NEXT: jr $ra
				; MIPS64R5EL-NEXT: nop
	entry:			entry:
	%0 = call <2 x float> @float2_extern(<2 x float> <float 0.0, float -1.0>, <2 x float> <float 12.0, float 14.0>)			%0 = call <2 x float> @float2_extern(<2 x float> <float 0.0, float -1.0>, <2 x float> <float 12.0, float 14.0>)
	store <2 x float> %0, <2 x float> * @gv2f32			store <2 x float> %0, <2 x float> * @gv2f32
	ret void			ret void
	}			}

	define void @callfloat_4() {			define void @callfloat_4() {
	; MIPS32-LABEL: callfloat_4:			; MIPS32-LABEL: callfloat_4:
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; MIPS32R5-NEXT: sw $ra, 76($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: sw $ra, 76($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: sw $fp, 72($sp) # 4-byte Folded Spill			; MIPS32R5-NEXT: sw $fp, 72($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: .cfi_offset 31, -4			; MIPS32R5-NEXT: .cfi_offset 31, -4
	; MIPS32R5-NEXT: .cfi_offset 30, -8			; MIPS32R5-NEXT: .cfi_offset 30, -8
	; MIPS32R5-NEXT: move $fp, $sp			; MIPS32R5-NEXT: move $fp, $sp
	; MIPS32R5-NEXT: .cfi_def_cfa_register 30			; MIPS32R5-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5-NEXT: addiu $1, $zero, -16			; MIPS32R5-NEXT: addiu $1, $zero, -16
	; MIPS32R5-NEXT: and $sp, $sp, $1			; MIPS32R5-NEXT: and $sp, $sp, $1
	; MIPS32R5-NEXT: lui $1, %hi($CPI38_0)			; MIPS32R5-NEXT: lui $1, 16704
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI38_0)			; MIPS32R5-NEXT: lui $2, 16736
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5-NEXT: lui $3, 16752
	; MIPS32R5-NEXT: copy_s.w $6, $w0[0]			; MIPS32R5-NEXT: lui $4, 16768
	; MIPS32R5-NEXT: copy_s.w $7, $w0[1]			; MIPS32R5-NEXT: sw $4, 36($sp)
	; MIPS32R5-NEXT: copy_s.w $1, $w0[2]			; MIPS32R5-NEXT: sw $3, 32($sp)
	; MIPS32R5-NEXT: copy_s.w $2, $w0[3]			; MIPS32R5-NEXT: sw $2, 28($sp)
	; MIPS32R5-NEXT: lui $3, %hi($CPI38_1)			; MIPS32R5-NEXT: sw $1, 24($sp)
	; MIPS32R5-NEXT: addiu $3, $3, %lo($CPI38_1)			; MIPS32R5-NEXT: lui $1, 16512
	; MIPS32R5-NEXT: ld.w $w0, 0($3)			; MIPS32R5-NEXT: sw $1, 20($sp)
	; MIPS32R5-NEXT: copy_s.w $3, $w0[0]			; MIPS32R5-NEXT: lui $1, 16384
	; MIPS32R5-NEXT: copy_s.w $4, $w0[1]
	; MIPS32R5-NEXT: copy_s.w $5, $w0[2]
	; MIPS32R5-NEXT: copy_s.w $8, $w0[3]
	; MIPS32R5-NEXT: sw $8, 36($sp)
	; MIPS32R5-NEXT: sw $5, 32($sp)
	; MIPS32R5-NEXT: sw $4, 28($sp)
	; MIPS32R5-NEXT: sw $3, 24($sp)
	; MIPS32R5-NEXT: sw $2, 20($sp)
	; MIPS32R5-NEXT: sw $1, 16($sp)			; MIPS32R5-NEXT: sw $1, 16($sp)
	; MIPS32R5-NEXT: addiu $4, $sp, 48			; MIPS32R5-NEXT: addiu $4, $sp, 48
				; MIPS32R5-NEXT: addiu $6, $zero, 0
				; MIPS32R5-NEXT: lui $7, 49024
	; MIPS32R5-NEXT: jal float4_extern			; MIPS32R5-NEXT: jal float4_extern
	; MIPS32R5-NEXT: nop			; MIPS32R5-NEXT: nop
	; MIPS32R5-NEXT: lui $1, %hi(gv4f32)			; MIPS32R5-NEXT: lui $1, %hi(gv4f32)
	; MIPS32R5-NEXT: addiu $1, $1, %lo(gv4f32)			; MIPS32R5-NEXT: addiu $1, $1, %lo(gv4f32)
	; MIPS32R5-NEXT: ld.w $w0, 48($sp)			; MIPS32R5-NEXT: ld.w $w0, 48($sp)
	; MIPS32R5-NEXT: st.w $w0, 0($1)			; MIPS32R5-NEXT: st.w $w0, 0($1)
	; MIPS32R5-NEXT: move $sp, $fp			; MIPS32R5-NEXT: move $sp, $fp
	; MIPS32R5-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload			; MIPS32R5-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload			; MIPS32R5-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 80			; MIPS32R5-NEXT: addiu $sp, $sp, 80
	; MIPS32R5-NEXT: jr $ra			; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop			; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: callfloat_4:			; MIPS64R5EB-LABEL: callfloat_4:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5EB: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5EB-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5EB-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5EB-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5EB-NEXT: .cfi_offset 31, -8
	; MIPS64R5-NEXT: .cfi_offset 28, -16			; MIPS64R5EB-NEXT: .cfi_offset 28, -16
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_4)))			; MIPS64R5EB-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_4)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5EB-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_4)))			; MIPS64R5EB-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_4)))
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI38_0)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 1
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI38_0)			; MIPS64R5EB-NEXT: dsll $1, $1, 39
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: daddiu $1, $1, 129
	; MIPS64R5-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5EB-NEXT: daddiu $2, $zero, 261
	; MIPS64R5-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5EB-NEXT: dsll $2, $2, 33
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI38_1)($gp)			; MIPS64R5EB-NEXT: daddiu $3, $zero, 383
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI38_1)			; MIPS64R5EB-NEXT: dsll $4, $3, 23
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5EB-NEXT: dsll $5, $1, 23
	; MIPS64R5-NEXT: copy_s.d $6, $w0[0]			; MIPS64R5EB-NEXT: daddiu $1, $2, 523
	; MIPS64R5-NEXT: copy_s.d $7, $w0[1]			; MIPS64R5EB-NEXT: dsll $6, $1, 21
	; MIPS64R5-NEXT: ld $25, %call16(float4_extern)($gp)			; MIPS64R5EB-NEXT: daddiu $1, $zero, 1047
	; MIPS64R5-NEXT: jalr $25			; MIPS64R5EB-NEXT: dsll $1, $1, 29
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: daddiu $1, $1, 131
	; MIPS64R5-NEXT: insert.d $w0[0], $2			; MIPS64R5EB-NEXT: dsll $7, $1, 23
	; MIPS64R5-NEXT: insert.d $w0[1], $3			; MIPS64R5EB-NEXT: ld $25, %call16(float4_extern)($gp)
	; MIPS64R5-NEXT: ld $1, %got_disp(gv4f32)($gp)			; MIPS64R5EB-NEXT: jalr $25
	; MIPS64R5-NEXT: st.d $w0, 0($1)			; MIPS64R5EB-NEXT: nop
	; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: insert.d $w0[0], $2
	; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5EB-NEXT: insert.d $w0[1], $3
	; MIPS64R5-NEXT: daddiu $sp, $sp, 16			; MIPS64R5EB-NEXT: ld $1, %got_disp(gv4f32)($gp)
	; MIPS64R5-NEXT: jr $ra			; MIPS64R5EB-NEXT: st.d $w0, 0($1)
	; MIPS64R5-NEXT: nop			; MIPS64R5EB-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EB-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EB-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EB-NEXT: jr $ra
				; MIPS64R5EB-NEXT: nop
	;			;
	; MIPS64EL-LABEL: callfloat_4:			; MIPS64EL-LABEL: callfloat_4:
	; MIPS64EL: # %bb.0: # %entry			; MIPS64EL: # %bb.0: # %entry
	; MIPS64EL-NEXT: daddiu $sp, $sp, -16			; MIPS64EL-NEXT: daddiu $sp, $sp, -16
	; MIPS64EL-NEXT: .cfi_def_cfa_offset 16			; MIPS64EL-NEXT: .cfi_def_cfa_offset 16
	; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64EL-NEXT: .cfi_offset 31, -8			; MIPS64EL-NEXT: .cfi_offset 31, -8
	Show All 21 Lines
	; MIPS64EL-NEXT: ld $1, %got_disp(gv4f32)($gp)			; MIPS64EL-NEXT: ld $1, %got_disp(gv4f32)($gp)
	; MIPS64EL-NEXT: sd $3, 8($1)			; MIPS64EL-NEXT: sd $3, 8($1)
	; MIPS64EL-NEXT: sd $2, 0($1)			; MIPS64EL-NEXT: sd $2, 0($1)
	; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64EL-NEXT: daddiu $sp, $sp, 16			; MIPS64EL-NEXT: daddiu $sp, $sp, 16
	; MIPS64EL-NEXT: jr $ra			; MIPS64EL-NEXT: jr $ra
	; MIPS64EL-NEXT: nop			; MIPS64EL-NEXT: nop
				;
				; MIPS64R5EL-LABEL: callfloat_4:
				; MIPS64R5EL: # %bb.0: # %entry
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, -16
				; MIPS64R5EL-NEXT: .cfi_def_cfa_offset 16
				; MIPS64R5EL-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
				; MIPS64R5EL-NEXT: .cfi_offset 31, -8
				; MIPS64R5EL-NEXT: .cfi_offset 28, -16
				; MIPS64R5EL-NEXT: lui $1, %hi(%neg(%gp_rel(callfloat_4)))
				; MIPS64R5EL-NEXT: daddu $1, $1, $25
				; MIPS64R5EL-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(callfloat_4)))
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 129
				; MIPS64R5EL-NEXT: dsll $1, $1, 25
				; MIPS64R5EL-NEXT: daddiu $1, $1, 1
				; MIPS64R5EL-NEXT: daddiu $2, $zero, 523
				; MIPS64R5EL-NEXT: dsll $2, $2, 31
				; MIPS64R5EL-NEXT: daddiu $3, $zero, 383
				; MIPS64R5EL-NEXT: dsll $4, $3, 55
				; MIPS64R5EL-NEXT: dsll $5, $1, 30
				; MIPS64R5EL-NEXT: daddiu $1, $2, 261
				; MIPS64R5EL-NEXT: dsll $6, $1, 22
				; MIPS64R5EL-NEXT: daddiu $1, $zero, 131
				; MIPS64R5EL-NEXT: dsll $1, $1, 35
				; MIPS64R5EL-NEXT: daddiu $1, $1, 1047
				; MIPS64R5EL-NEXT: dsll $7, $1, 20
				; MIPS64R5EL-NEXT: ld $25, %call16(float4_extern)($gp)
				; MIPS64R5EL-NEXT: jalr $25
				; MIPS64R5EL-NEXT: nop
				; MIPS64R5EL-NEXT: insert.d $w0[0], $2
				; MIPS64R5EL-NEXT: insert.d $w0[1], $3
				; MIPS64R5EL-NEXT: ld $1, %got_disp(gv4f32)($gp)
				; MIPS64R5EL-NEXT: st.d $w0, 0($1)
				; MIPS64R5EL-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
				; MIPS64R5EL-NEXT: daddiu $sp, $sp, 16
				; MIPS64R5EL-NEXT: jr $ra
				; MIPS64R5EL-NEXT: nop
	entry:			entry:
	%0 = call <4 x float> @float4_extern(<4 x float> <float 0.0, float -1.0, float 2.0, float 4.0>, <4 x float> <float 12.0, float 14.0, float 15.0, float 16.0>)			%0 = call <4 x float> @float4_extern(<4 x float> <float 0.0, float -1.0, float 2.0, float 4.0>, <4 x float> <float 12.0, float 14.0, float 15.0, float 16.0>)
	store <4 x float> %0, <4 x float> * @gv4f32			store <4 x float> %0, <4 x float> * @gv4f32
	ret void			ret void
	}			}

	define void @calldouble_2() {			define void @calldouble_2() {
	; MIPS32EB-LABEL: calldouble_2:			; MIPS32EB-LABEL: calldouble_2:
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; MIPS64-NEXT: sd $3, 8($1)			; MIPS64-NEXT: sd $3, 8($1)
	; MIPS64-NEXT: sd $2, 0($1)			; MIPS64-NEXT: sd $2, 0($1)
	; MIPS64-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	; MIPS64-NEXT: daddiu $sp, $sp, 16			; MIPS64-NEXT: daddiu $sp, $sp, 16
	; MIPS64-NEXT: jr $ra			; MIPS64-NEXT: jr $ra
	; MIPS64-NEXT: nop			; MIPS64-NEXT: nop
	;			;
	; MIPS32R5-LABEL: calldouble_2:			; MIPS32R5EB-LABEL: calldouble_2:
	; MIPS32R5: # %bb.0: # %entry			; MIPS32R5EB: # %bb.0: # %entry
	; MIPS32R5-NEXT: addiu $sp, $sp, -80			; MIPS32R5EB-NEXT: addiu $sp, $sp, -80
	; MIPS32R5-NEXT: .cfi_def_cfa_offset 80			; MIPS32R5EB-NEXT: .cfi_def_cfa_offset 80
	; MIPS32R5-NEXT: sw $ra, 76($sp) # 4-byte Folded Spill			; MIPS32R5EB-NEXT: sw $ra, 76($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: sw $fp, 72($sp) # 4-byte Folded Spill			; MIPS32R5EB-NEXT: sw $fp, 72($sp) # 4-byte Folded Spill
	; MIPS32R5-NEXT: .cfi_offset 31, -4			; MIPS32R5EB-NEXT: .cfi_offset 31, -4
	; MIPS32R5-NEXT: .cfi_offset 30, -8			; MIPS32R5EB-NEXT: .cfi_offset 30, -8
	; MIPS32R5-NEXT: move $fp, $sp			; MIPS32R5EB-NEXT: move $fp, $sp
	; MIPS32R5-NEXT: .cfi_def_cfa_register 30			; MIPS32R5EB-NEXT: .cfi_def_cfa_register 30
	; MIPS32R5-NEXT: addiu $1, $zero, -16			; MIPS32R5EB-NEXT: addiu $1, $zero, -16
	; MIPS32R5-NEXT: and $sp, $sp, $1			; MIPS32R5EB-NEXT: and $sp, $sp, $1
	; MIPS32R5-NEXT: lui $1, %hi($CPI39_0)			; MIPS32R5EB-NEXT: lui $1, 16424
	; MIPS32R5-NEXT: addiu $1, $1, %lo($CPI39_0)			; MIPS32R5EB-NEXT: lui $2, 16428
	; MIPS32R5-NEXT: ld.w $w0, 0($1)			; MIPS32R5EB-NEXT: sw $2, 32($sp)
	; MIPS32R5-NEXT: copy_s.w $6, $w0[0]			; MIPS32R5EB-NEXT: sw $1, 24($sp)
	; MIPS32R5-NEXT: copy_s.w $7, $w0[1]			; MIPS32R5EB-NEXT: lui $1, 49136
	; MIPS32R5-NEXT: copy_s.w $1, $w0[2]			; MIPS32R5EB-NEXT: sw $1, 16($sp)
	; MIPS32R5-NEXT: copy_s.w $2, $w0[3]			; MIPS32R5EB-NEXT: sw $zero, 36($sp)
	; MIPS32R5-NEXT: lui $3, %hi($CPI39_1)			; MIPS32R5EB-NEXT: sw $zero, 28($sp)
	; MIPS32R5-NEXT: addiu $3, $3, %lo($CPI39_1)			; MIPS32R5EB-NEXT: sw $zero, 20($sp)
	; MIPS32R5-NEXT: ld.w $w0, 0($3)			; MIPS32R5EB-NEXT: addiu $4, $sp, 48
	; MIPS32R5-NEXT: copy_s.w $3, $w0[0]			; MIPS32R5EB-NEXT: addiu $6, $zero, 0
	; MIPS32R5-NEXT: copy_s.w $4, $w0[1]			; MIPS32R5EB-NEXT: addiu $7, $zero, 0
	; MIPS32R5-NEXT: copy_s.w $5, $w0[2]			; MIPS32R5EB-NEXT: jal double2_extern
	; MIPS32R5-NEXT: copy_s.w $8, $w0[3]			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: sw $8, 36($sp)			; MIPS32R5EB-NEXT: lui $1, %hi(gv2f64)
	; MIPS32R5-NEXT: sw $5, 32($sp)			; MIPS32R5EB-NEXT: addiu $1, $1, %lo(gv2f64)
	; MIPS32R5-NEXT: sw $4, 28($sp)			; MIPS32R5EB-NEXT: ld.d $w0, 48($sp)
	; MIPS32R5-NEXT: sw $3, 24($sp)			; MIPS32R5EB-NEXT: st.d $w0, 0($1)
	; MIPS32R5-NEXT: sw $2, 20($sp)			; MIPS32R5EB-NEXT: move $sp, $fp
	; MIPS32R5-NEXT: sw $1, 16($sp)			; MIPS32R5EB-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $4, $sp, 48			; MIPS32R5EB-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: jal double2_extern			; MIPS32R5EB-NEXT: addiu $sp, $sp, 80
	; MIPS32R5-NEXT: nop			; MIPS32R5EB-NEXT: jr $ra
	; MIPS32R5-NEXT: lui $1, %hi(gv2f64)			; MIPS32R5EB-NEXT: nop
	; MIPS32R5-NEXT: addiu $1, $1, %lo(gv2f64)
	; MIPS32R5-NEXT: ld.d $w0, 48($sp)
	; MIPS32R5-NEXT: st.d $w0, 0($1)
	; MIPS32R5-NEXT: move $sp, $fp
	; MIPS32R5-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload
	; MIPS32R5-NEXT: addiu $sp, $sp, 80
	; MIPS32R5-NEXT: jr $ra
	; MIPS32R5-NEXT: nop
	;			;
	; MIPS64R5-LABEL: calldouble_2:			; MIPS64R5-LABEL: calldouble_2:
	; MIPS64R5: # %bb.0: # %entry			; MIPS64R5: # %bb.0: # %entry
	; MIPS64R5-NEXT: daddiu $sp, $sp, -16			; MIPS64R5-NEXT: daddiu $sp, $sp, -16
	; MIPS64R5-NEXT: .cfi_def_cfa_offset 16			; MIPS64R5-NEXT: .cfi_def_cfa_offset 16
	; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill			; MIPS64R5-NEXT: sd $ra, 8($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill			; MIPS64R5-NEXT: sd $gp, 0($sp) # 8-byte Folded Spill
	; MIPS64R5-NEXT: .cfi_offset 31, -8			; MIPS64R5-NEXT: .cfi_offset 31, -8
	; MIPS64R5-NEXT: .cfi_offset 28, -16			; MIPS64R5-NEXT: .cfi_offset 28, -16
	; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(calldouble_2)))			; MIPS64R5-NEXT: lui $1, %hi(%neg(%gp_rel(calldouble_2)))
	; MIPS64R5-NEXT: daddu $1, $1, $25			; MIPS64R5-NEXT: daddu $1, $1, $25
	; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calldouble_2)))			; MIPS64R5-NEXT: daddiu $gp, $1, %lo(%neg(%gp_rel(calldouble_2)))
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI39_0)($gp)			; MIPS64R5-NEXT: daddiu $1, $zero, 3071
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI39_0)			; MIPS64R5-NEXT: dsll $5, $1, 52
	; MIPS64R5-NEXT: ld.d $w0, 0($1)			; MIPS64R5-NEXT: daddiu $1, $zero, 2053
	; MIPS64R5-NEXT: copy_s.d $4, $w0[0]			; MIPS64R5-NEXT: dsll $6, $1, 51
	; MIPS64R5-NEXT: copy_s.d $5, $w0[1]			; MIPS64R5-NEXT: daddiu $1, $zero, 4107
	; MIPS64R5-NEXT: ld $1, %got_page(.LCPI39_1)($gp)			; MIPS64R5-NEXT: dsll $7, $1, 50
	; MIPS64R5-NEXT: daddiu $1, $1, %got_ofst(.LCPI39_1)
	; MIPS64R5-NEXT: ld.d $w0, 0($1)
	; MIPS64R5-NEXT: copy_s.d $6, $w0[0]
	; MIPS64R5-NEXT: copy_s.d $7, $w0[1]
	; MIPS64R5-NEXT: ld $25, %call16(double2_extern)($gp)			; MIPS64R5-NEXT: ld $25, %call16(double2_extern)($gp)
				; MIPS64R5-NEXT: daddiu $4, $zero, 0
	; MIPS64R5-NEXT: jalr $25			; MIPS64R5-NEXT: jalr $25
	; MIPS64R5-NEXT: nop			; MIPS64R5-NEXT: nop
	; MIPS64R5-NEXT: insert.d $w0[0], $2			; MIPS64R5-NEXT: insert.d $w0[0], $2
	; MIPS64R5-NEXT: insert.d $w0[1], $3			; MIPS64R5-NEXT: insert.d $w0[1], $3
	; MIPS64R5-NEXT: ld $1, %got_disp(gv2f64)($gp)			; MIPS64R5-NEXT: ld $1, %got_disp(gv2f64)($gp)
	; MIPS64R5-NEXT: st.d $w0, 0($1)			; MIPS64R5-NEXT: st.d $w0, 0($1)
	; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload			; MIPS64R5-NEXT: ld $gp, 0($sp) # 8-byte Folded Reload
	; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload			; MIPS64R5-NEXT: ld $ra, 8($sp) # 8-byte Folded Reload
	Show All 34 Lines
	; MIPS32EL-NEXT: ldc1 $f0, 48($sp)			; MIPS32EL-NEXT: ldc1 $f0, 48($sp)
	; MIPS32EL-NEXT: sdc1 $f0, %lo(gv2f64)($1)			; MIPS32EL-NEXT: sdc1 $f0, %lo(gv2f64)($1)
	; MIPS32EL-NEXT: move $sp, $fp			; MIPS32EL-NEXT: move $sp, $fp
	; MIPS32EL-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload			; MIPS32EL-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload
	; MIPS32EL-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload			; MIPS32EL-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload
	; MIPS32EL-NEXT: addiu $sp, $sp, 80			; MIPS32EL-NEXT: addiu $sp, $sp, 80
	; MIPS32EL-NEXT: jr $ra			; MIPS32EL-NEXT: jr $ra
	; MIPS32EL-NEXT: nop			; MIPS32EL-NEXT: nop
				;
				; MIPS32R5EL-LABEL: calldouble_2:
				; MIPS32R5EL: # %bb.0: # %entry
				; MIPS32R5EL-NEXT: addiu $sp, $sp, -80
				; MIPS32R5EL-NEXT: .cfi_def_cfa_offset 80
				; MIPS32R5EL-NEXT: sw $ra, 76($sp) # 4-byte Folded Spill
				; MIPS32R5EL-NEXT: sw $fp, 72($sp) # 4-byte Folded Spill
				; MIPS32R5EL-NEXT: .cfi_offset 31, -4
				; MIPS32R5EL-NEXT: .cfi_offset 30, -8
				; MIPS32R5EL-NEXT: move $fp, $sp
				; MIPS32R5EL-NEXT: .cfi_def_cfa_register 30
				; MIPS32R5EL-NEXT: addiu $1, $zero, -16
				; MIPS32R5EL-NEXT: and $sp, $sp, $1
				; MIPS32R5EL-NEXT: lui $1, 16424
				; MIPS32R5EL-NEXT: lui $2, 16428
				; MIPS32R5EL-NEXT: sw $2, 36($sp)
				; MIPS32R5EL-NEXT: sw $1, 28($sp)
				; MIPS32R5EL-NEXT: lui $1, 49136
				; MIPS32R5EL-NEXT: sw $1, 20($sp)
				; MIPS32R5EL-NEXT: sw $zero, 32($sp)
				; MIPS32R5EL-NEXT: sw $zero, 24($sp)
				; MIPS32R5EL-NEXT: sw $zero, 16($sp)
				; MIPS32R5EL-NEXT: addiu $4, $sp, 48
				; MIPS32R5EL-NEXT: addiu $6, $zero, 0
				; MIPS32R5EL-NEXT: addiu $7, $zero, 0
				; MIPS32R5EL-NEXT: jal double2_extern
				; MIPS32R5EL-NEXT: nop
				; MIPS32R5EL-NEXT: lui $1, %hi(gv2f64)
				; MIPS32R5EL-NEXT: addiu $1, $1, %lo(gv2f64)
				; MIPS32R5EL-NEXT: ld.d $w0, 48($sp)
				; MIPS32R5EL-NEXT: st.d $w0, 0($1)
				; MIPS32R5EL-NEXT: move $sp, $fp
				; MIPS32R5EL-NEXT: lw $fp, 72($sp) # 4-byte Folded Reload
				; MIPS32R5EL-NEXT: lw $ra, 76($sp) # 4-byte Folded Reload
				; MIPS32R5EL-NEXT: addiu $sp, $sp, 80
				; MIPS32R5EL-NEXT: jr $ra
				; MIPS32R5EL-NEXT: nop
	entry:			entry:
	%0 = call <2 x double> @double2_extern(<2 x double> <double 0.0, double -1.0>, <2 x double> <double 12.0, double 14.0>)			%0 = call <2 x double> @double2_extern(<2 x double> <double 0.0, double -1.0>, <2 x double> <double 12.0, double 14.0>)
	store <2 x double> %0, <2 x double> * @gv2f64			store <2 x double> %0, <2 x double> * @gv2f64
	ret void			ret void
	}			}

	; The mixed tests show that due to alignment requirements, $5 is not used			; The mixed tests show that due to alignment requirements, $5 is not used
	; in argument passing.			; in argument passing.
	▲ Show 20 Lines • Show All 782 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/pr45709.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -verify-machineinstrs -mtriple=powerpc64le-unknown-unknown \			; RUN: llc -verify-machineinstrs -mtriple=powerpc64le-unknown-unknown \
	; RUN: -mcpu=pwr6 -ppc-asm-full-reg-names -mattr=-vsx \			; RUN: -mcpu=pwr6 -ppc-asm-full-reg-names -mattr=-vsx \
	; RUN: -ppc-vsr-nums-as-vr < %s \| FileCheck %s			; RUN: -ppc-vsr-nums-as-vr < %s \| FileCheck %s

	; There is code in the SDAG to expand FMAX/FMIN with fast flags to SELECT_CC.			; There is code in the SDAG to expand FMAX/FMIN with fast flags to SELECT_CC.
	; On PPC, we had SELECT_CC legalized using Promote for all vector types			; On PPC, we had SELECT_CC legalized using Promote for all vector types
	; (including the type that they are all promoted to - which caused an infinite			; (including the type that they are all promoted to - which caused an infinite
	; loop in legalization). This test just ensures that we terminate on such input.			; loop in legalization). This test just ensures that we terminate on such input.
	define dso_local void @_ZN1a1bEv(<4 x float> %in) local_unnamed_addr #0 align 2 {			define dso_local void @_ZN1a1bEv(<4 x float> %in) local_unnamed_addr #0 align 2 {
	; CHECK-LABEL: _ZN1a1bEv:			; CHECK-LABEL: _ZN1a1bEv:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: bc 12, 4*cr5+lt, .LBB0_6			; CHECK-NEXT: bc 12, 4*cr5+lt, .LBB0_4
	; CHECK-NEXT: b .LBB0_1			; CHECK-NEXT: b .LBB0_1
	; CHECK-NEXT: .LBB0_1: # %.preheader			; CHECK-NEXT: .LBB0_1: # %.preheader
	; CHECK-NEXT: b .LBB0_2			; CHECK-NEXT: b .LBB0_2
	; CHECK-NEXT: .LBB0_2:			; CHECK-NEXT: .LBB0_2:
	; CHECK-NEXT: b .LBB0_3			; CHECK-NEXT: b .LBB0_3
	; CHECK-NEXT: .LBB0_3:			; CHECK-NEXT: .LBB0_3:
	; CHECK-NEXT: addis r3, r2, .LCPI0_0@toc@ha			; CHECK-NEXT: addis r3, r2, .LCPI0_0@toc@ha
	; CHECK-NEXT: addi r3, r3, .LCPI0_0@toc@l			; CHECK-NEXT: addi r3, r3, .LCPI0_0@toc@l
	; CHECK-NEXT: lvx v3, 0, r3			; CHECK-NEXT: lvx v3, 0, r3
	; CHECK-NEXT: vperm v2, v2, v2, v3			; CHECK-NEXT: vperm v2, v2, v2, v3
	; CHECK-NEXT: vxor v3, v3, v3
	; CHECK-NEXT: addi r3, r1, -48
	; CHECK-NEXT: stvx v3, 0, r3
	; CHECK-NEXT: addi r3, r1, -32			; CHECK-NEXT: addi r3, r1, -32
	; CHECK-NEXT: stvx v2, 0, r3			; CHECK-NEXT: stvx v2, 0, r3
	; CHECK-NEXT: lwz r3, -48(r1)			; CHECK-NEXT: lwz r3, -32(r1)
	; CHECK-NEXT: lwz r4, -32(r1)			; CHECK-NEXT: srawi r4, r3, 31
	; CHECK-NEXT: cmpw r4, r3			; CHECK-NEXT: andc r3, r3, r4
	; CHECK-NEXT: bc 12, gt, .LBB0_4
	; CHECK-NEXT: b .LBB0_5
	; CHECK-NEXT: .LBB0_4:
	; CHECK-NEXT: addi r3, r4, 0
	; CHECK-NEXT: .LBB0_5:
	; CHECK-NEXT: cmpw r3, r3			; CHECK-NEXT: cmpw r3, r3
	; CHECK-NEXT: stw r3, -64(r1)			; CHECK-NEXT: stw r3, -48(r1)
	; CHECK-NEXT: addi r3, r1, -64			; CHECK-NEXT: addi r3, r1, -48
	; CHECK-NEXT: lvx v2, 0, r3			; CHECK-NEXT: lvx v2, 0, r3
	; CHECK-NEXT: addi r3, r1, -16			; CHECK-NEXT: addi r3, r1, -16
	; CHECK-NEXT: stvx v2, 0, r3			; CHECK-NEXT: stvx v2, 0, r3
	; CHECK-NEXT: .LBB0_6:			; CHECK-NEXT: .LBB0_4:
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	br i1 undef, label %7, label %1			br i1 undef, label %7, label %1

	1: ; preds = %1, %0			1: ; preds = %1, %0
	br i1 undef, label %2, label %1			br i1 undef, label %2, label %1

	2: ; preds = %1			2: ; preds = %1
	%3 = shufflevector <4 x float> %in, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 1, i32 0>			%3 = shufflevector <4 x float> %in, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 1, i32 0>
	Show All 14 Lines

llvm/test/CodeGen/Thumb2/active_lane_mask.ll

	Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.32 q0[2], r1			; CHECK-NEXT: vmov.32 q0[2], r1
	; CHECK-NEXT: ldr r1, [sp, #16]			; CHECK-NEXT: ldr r1, [sp, #16]
	; CHECK-NEXT: vmov.32 q1[0], r1			; CHECK-NEXT: vmov.32 q1[0], r1
	; CHECK-NEXT: ldr r1, [sp, #20]			; CHECK-NEXT: ldr r1, [sp, #20]
	; CHECK-NEXT: vmov.32 q1[1], r1			; CHECK-NEXT: vmov.32 q1[1], r1
	; CHECK-NEXT: ldr r1, [sp, #24]			; CHECK-NEXT: ldr r1, [sp, #24]
	; CHECK-NEXT: vmov.32 q1[2], r1			; CHECK-NEXT: vmov.32 q1[2], r1
	; CHECK-NEXT: vpsel q0, q1, q0			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vmov r1, s2			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.f32 s2, s1
	; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vmov r2, s2			; CHECK-NEXT: vmov r2, s2
	; CHECK-NEXT: strd r3, r2, [r0, #16]			; CHECK-NEXT: vmov.f32 s2, s1
	; CHECK-NEXT: str r1, [r0, #24]			; CHECK-NEXT: vmov r3, s2
				; CHECK-NEXT: strd r1, r3, [r0, #16]
				; CHECK-NEXT: str r2, [r0, #24]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.1:			; CHECK-NEXT: @ %bb.1:
	; CHECK-NEXT: .LCPI1_0:			; CHECK-NEXT: .LCPI1_0:
	; CHECK-NEXT: .long 0 @ 0x0			; CHECK-NEXT: .long 0 @ 0x0
	; CHECK-NEXT: .long 1 @ 0x1			; CHECK-NEXT: .long 1 @ 0x1
	; CHECK-NEXT: .long 2 @ 0x2			; CHECK-NEXT: .long 2 @ 0x2
	; CHECK-NEXT: .long 3 @ 0x3			; CHECK-NEXT: .long 3 @ 0x3
	▲ Show 20 Lines • Show All 314 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-satmul-loops.ll

	Show First 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: add.w r11, r8, r3, lsl #2			; CHECK-NEXT: add.w r11, r8, r3, lsl #2
	; CHECK-NEXT: add.w r10, r1, r3, lsl #2			; CHECK-NEXT: add.w r10, r1, r3, lsl #2
	; CHECK-NEXT: add.w lr, r7, r2, lsr #2			; CHECK-NEXT: add.w lr, r7, r2, lsr #2
	; CHECK-NEXT: adr r7, .LCPI1_0			; CHECK-NEXT: adr r7, .LCPI1_0
	; CHECK-NEXT: vldrw.u32 q0, [r7]			; CHECK-NEXT: vldrw.u32 q0, [r7]
	; CHECK-NEXT: adr r7, .LCPI1_1			; CHECK-NEXT: adr r7, .LCPI1_1
	; CHECK-NEXT: add.w r12, r0, r3, lsl #2			; CHECK-NEXT: add.w r12, r0, r3, lsl #2
	; CHECK-NEXT: vldrw.u32 q1, [r7]			; CHECK-NEXT: vldrw.u32 q1, [r7]
				; CHECK-NEXT: mov.w r9, #-1
	; CHECK-NEXT: str r3, [sp] @ 4-byte Spill			; CHECK-NEXT: str r3, [sp] @ 4-byte Spill
	; CHECK-NEXT: mov.w r3, #-1
	; CHECK-NEXT: mvn r9, #-2147483648
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_4: @ %vector.body			; CHECK-NEXT: .LBB1_4: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q2, [r0], #16			; CHECK-NEXT: vldrw.u32 q2, [r0], #16
	; CHECK-NEXT: vldrw.u32 q3, [r1], #16			; CHECK-NEXT: vldrw.u32 q3, [r1], #16
	; CHECK-NEXT: mov r2, lr			; CHECK-NEXT: mov r2, lr
	; CHECK-NEXT: vmov.f32 s16, s10			; CHECK-NEXT: vmov.f32 s16, s10
	; CHECK-NEXT: vmov.f32 s20, s14			; CHECK-NEXT: vmov.f32 s20, s14
	; CHECK-NEXT: vmov.f32 s18, s11			; CHECK-NEXT: vmov.f32 s18, s11
	; CHECK-NEXT: vmov.f32 s22, s15			; CHECK-NEXT: vmov.f32 s22, s15
	; CHECK-NEXT: vmullb.s32 q6, q5, q4			; CHECK-NEXT: vmullb.s32 q6, q5, q4
	; CHECK-NEXT: vmov.f32 s10, s9			; CHECK-NEXT: vmov.f32 s10, s9
	; CHECK-NEXT: vmov r7, s25			; CHECK-NEXT: vmov r7, s25
	; CHECK-NEXT: vmov r6, s24			; CHECK-NEXT: vmov r6, s24
	; CHECK-NEXT: asrl r6, r7, #31			; CHECK-NEXT: asrl r6, r7, #31
	; CHECK-NEXT: vmov lr, s26			; CHECK-NEXT: vmov lr, s26
	; CHECK-NEXT: rsbs.w r5, r6, #-2147483648			; CHECK-NEXT: rsbs.w r5, r6, #-2147483648
	; CHECK-NEXT: vmov.f32 s14, s13			; CHECK-NEXT: vmov.f32 s14, s13
	; CHECK-NEXT: sbcs.w r5, r3, r7			; CHECK-NEXT: sbcs.w r5, r9, r7
	; CHECK-NEXT: mov.w r5, #0			; CHECK-NEXT: mov.w r5, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r5, #1			; CHECK-NEXT: movlt r5, #1
	; CHECK-NEXT: cmp r5, #0			; CHECK-NEXT: cmp r5, #0
	; CHECK-NEXT: csetm r5, ne			; CHECK-NEXT: csetm r5, ne
	; CHECK-NEXT: vmov.32 q4[0], r5			; CHECK-NEXT: vmov.32 q4[0], r5
	; CHECK-NEXT: vmov.32 q4[1], r5			; CHECK-NEXT: vmov.32 q4[1], r5
	; CHECK-NEXT: vmov r5, s27			; CHECK-NEXT: vmov r5, s27
	; CHECK-NEXT: asrl lr, r5, #31			; CHECK-NEXT: asrl lr, r5, #31
	; CHECK-NEXT: vmov.32 q6[0], r6			; CHECK-NEXT: vmov.32 q6[0], r6
	; CHECK-NEXT: rsbs.w r4, lr, #-2147483648			; CHECK-NEXT: rsbs.w r4, lr, #-2147483648
	; CHECK-NEXT: vmov.32 q6[1], r7			; CHECK-NEXT: vmov.32 q6[1], r7
	; CHECK-NEXT: sbcs.w r4, r3, r5			; CHECK-NEXT: sbcs.w r4, r9, r5
	; CHECK-NEXT: vmov.32 q6[2], lr			; CHECK-NEXT: vmov.32 q6[2], lr
	; CHECK-NEXT: mov.w r4, #0			; CHECK-NEXT: mov.w r4, #0
	; CHECK-NEXT: vmov.32 q6[3], r5			; CHECK-NEXT: vmov.32 q6[3], r5
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r4, #1			; CHECK-NEXT: movlt r4, #1
	; CHECK-NEXT: cmp r4, #0			; CHECK-NEXT: cmp r4, #0
	; CHECK-NEXT: csetm r4, ne			; CHECK-NEXT: csetm r4, ne
	; CHECK-NEXT: mov lr, r2			; CHECK-NEXT: mov lr, r2
	; CHECK-NEXT: vmov.32 q4[2], r4			; CHECK-NEXT: vmov.32 q4[2], r4
				; CHECK-NEXT: mvn r2, #-2147483648
	; CHECK-NEXT: vmov.32 q4[3], r4			; CHECK-NEXT: vmov.32 q4[3], r4
	; CHECK-NEXT: vmov r4, s14			; CHECK-NEXT: vmov r4, s12
	; CHECK-NEXT: vbic q5, q0, q4			; CHECK-NEXT: vbic q5, q0, q4
	; CHECK-NEXT: vand q4, q6, q4			; CHECK-NEXT: vand q4, q6, q4
	; CHECK-NEXT: vorr q4, q4, q5			; CHECK-NEXT: vorr q4, q4, q5
	; CHECK-NEXT: vmov r6, s16			; CHECK-NEXT: vmov r6, s16
	; CHECK-NEXT: vmov r7, s17			; CHECK-NEXT: vmov r7, s17
	; CHECK-NEXT: subs.w r6, r6, r9			; CHECK-NEXT: subs r6, r6, r2
				; CHECK-NEXT: mvn r2, #-2147483648
	; CHECK-NEXT: sbcs r7, r7, #0			; CHECK-NEXT: sbcs r7, r7, #0
	; CHECK-NEXT: vmov r6, s18			; CHECK-NEXT: vmov r6, s18
	; CHECK-NEXT: mov.w r7, #0			; CHECK-NEXT: mov.w r7, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r7, #1			; CHECK-NEXT: movlt r7, #1
	; CHECK-NEXT: cmp r7, #0			; CHECK-NEXT: cmp r7, #0
	; CHECK-NEXT: csetm r7, ne			; CHECK-NEXT: csetm r7, ne
	; CHECK-NEXT: vmov.32 q5[0], r7			; CHECK-NEXT: vmov.32 q5[0], r7
	; CHECK-NEXT: vmov.32 q5[1], r7			; CHECK-NEXT: vmov.32 q5[1], r7
	; CHECK-NEXT: vmov r7, s19			; CHECK-NEXT: vmov r7, s19
	; CHECK-NEXT: subs.w r6, r6, r9			; CHECK-NEXT: subs r6, r6, r2
	; CHECK-NEXT: vmov r6, s12			; CHECK-NEXT: vmov r6, s14
	; CHECK-NEXT: sbcs r7, r7, #0			; CHECK-NEXT: sbcs r7, r7, #0
	; CHECK-NEXT: mov.w r7, #0			; CHECK-NEXT: mov.w r7, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r7, #1			; CHECK-NEXT: movlt r7, #1
	; CHECK-NEXT: cmp r7, #0			; CHECK-NEXT: cmp r7, #0
	; CHECK-NEXT: csetm r7, ne			; CHECK-NEXT: csetm r7, ne
	; CHECK-NEXT: vmov.32 q5[2], r7			; CHECK-NEXT: vmov.32 q5[2], r7
	; CHECK-NEXT: vmov r7, s8			; CHECK-NEXT: vmov r7, s10
	; CHECK-NEXT: vbic q6, q1, q5			; CHECK-NEXT: vbic q6, q1, q5
	; CHECK-NEXT: vand q4, q4, q5			; CHECK-NEXT: vand q4, q4, q5
	; CHECK-NEXT: vorr q4, q4, q6			; CHECK-NEXT: vorr q4, q4, q6
	; CHECK-NEXT: smull r6, r7, r6, r7			; CHECK-NEXT: smull r6, r7, r6, r7
	; CHECK-NEXT: asrl r6, r7, #31			; CHECK-NEXT: asrl r6, r7, #31
	; CHECK-NEXT: rsbs.w r5, r6, #-2147483648			; CHECK-NEXT: rsbs.w r5, r6, #-2147483648
	; CHECK-NEXT: vmov.32 q3[0], r6			; CHECK-NEXT: sbcs.w r5, r9, r7
	; CHECK-NEXT: sbcs.w r5, r3, r7
	; CHECK-NEXT: vmov.32 q3[1], r7
	; CHECK-NEXT: mov.w r5, #0			; CHECK-NEXT: mov.w r5, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r5, #1			; CHECK-NEXT: movlt r5, #1
	; CHECK-NEXT: cmp r5, #0			; CHECK-NEXT: cmp r5, #0
	; CHECK-NEXT: csetm r5, ne			; CHECK-NEXT: vmov r5, s8
	; CHECK-NEXT: vmov.32 q5[0], r5			; CHECK-NEXT: csetm r2, ne
	; CHECK-NEXT: vmov.32 q5[1], r5
	; CHECK-NEXT: vmov r5, s10
	; CHECK-NEXT: smull r4, r5, r4, r5			; CHECK-NEXT: smull r4, r5, r4, r5
	; CHECK-NEXT: asrl r4, r5, #31			; CHECK-NEXT: asrl r4, r5, #31
	; CHECK-NEXT: rsbs.w r2, r4, #-2147483648			; CHECK-NEXT: rsbs.w r3, r4, #-2147483648
	; CHECK-NEXT: vmov.32 q3[2], r4			; CHECK-NEXT: vmov.32 q5[0], r4
	; CHECK-NEXT: sbcs.w r2, r3, r5			; CHECK-NEXT: sbcs.w r3, r9, r5
	; CHECK-NEXT: vmov.32 q3[3], r5			; CHECK-NEXT: vmov.32 q5[1], r5
	; CHECK-NEXT: mov.w r2, #0			; CHECK-NEXT: mov.w r3, #0
				; CHECK-NEXT: vmov.32 q5[2], r6
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r2, #1			; CHECK-NEXT: movlt r3, #1
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: csetm r2, ne			; CHECK-NEXT: csetm r3, ne
	; CHECK-NEXT: vmov.32 q5[2], r2			; CHECK-NEXT: vmov.32 q5[3], r7
	; CHECK-NEXT: vmov.32 q5[3], r2			; CHECK-NEXT: vmov.32 q2[0], r3
	; CHECK-NEXT: vbic q2, q0, q5			; CHECK-NEXT: mvn r4, #-2147483648
	; CHECK-NEXT: vand q3, q3, q5			; CHECK-NEXT: vmov.32 q2[1], r3
	; CHECK-NEXT: vorr q2, q3, q2			; CHECK-NEXT: vmov.32 q2[2], r2
	; CHECK-NEXT: vmov r7, s8			; CHECK-NEXT: vmov.32 q2[3], r2
				; CHECK-NEXT: vbic q3, q0, q2
				; CHECK-NEXT: vand q2, q5, q2
				; CHECK-NEXT: vorr q2, q2, q3
				; CHECK-NEXT: vmov r3, s8
	; CHECK-NEXT: vmov r2, s9			; CHECK-NEXT: vmov r2, s9
	; CHECK-NEXT: subs.w r7, r7, r9			; CHECK-NEXT: subs r3, r3, r4
	; CHECK-NEXT: sbcs r2, r2, #0			; CHECK-NEXT: sbcs r2, r2, #0
	; CHECK-NEXT: vmov r7, s10			; CHECK-NEXT: vmov r3, s10
	; CHECK-NEXT: mov.w r2, #0			; CHECK-NEXT: mov.w r2, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r2, #1			; CHECK-NEXT: movlt r2, #1
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: csetm r2, ne			; CHECK-NEXT: csetm r2, ne
	; CHECK-NEXT: vmov.32 q3[0], r2			; CHECK-NEXT: vmov.32 q3[0], r2
	; CHECK-NEXT: vmov.32 q3[1], r2			; CHECK-NEXT: vmov.32 q3[1], r2
	; CHECK-NEXT: vmov r2, s11			; CHECK-NEXT: vmov r2, s11
	; CHECK-NEXT: subs.w r7, r7, r9			; CHECK-NEXT: subs r3, r3, r4
	; CHECK-NEXT: sbcs r2, r2, #0			; CHECK-NEXT: sbcs r2, r2, #0
	; CHECK-NEXT: mov.w r2, #0			; CHECK-NEXT: mov.w r2, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r2, #1			; CHECK-NEXT: movlt r2, #1
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: csetm r2, ne			; CHECK-NEXT: csetm r2, ne
	; CHECK-NEXT: vmov.32 q3[2], r2			; CHECK-NEXT: vmov.32 q3[2], r2
	; CHECK-NEXT: vbic q5, q1, q3			; CHECK-NEXT: vbic q5, q1, q3
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vldrwt.u32 q4, [r0], #16			; CHECK-NEXT: vldrwt.u32 q4, [r0], #16
	; CHECK-NEXT: vmov.f32 s24, s18			; CHECK-NEXT: vmov.f32 s24, s18
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vldrwt.u32 q5, [r1], #16			; CHECK-NEXT: vldrwt.u32 q5, [r1], #16
	; CHECK-NEXT: vmov.f32 s28, s22			; CHECK-NEXT: vmov.f32 s28, s22
	; CHECK-NEXT: vmov.f32 s26, s19			; CHECK-NEXT: vmov.f32 s26, s19
	; CHECK-NEXT: vmov.f32 s30, s23			; CHECK-NEXT: vmov.f32 s30, s23
	; CHECK-NEXT: vmullb.s32 q0, q7, q6			; CHECK-NEXT: vmullb.s32 q0, q7, q6
	; CHECK-NEXT: vmov.f32 s18, s17
	; CHECK-NEXT: vmov r5, s1			; CHECK-NEXT: vmov r5, s1
	; CHECK-NEXT: vmov r6, s0			; CHECK-NEXT: vmov r6, s0
	; CHECK-NEXT: asrl r6, r5, #31			; CHECK-NEXT: asrl r6, r5, #31
	; CHECK-NEXT: vmov r7, s3			; CHECK-NEXT: vmov r7, s3
	; CHECK-NEXT: rsbs.w r4, r6, #-2147483648			; CHECK-NEXT: rsbs.w r4, r6, #-2147483648
	; CHECK-NEXT: vmov.32 q7[0], r6			; CHECK-NEXT: vmov.32 q7[0], r6
	; CHECK-NEXT: sbcs.w r4, r12, r5			; CHECK-NEXT: sbcs.w r4, r12, r5
	; CHECK-NEXT: vmov.32 q7[1], r5			; CHECK-NEXT: vmov.32 q7[1], r5
	; CHECK-NEXT: mov.w r4, #0			; CHECK-NEXT: mov.w r4, #0
	; CHECK-NEXT: vmov.f32 s22, s21
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r4, #1			; CHECK-NEXT: movlt r4, #1
	; CHECK-NEXT: cmp r4, #0			; CHECK-NEXT: cmp r4, #0
	; CHECK-NEXT: csetm r4, ne			; CHECK-NEXT: csetm r4, ne
	; CHECK-NEXT: vmov.32 q6[0], r4			; CHECK-NEXT: vmov.32 q6[0], r4
	; CHECK-NEXT: vmov.32 q6[1], r4			; CHECK-NEXT: vmov.32 q6[1], r4
	; CHECK-NEXT: vmov r4, s2			; CHECK-NEXT: vmov r4, s2
	; CHECK-NEXT: asrl r4, r7, #31			; CHECK-NEXT: asrl r4, r7, #31
	Show All 21 Lines
	; CHECK-NEXT: movlt r3, #1			; CHECK-NEXT: movlt r3, #1
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: csetm r3, ne			; CHECK-NEXT: csetm r3, ne
	; CHECK-NEXT: vmov.32 q0[0], r3			; CHECK-NEXT: vmov.32 q0[0], r3
	; CHECK-NEXT: vmov.32 q0[1], r3			; CHECK-NEXT: vmov.32 q0[1], r3
	; CHECK-NEXT: vmov r3, s27			; CHECK-NEXT: vmov r3, s27
	; CHECK-NEXT: subs.w r4, r4, r8			; CHECK-NEXT: subs.w r4, r4, r8
	; CHECK-NEXT: vmov r4, s20			; CHECK-NEXT: vmov r4, s20
				; CHECK-NEXT: vmov.f32 s22, s21
	; CHECK-NEXT: sbcs r3, r3, #0			; CHECK-NEXT: sbcs r3, r3, #0
	; CHECK-NEXT: mov.w r3, #0			; CHECK-NEXT: mov.w r3, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r3, #1			; CHECK-NEXT: movlt r3, #1
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: csetm r3, ne			; CHECK-NEXT: csetm r3, ne
	; CHECK-NEXT: vmov.32 q0[2], r3			; CHECK-NEXT: vmov.32 q0[2], r3
	; CHECK-NEXT: vmov r3, s16			; CHECK-NEXT: vmov r3, s16
				; CHECK-NEXT: vmov.f32 s18, s17
	; CHECK-NEXT: vbic q7, q3, q0			; CHECK-NEXT: vbic q7, q3, q0
	; CHECK-NEXT: vand q0, q6, q0			; CHECK-NEXT: vand q0, q6, q0
	; CHECK-NEXT: vorr q6, q0, q7			; CHECK-NEXT: vorr q6, q0, q7
	; CHECK-NEXT: smull r6, r5, r4, r3			; CHECK-NEXT: smull r6, r5, r4, r3
	; CHECK-NEXT: vmov r4, s22			; CHECK-NEXT: vmov r4, s22
	; CHECK-NEXT: asrl r6, r5, #31			; CHECK-NEXT: asrl r6, r5, #31
	; CHECK-NEXT: rsbs.w r3, r6, #-2147483648			; CHECK-NEXT: rsbs.w r3, r6, #-2147483648
	; CHECK-NEXT: sbcs.w r3, r12, r5			; CHECK-NEXT: sbcs.w r3, r12, r5
	▲ Show 20 Lines • Show All 2,982 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-sext-masked-load.ll

Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	entry:
ret <4 x float> %0		ret <4 x float> %0
}		}

define arm_aapcs_vfpcc <4 x double> @foo_v4i32(<4 x i32>* nocapture readonly %pSrc, i32 %blockSize, <4 x i32> %a) {		define arm_aapcs_vfpcc <4 x double> @foo_v4i32(<4 x i32>* nocapture readonly %pSrc, i32 %blockSize, <4 x i32> %a) {
; CHECK-LABEL: foo_v4i32:		; CHECK-LABEL: foo_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vpt.s32 lt, q0, zr		; CHECK-NEXT: vpt.s32 lt, q0, zr
; CHECK-NEXT: vldrwt.u32 q5, [r0]		; CHECK-NEXT: vldrwt.u32 q5, [r0]
; CHECK-NEXT: vmov.f64 d8, d10		; CHECK-NEXT: vmov.f64 d8, d11
; CHECK-NEXT: vmov.f32 s18, s21		; CHECK-NEXT: vmov.f32 s18, s23
; CHECK-NEXT: vmov r0, s18		; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: bl __aeabi_l2d		; CHECK-NEXT: bl __aeabi_l2d
; CHECK-NEXT: vmov r2, s16		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov d9, r0, r1		; CHECK-NEXT: vmov d9, r0, r1
; CHECK-NEXT: asrs r3, r2, #31		; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: mov r0, r2		; CHECK-NEXT: mov r0, r2
; CHECK-NEXT: mov r1, r3		; CHECK-NEXT: mov r1, r3
; CHECK-NEXT: bl __aeabi_l2d		; CHECK-NEXT: bl __aeabi_l2d
; CHECK-NEXT: vmov.f64 d12, d11		; CHECK-NEXT: vmov.f32 s22, s21
; CHECK-NEXT: vmov.f32 s26, s23
; CHECK-NEXT: vmov d8, r0, r1		; CHECK-NEXT: vmov d8, r0, r1
; CHECK-NEXT: vmov r2, s26		; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: asrs r3, r2, #31		; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: mov r0, r2		; CHECK-NEXT: mov r0, r2
; CHECK-NEXT: mov r1, r3		; CHECK-NEXT: mov r1, r3
; CHECK-NEXT: bl __aeabi_l2d		; CHECK-NEXT: bl __aeabi_l2d
; CHECK-NEXT: vmov r2, s24		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov d11, r0, r1		; CHECK-NEXT: vmov d11, r0, r1
; CHECK-NEXT: asrs r3, r2, #31		; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: mov r0, r2		; CHECK-NEXT: mov r0, r2
; CHECK-NEXT: mov r1, r3		; CHECK-NEXT: mov r1, r3
; CHECK-NEXT: bl __aeabi_l2d		; CHECK-NEXT: bl __aeabi_l2d
; CHECK-NEXT: vmov d10, r0, r1		; CHECK-NEXT: vmov d10, r0, r1
; CHECK-NEXT: vmov q0, q4		; CHECK-NEXT: vmov q1, q4
; CHECK-NEXT: vmov q1, q5		; CHECK-NEXT: vmov q0, q5
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%active.lane.mask = icmp slt <4 x i32> %a, zeroinitializer		%active.lane.mask = icmp slt <4 x i32> %a, zeroinitializer
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %pSrc, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %pSrc, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
%0 = sitofp <4 x i32> %wide.masked.load to <4 x double>		%0 = sitofp <4 x i32> %wide.masked.load to <4 x double>
ret <4 x double> %0		ret <4 x double> %0
}		}

declare <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>*, i32 immarg, <4 x i1>, <4 x i16>)		declare <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>*, i32 immarg, <4 x i1>, <4 x i16>)

declare <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>*, i32 immarg, <8 x i1>, <8 x i8>)		declare <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>*, i32 immarg, <8 x i1>, <8 x i8>)

declare <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>*, i32 immarg, <4 x i1>, <4 x i8>)		declare <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>*, i32 immarg, <4 x i1>, <4 x i8>)

declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: shuffle3_i16:			; CHECK-LABEL: shuffle3_i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov.u16 r0, q0[7]			; CHECK-NEXT: vmov.u16 r0, q0[7]
	; CHECK-NEXT: vmov.16 q0[2], r0			; CHECK-NEXT: vmov.16 q0[2], r0
	; CHECK-NEXT: vmov.u16 r0, q1[6]			; CHECK-NEXT: vmov.u16 r0, q1[6]
	; CHECK-NEXT: vmov.16 q0[3], r0			; CHECK-NEXT: vmov.16 q0[3], r0
	; CHECK-NEXT: vmov.u16 r0, q1[3]			; CHECK-NEXT: vmov.u16 r0, q1[3]
	; CHECK-NEXT: vmov.16 q0[4], r0			; CHECK-NEXT: vmov q2, q0
				; CHECK-NEXT: vmov.f32 s0, s6
				; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmov.u16 r0, q1[1]			; CHECK-NEXT: vmov.u16 r0, q1[1]
	; CHECK-NEXT: vmov.16 q0[5], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov.u16 r0, q1[2]			; CHECK-NEXT: vmov.u16 r0, q1[2]
	; CHECK-NEXT: vmov.16 q0[6], r0			; CHECK-NEXT: vmov q3, q2
				; CHECK-NEXT: vmov.f32 s2, s10
				; CHECK-NEXT: vmov.16 q3[6], r0
	; CHECK-NEXT: vmov.u16 r0, q1[0]			; CHECK-NEXT: vmov.u16 r0, q1[0]
	; CHECK-NEXT: vmov.16 q0[7], r0			; CHECK-NEXT: vmov.16 q3[7], r0
	; CHECK-NEXT: vmov.f32 s0, s6			; CHECK-NEXT: vmov.f32 s3, s15
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>			%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @shuffle5_i16(<8 x i16> %src) {			define arm_aapcs_vfpcc <8 x i16> @shuffle5_i16(<8 x i16> %src) {
	; CHECK-LABEL: shuffle5_i16:			; CHECK-LABEL: shuffle5_i16:
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	}			}

	define arm_aapcs_vfpcc <8 x half> @shuffle3_f16(<8 x half> %src) {			define arm_aapcs_vfpcc <8 x half> @shuffle3_f16(<8 x half> %src) {
	; CHECK-LABEL: shuffle3_f16:			; CHECK-LABEL: shuffle3_f16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovx.f16 s4, s3			; CHECK-NEXT: vmovx.f16 s4, s3
	; CHECK-NEXT: vmov r0, s3			; CHECK-NEXT: vmov r0, s3
	; CHECK-NEXT: vmov r1, s4			; CHECK-NEXT: vmov r1, s4
	; CHECK-NEXT: vmovx.f16 s8, s1			; CHECK-NEXT: vmovx.f16 s8, s0
	; CHECK-NEXT: vmov.16 q1[2], r1			; CHECK-NEXT: vmov.16 q1[2], r1
	; CHECK-NEXT: vmov.16 q1[3], r0			; CHECK-NEXT: vmov.16 q1[3], r0
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vmovx.f16 s8, s0			; CHECK-NEXT: vmovx.f16 s8, s1
	; CHECK-NEXT: vmov.16 q1[4], r0			; CHECK-NEXT: vmov r1, s8
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vmov.16 q1[5], r0			; CHECK-NEXT: vmov.16 q2[4], r1
	; CHECK-NEXT: vmov r0, s1			; CHECK-NEXT: vmov r1, s1
	; CHECK-NEXT: vmov.16 q1[6], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q1[7], r0
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmov.f32 s4, s2
				; CHECK-NEXT: vmov q3, q2
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vmov.16 q3[6], r1
				; CHECK-NEXT: vmov.f32 s6, s10
				; CHECK-NEXT: vmov.16 q3[7], r0
				; CHECK-NEXT: vmov.f32 s7, s15
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>			%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>
	ret <8 x half> %out			ret <8 x half> %out
	}			}

	define arm_aapcs_vfpcc <8 x half> @shuffle5_f16(<8 x half> %src) {			define arm_aapcs_vfpcc <8 x half> @shuffle5_f16(<8 x half> %src) {
	▲ Show 20 Lines • Show All 312 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-soft-float-abi.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; CHECK-FP-NEXT: vmov r1, s4			; CHECK-FP-NEXT: vmov r1, s4
	; CHECK-FP-NEXT: adc.w r12, r0, r2			; CHECK-FP-NEXT: adc.w r12, r0, r2
	; CHECK-FP-NEXT: vmov r2, s1			; CHECK-FP-NEXT: vmov r2, s1
	; CHECK-FP-NEXT: vmov r0, s5			; CHECK-FP-NEXT: vmov r0, s5
	; CHECK-FP-NEXT: adds r1, r1, r3			; CHECK-FP-NEXT: adds r1, r1, r3
	; CHECK-FP-NEXT: vmov.32 q0[0], r1			; CHECK-FP-NEXT: vmov.32 q0[0], r1
	; CHECK-FP-NEXT: adcs r0, r2			; CHECK-FP-NEXT: adcs r0, r2
	; CHECK-FP-NEXT: vmov.32 q0[1], r0			; CHECK-FP-NEXT: vmov.32 q0[1], r0
	; CHECK-FP-NEXT: vmov.32 q0[2], lr			; CHECK-FP-NEXT: vmov q1, q0
	; CHECK-FP-NEXT: vmov.32 q0[3], r12
	; CHECK-FP-NEXT: vmov r0, r1, d0			; CHECK-FP-NEXT: vmov r0, r1, d0
	; CHECK-FP-NEXT: vmov r2, r3, d1			; CHECK-FP-NEXT: vmov.32 q1[2], lr
				; CHECK-FP-NEXT: vmov.32 q1[3], r12
				; CHECK-FP-NEXT: vmov r2, r3, d3
	; CHECK-FP-NEXT: pop {r7, pc}			; CHECK-FP-NEXT: pop {r7, pc}
	entry:			entry:
	%sum = add <2 x i64> %lhs, %rhs			%sum = add <2 x i64> %lhs, %rhs
	ret <2 x i64> %sum			ret <2 x i64> %sum
	}			}

	define <8 x half> @vector_add_f16(<8 x half> %lhs, <8 x half> %rhs) {			define <8 x half> @vector_add_f16(<8 x half> %lhs, <8 x half> %rhs) {
	; CHECK-FP-LABEL: vector_add_f16:			; CHECK-FP-LABEL: vector_add_f16:
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-add.ll

Show All 30 Lines	entry:
%xx = sext <4 x i32> %x to <4 x i64>		%xx = sext <4 x i32> %x to <4 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x) {
; CHECK-LABEL: add_v2i32_v2i64_zext:		; CHECK-LABEL: add_v2i32_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q1, #0xffffffff
; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_sext(<2 x i32> %x) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_sext(<2 x i32> %x) {
; CHECK-LABEL: add_v2i32_v2i64_sext:		; CHECK-LABEL: add_v2i32_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i32> %x to <2 x i64>		%xx = sext <2 x i32> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_zext(<8 x i16> %x) {		define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_zext(<8 x i16> %x) {
; CHECK-LABEL: add_v8i16_v8i64_zext:		; CHECK-LABEL: add_v8i16_v8i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r0, q0[0]		; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i64 q1, #0xffff
; CHECK-NEXT: vmov.32 q2[0], r0		; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[1]		; CHECK-NEXT: vmov.u16 r0, q0[1]
; CHECK-NEXT: vmov.32 q2[2], r0		; CHECK-NEXT: vmov.32 q2[2], r0
		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov r1, s8		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov.u16 r1, q0[2]		; CHECK-NEXT: vmov.u16 r1, q0[2]
; CHECK-NEXT: vmov.32 q3[0], r1		; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[3]		; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: vmov.32 q3[2], r1		; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r1, s12		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s14		; CHECK-NEXT: vmov r1, s10
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov.u16 r1, q0[4]		; CHECK-NEXT: vmov.u16 r1, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r1		; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[5]		; CHECK-NEXT: vmov.u16 r1, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r1		; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r1, s12		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s15		; CHECK-NEXT: vmov r1, s10
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: vmov.u16 r2, q0[6]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vand q0, q2, q1		; CHECK-NEXT: vand q0, q2, q1
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i16> %x to <8 x i64>		%xx = zext <8 x i16> %x to <8 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_sext(<8 x i16> %x) {		define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_sext(<8 x i16> %x) {
; CHECK-LABEL: add_v8i16_v8i64_sext:		; CHECK-LABEL: add_v8i16_v8i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r0, q0[0]		; CHECK-NEXT: vmov.u16 r0, q0[0]
		; CHECK-NEXT: vmov.u16 r2, q0[1]
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: vmov.32 q1[0], r0		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: asrs r0, r0, #31
; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[1]
; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: vmov.32 q1[3], r1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov r1, s5		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r12, r1, r0, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u16 r1, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: sxth r1, r1		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[0], r1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r1, r1, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: sxth r1, r1
; CHECK-NEXT: vmov.32 q1[2], r1
; CHECK-NEXT: asrs r3, r1, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r2, r12, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r2, r1, asr #31
; CHECK-NEXT: vmov.u16 r2, q0[4]		; CHECK-NEXT: vmov.u16 r2, q0[4]
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u16 r2, q0[5]		; CHECK-NEXT: vmov.u16 r2, q0[5]
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u16 r2, q0[6]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i16> %x to <8 x i64>		%xx = sext <8 x i16> %x to <8 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_zext(<2 x i16> %x) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_zext(<2 x i16> %x) {
; CHECK-LABEL: add_v2i16_v2i64_zext:		; CHECK-LABEL: add_v2i16_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i32 q1, #0xffff
; CHECK-NEXT: vand q0, q0, q1		; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_sext(<2 x i16> %x) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_sext(<2 x i16> %x) {
; CHECK-LABEL: add_v2i16_v2i64_sext:		; CHECK-LABEL: add_v2i16_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i16> %x to <2 x i64>		%xx = sext <2 x i16> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_zext(<16 x i8> %x) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_zext(<16 x i8> %x) {
; CHECK-LABEL: add_v16i8_v16i64_zext:		; CHECK-LABEL: add_v16i8_v16i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i64 q1, #0xff
; CHECK-NEXT: vmov.32 q2[0], r0		; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.32 q2[2], r0		; CHECK-NEXT: vmov.32 q2[2], r0
		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov r1, s8		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov.u8 r1, q0[2]		; CHECK-NEXT: vmov.u8 r1, q0[2]
; CHECK-NEXT: vmov.32 q3[0], r1		; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]		; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: vmov.32 q3[2], r1		; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r1, s12		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s14		; CHECK-NEXT: vmov r1, s10
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov.u8 r1, q0[4]		; CHECK-NEXT: vmov.u8 r1, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r1		; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[5]		; CHECK-NEXT: vmov.u8 r1, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r1		; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r1, s12		; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s15		; CHECK-NEXT: vmov r1, s10
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u8 r2, q0[8]		; CHECK-NEXT: vmov.u8 r2, q0[8]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[9]		; CHECK-NEXT: vmov.u8 r2, q0[9]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u8 r2, q0[10]		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u8 r2, q0[12]		; CHECK-NEXT: vmov.u8 r2, q0[12]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[13]		; CHECK-NEXT: vmov.u8 r2, q0[13]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u8 r2, q0[14]		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[15]		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q0, q2, q1		; CHECK-NEXT: vand q0, q2, q1
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_sext(<16 x i8> %x) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_sext(<16 x i8> %x) {
; CHECK-LABEL: add_v16i8_v16i64_sext:		; CHECK-LABEL: add_v16i8_v16i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
		; CHECK-NEXT: vmov.u8 r2, q0[1]
; CHECK-NEXT: sxtb r0, r0		; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: vmov.32 q1[0], r0		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: asrs r0, r0, #31
; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: vmov.32 q1[3], r1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: vmov r1, s5		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r12, r1, r0, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r1, q0[2]		; CHECK-NEXT: vmov.u8 r2, q0[3]
; CHECK-NEXT: sxtb r1, r1		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r1, r1, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: sxtb r1, r1
; CHECK-NEXT: vmov.32 q1[2], r1
; CHECK-NEXT: asrs r3, r1, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r2, r12, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r2, r1, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[4]		; CHECK-NEXT: vmov.u8 r2, q0[4]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[5]		; CHECK-NEXT: vmov.u8 r2, q0[5]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[8]		; CHECK-NEXT: vmov.u8 r2, q0[8]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[9]		; CHECK-NEXT: vmov.u8 r2, q0[9]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[10]		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[12]		; CHECK-NEXT: vmov.u8 r2, q0[12]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[13]		; CHECK-NEXT: vmov.u8 r2, q0[13]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[14]		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[15]		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i64>		%xx = sext <16 x i8> %x to <16 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_zext(<2 x i8> %x) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_zext(<2 x i8> %x) {
; CHECK-LABEL: add_v2i8_v2i64_zext:		; CHECK-LABEL: add_v2i8_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i32 q1, #0xff
; CHECK-NEXT: vand q0, q0, q1		; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_sext(<2 x i8> %x) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_sext(<2 x i8> %x) {
; CHECK-LABEL: add_v2i8_v2i64_sext:		; CHECK-LABEL: add_v2i8_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: sxtb r0, r0		; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: asrs r1, r0, #31		; CHECK-NEXT: asrs r1, r0, #31
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r2, asr #31		; CHECK-NEXT: adc.w r1, r1, r2, asr #31
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i8> %x to <2 x i64>		%xx = sext <2 x i8> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, i64 %a) {
; CHECK-LABEL: add_v2i32_v2i64_acc_zext:		; CHECK-LABEL: add_v2i32_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.i64 q1, #0xffffffff
; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov r12, s3
; CHECK-NEXT: vmov lr, s1
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, lr, r12		; CHECK-NEXT: adc r3, r12, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_sext(<2 x i32> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_sext(<2 x i32> %x, i64 %a) {
; CHECK-LABEL: add_v2i32_v2i64_acc_sext:		; CHECK-LABEL: add_v2i32_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.32 q1[0], r2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: asr.w r12, r2, #31
; CHECK-NEXT: vmov.32 q1[1], r2		; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: vmov r12, s4		; CHECK-NEXT: adc.w r3, r12, r3, asr #31
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r2, r2, r3, asr #31		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i32> %x to <2 x i64>		%xx = sext <2 x i32> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	entry:
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %x)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %x)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_acc_zext(<8 x i16> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_acc_zext(<8 x i16> %x, i64 %a) {
; CHECK-LABEL: add_v8i16_v8i64_acc_zext:		; CHECK-LABEL: add_v8i16_v8i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.u16 r2, q0[0]		; CHECK-NEXT: vmov.u16 r2, q0[0]
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i64 q1, #0xffff
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[1]		; CHECK-NEXT: vmov.u16 r2, q0[1]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov.u16 r3, q0[2]		; CHECK-NEXT: vmov.u16 r3, q0[2]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.u16 r3, q0[3]		; CHECK-NEXT: vmov.u16 r3, q0[3]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov.u16 r3, q0[4]		; CHECK-NEXT: vmov.u16 r3, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.u16 r3, q0[5]		; CHECK-NEXT: vmov.u16 r3, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov lr, s15		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: add.w r12, r2, r3		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: adds.w lr, r2, r3
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds.w r4, r12, r3
; CHECK-NEXT: adc.w r12, r2, lr
; CHECK-NEXT: vmov.u16 r2, q0[6]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r3, r12, #0
; CHECK-NEXT: vand q0, q2, q1		; CHECK-NEXT: vand q0, q2, q1
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds.w r12, lr, r2
; CHECK-NEXT: adds r3, r3, r4
; CHECK-NEXT: vmov r4, s3
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w r3, r12, r4		; CHECK-NEXT: adds.w r2, r2, r12
		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = zext <8 x i16> %x to <8 x i64>		%xx = zext <8 x i16> %x to <8 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_acc_sext(<8 x i16> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v8i16_v8i64_acc_sext(<8 x i16> %x, i64 %a) {
; CHECK-LABEL: add_v8i16_v8i64_acc_sext:		; CHECK-LABEL: add_v8i16_v8i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.u16 r2, q0[0]		; CHECK-NEXT: vmov.u16 r2, q0[0]
		; CHECK-NEXT: vmov.u16 r3, q0[1]
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: asr.w r12, r2, #31
; CHECK-NEXT: vmov.32 q1[1], r2		; CHECK-NEXT: adds.w lr, r2, r3
; CHECK-NEXT: vmov.u16 r2, q0[1]
; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov lr, s6
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r12, s5
; CHECK-NEXT: adds.w lr, lr, r3
; CHECK-NEXT: adc.w r12, r12, r2, asr #31
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
		; CHECK-NEXT: adc.w r3, r12, r3, asr #31
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds.w r12, lr, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r2, r3, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2		; CHECK-NEXT: vmov.u16 r3, q0[3]
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: asrs r3, r2, #31		; CHECK-NEXT: vmov.u16 r3, q0[4]
; CHECK-NEXT: vmov.32 q1[3], r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: vmov r4, s4		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov r3, s5		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: adds.w r4, r4, lr		; CHECK-NEXT: vmov.u16 r3, q0[5]
; CHECK-NEXT: adc.w r12, r12, r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: vmov r3, s6		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: adds.w lr, r4, r3		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov.u16 r4, q0[4]		; CHECK-NEXT: vmov.u16 r3, q0[6]
; CHECK-NEXT: sxth r4, r4		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: adc.w r12, r12, r2, asr #31		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.32 q1[0], r4		; CHECK-NEXT: adc.w lr, r2, r3, asr #31
; CHECK-NEXT: asrs r4, r4, #31		; CHECK-NEXT: vmov.u16 r3, q0[7]
; CHECK-NEXT: vmov.32 q1[1], r4		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: vmov.u16 r4, q0[5]		; CHECK-NEXT: adds.w r2, r12, r3
; CHECK-NEXT: sxth r4, r4		; CHECK-NEXT: adc.w r3, lr, r3, asr #31
; CHECK-NEXT: vmov.32 q1[2], r4
; CHECK-NEXT: asrs r2, r4, #31
; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, r12, r4, asr #31
; CHECK-NEXT: vmov.u16 r4, q0[6]
; CHECK-NEXT: sxth r4, r4
; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adc.w r3, r3, r4, asr #31
; CHECK-NEXT: vmov.u16 r4, q0[7]
; CHECK-NEXT: sxth r4, r4
; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adc.w r3, r3, r4, asr #31
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = sext <8 x i16> %x to <8 x i64>		%xx = sext <8 x i16> %x to <8 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_zext(<2 x i16> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_zext(<2 x i16> %x, i64 %a) {
; CHECK-LABEL: add_v2i16_v2i64_acc_zext:		; CHECK-LABEL: add_v2i16_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i32 q1, #0xffff
; CHECK-NEXT: vand q0, q0, q1		; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_sext(<2 x i16> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_sext(<2 x i16> %x, i64 %a) {
; CHECK-LABEL: add_v2i16_v2i64_acc_sext:		; CHECK-LABEL: add_v2i16_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: asr.w r12, r2, #31
; CHECK-NEXT: asrs r2, r2, #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: sxth r3, r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: vmov r12, s4		; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: adc.w r3, r12, r3, asr #31
; CHECK-NEXT: adc.w r2, r2, r3, asr #31		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds.w r0, r0, r12		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i16> %x to <2 x i64>		%xx = sext <2 x i16> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	entry:
%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %x)		%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %x)
%r = add i8 %z, %a		%r = add i8 %z, %a
ret i8 %r		ret i8 %r
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_zext(<16 x i8> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_zext(<16 x i8> %x, i64 %a) {
; CHECK-LABEL: add_v16i8_v16i64_acc_zext:		; CHECK-LABEL: add_v16i8_v16i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.u8 r2, q0[0]		; CHECK-NEXT: vmov.u8 r2, q0[0]
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i64 q1, #0xff
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[1]		; CHECK-NEXT: vmov.u8 r2, q0[1]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov.u8 r3, q0[2]		; CHECK-NEXT: vmov.u8 r3, q0[2]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[3]		; CHECK-NEXT: vmov.u8 r3, q0[3]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov.u8 r3, q0[4]		; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[5]		; CHECK-NEXT: vmov.u8 r3, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov lr, s15		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: add.w r12, r2, r3		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: adds.w lr, r2, r3
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds.w r4, r12, r3
; CHECK-NEXT: adc.w r12, r2, lr
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r3, r12, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: adds.w r12, lr, r2
; CHECK-NEXT: adds r3, r3, r4
; CHECK-NEXT: vmov r4, s11
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r3, r2		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w r3, r12, r4		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov.u8 r4, q0[8]		; CHECK-NEXT: vmov.u8 r2, q0[8]
; CHECK-NEXT: vmov.32 q2[0], r4		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r4, q0[9]		; CHECK-NEXT: vmov.u8 r2, q0[9]
; CHECK-NEXT: vmov.32 q2[2], r4		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r4, s9		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r12, lr, r2
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov r4, s11
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: vmov.u8 r4, q0[10]		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q2[0], r4		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: vmov.u8 r4, q0[11]		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[2], r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r4, s9
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov r4, s11
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: vmov.u8 r2, q0[12]
; CHECK-NEXT: vmov.u8 r4, q0[12]		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q2[0], r4		; CHECK-NEXT: vmov.u8 r2, q0[13]
; CHECK-NEXT: vmov.u8 r4, q0[13]		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[2], r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vand q2, q2, q1		; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r4, s9
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov r4, s11
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov.u8 r4, q0[14]		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q2[0], r4		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: vmov.u8 r4, q0[15]		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[2], r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vand q0, q2, q1		; CHECK-NEXT: vand q0, q2, q1
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r4, s1
; CHECK-NEXT: adds.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov r4, s3
; CHECK-NEXT: adds.w r2, r2, r12		; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_sext(<16 x i8> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_sext(<16 x i8> %x, i64 %a) {
; CHECK-LABEL: add_v16i8_v16i64_acc_sext:		; CHECK-LABEL: add_v16i8_v16i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.u8 r2, q0[0]		; CHECK-NEXT: vmov.u8 r2, q0[0]
		; CHECK-NEXT: vmov.u8 r3, q0[1]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: asr.w r12, r2, #31
; CHECK-NEXT: vmov.32 q1[1], r2		; CHECK-NEXT: adds.w lr, r2, r3
; CHECK-NEXT: vmov.u8 r2, q0[1]
; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[2], r2
; CHECK-NEXT: asrs r3, r2, #31
; CHECK-NEXT: vmov.32 q1[3], r3
; CHECK-NEXT: vmov lr, s6
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r12, s5
; CHECK-NEXT: adds.w lr, lr, r3
; CHECK-NEXT: adc.w r12, r12, r2, asr #31
; CHECK-NEXT: vmov.u8 r2, q0[2]		; CHECK-NEXT: vmov.u8 r2, q0[2]
		; CHECK-NEXT: adc.w r3, r12, r3, asr #31
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: adds.w r12, lr, r2
; CHECK-NEXT: asrs r2, r2, #31		; CHECK-NEXT: adc.w r2, r3, r2, asr #31
; CHECK-NEXT: vmov.32 q1[1], r2		; CHECK-NEXT: vmov.u8 r3, q0[3]
; CHECK-NEXT: vmov.u8 r2, q0[3]		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: asrs r3, r2, #31		; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: vmov.32 q1[3], r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov r4, s4		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov r3, s5		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: adds.w r4, r4, lr		; CHECK-NEXT: vmov.u8 r3, q0[5]
; CHECK-NEXT: adc.w r12, r12, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov r3, s6		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: adds.w lr, r4, r3		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[4]		; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: adc.w r12, r12, r2, asr #31		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.32 q1[0], r4		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: asrs r4, r4, #31		; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: vmov.32 q1[1], r4		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov.u8 r4, q0[5]		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov.32 q1[2], r4		; CHECK-NEXT: vmov.u8 r3, q0[8]
; CHECK-NEXT: asrs r2, r4, #31		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov.32 q1[3], r2		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov.u8 r3, q0[9]
; CHECK-NEXT: adds.w r3, r3, lr		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: adc.w r12, r12, r2		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: adds.w lr, r3, r2		; CHECK-NEXT: vmov.u8 r3, q0[10]
; CHECK-NEXT: adc.w r12, r12, r4, asr #31		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov.u8 r4, q0[6]		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov.32 q1[0], r4		; CHECK-NEXT: vmov.u8 r3, q0[11]
; CHECK-NEXT: asrs r4, r4, #31		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov.32 q1[1], r4		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.u8 r4, q0[7]		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: vmov.u8 r3, q0[12]
; CHECK-NEXT: vmov.32 q1[2], r4		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: asrs r2, r4, #31		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.32 q1[3], r2		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov.u8 r3, q0[13]
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: adds.w r3, r3, lr		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: adc.w r12, r12, r2		; CHECK-NEXT: adc.w r2, r2, r3, asr #31
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov.u8 r3, q0[14]
; CHECK-NEXT: adds.w lr, r3, r2		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: adc.w r12, r12, r4, asr #31		; CHECK-NEXT: adds.w r12, r12, r3
; CHECK-NEXT: vmov.u8 r4, q0[8]		; CHECK-NEXT: adc.w lr, r2, r3, asr #31
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: vmov.u8 r3, q0[15]
; CHECK-NEXT: vmov.32 q1[0], r4		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: asrs r4, r4, #31		; CHECK-NEXT: adds.w r2, r12, r3
; CHECK-NEXT: vmov.32 q1[1], r4		; CHECK-NEXT: adc.w r3, lr, r3, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[9]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: vmov.32 q1[2], r4
; CHECK-NEXT: asrs r2, r4, #31
; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: adc.w r12, r12, r4, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[10]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: vmov.32 q1[0], r4
; CHECK-NEXT: asrs r4, r4, #31
; CHECK-NEXT: vmov.32 q1[1], r4
; CHECK-NEXT: vmov.u8 r4, q0[11]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: vmov.32 q1[2], r4
; CHECK-NEXT: asrs r2, r4, #31
; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: adc.w r12, r12, r4, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[12]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: vmov.32 q1[0], r4
; CHECK-NEXT: asrs r4, r4, #31
; CHECK-NEXT: vmov.32 q1[1], r4
; CHECK-NEXT: vmov.u8 r4, q0[13]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: vmov.32 q1[2], r4
; CHECK-NEXT: asrs r2, r4, #31
; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, r12, r4, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[14]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adc.w r3, r3, r4, asr #31
; CHECK-NEXT: vmov.u8 r4, q0[15]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adc.w r3, r3, r4, asr #31
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i64>		%xx = sext <16 x i8> %x to <16 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_zext(<2 x i8> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_zext(<2 x i8> %x, i64 %a) {
; CHECK-LABEL: add_v2i8_v2i64_acc_zext:		; CHECK-LABEL: add_v2i8_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i32 q1, #0xff
; CHECK-NEXT: vand q0, q0, q1		; CHECK-NEXT: vand q0, q0, q1
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_sext(<2 x i8> %x, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_sext(<2 x i8> %x, i64 %a) {
; CHECK-LABEL: add_v2i8_v2i64_acc_sext:		; CHECK-LABEL: add_v2i8_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: asr.w r12, r2, #31
; CHECK-NEXT: asrs r2, r2, #31
; CHECK-NEXT: vmov.32 q1[1], r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov r12, s4		; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: adc.w r3, r12, r3, asr #31
; CHECK-NEXT: adc.w r2, r2, r3, asr #31		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds.w r0, r0, r12		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i8> %x to <2 x i64>		%xx = sext <2 x i8> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

Show All 30 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-addpred.ll

Show All 40 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %s)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x, <2 x i32> %b) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x, <2 x i32> %b) {
; CHECK-LABEL: add_v2i32_v2i64_zext:		; CHECK-LABEL: add_v2i32_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.i64 q2, #0xffffffff		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q2[0], r0		; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q2[2], r0		; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i32> %b, zeroinitializer		%c = icmp eq <2 x i32> %b, zeroinitializer
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
; CHECK-NEXT: vmov.32 q1[3], r0		; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vcmp.i32 ne, q1, zr		; CHECK-NEXT: vcmp.i32 ne, q1, zr
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i64 q1, #0xffff
; CHECK-NEXT: vmrs r0, p0		; CHECK-NEXT: vmrs r0, p0
; CHECK-NEXT: and r1, r0, #1		; CHECK-NEXT: and r1, r0, #1
; CHECK-NEXT: rsbs r1, r1, #0		; CHECK-NEXT: rsbs r1, r1, #0
; CHECK-NEXT: vmov.32 q3[0], r1		; CHECK-NEXT: vmov.32 q3[0], r1
; CHECK-NEXT: vmov.32 q3[1], r1
; CHECK-NEXT: ubfx r1, r0, #4, #1		; CHECK-NEXT: ubfx r1, r0, #4, #1
; CHECK-NEXT: rsbs r1, r1, #0		; CHECK-NEXT: rsbs r1, r1, #0
; CHECK-NEXT: vmov.32 q3[2], r1		; CHECK-NEXT: vmov.32 q3[2], r1
; CHECK-NEXT: vmov.32 q3[3], r1
; CHECK-NEXT: vmov.u16 r1, q0[0]		; CHECK-NEXT: vmov.u16 r1, q0[0]
; CHECK-NEXT: vmov.32 q4[0], r1		; CHECK-NEXT: vmov.32 q4[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[1]		; CHECK-NEXT: vmov.u16 r1, q0[1]
; CHECK-NEXT: vmov.32 q4[2], r1		; CHECK-NEXT: vmov.32 q4[2], r1
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r1, s15		; CHECK-NEXT: vmov r1, s14
; CHECK-NEXT: vmov r2, s13		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: add r1, r2
; CHECK-NEXT: orrs r1, r2		; CHECK-NEXT: ubfx r2, r0, #8, #1
; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: add r2, r3
; CHECK-NEXT: ubfx r3, r0, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r0, r0, #12, #1		; CHECK-NEXT: ubfx r0, r0, #12, #1
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: rsbs r0, r0, #0		; CHECK-NEXT: rsbs r0, r0, #0
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov.32 q4[0], r0		; CHECK-NEXT: vmov.32 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[3]		; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov.32 q4[2], r0		; CHECK-NEXT: vmov.32 q4[2], r0
		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmov r0, s13		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: vmov r3, s15		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: adcs r1, r0		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r0, s14
; CHECK-NEXT: adds.w r12, r2, r0
; CHECK-NEXT: vmov.u16 r2, q2[4]		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.32 q3[1], r2		; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.32 q3[3], r2		; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vcmp.i32 ne, q3, zr		; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q2[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov.u16 r3, q0[4]		; CHECK-NEXT: vmov.u16 r3, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u16 r3, q0[5]		; CHECK-NEXT: vmov.u16 r3, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q2, q3, q2		; CHECK-NEXT: vand q2, q3, q2
; CHECK-NEXT: vmov r0, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r3, s9		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adds.w r12, r12, r0		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: vmov r3, s11
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r2
; CHECK-NEXT: vmov.u16 r2, q0[6]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q0, q3, q1		; CHECK-NEXT: vand q0, q3, q1
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <8 x i16> %b, zeroinitializer		%c = icmp eq <8 x i16> %b, zeroinitializer
%xx = zext <8 x i16> %x to <8 x i64>		%xx = zext <8 x i16> %x to <8 x i64>
%s = select <8 x i1> %c, <8 x i64> %xx, <8 x i64> zeroinitializer		%s = select <8 x i1> %c, <8 x i64> %xx, <8 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %s)
ret i64 %z		ret i64 %z
▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q3[0], r0		; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.32 q3[1], r0
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vand q0, q0, q3		; CHECK-NEXT: vand q0, q0, q3
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: orrs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i16> %b, zeroinitializer		%c = icmp eq <2 x i16> %b, zeroinitializer
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u16 r0, q5[3]		; CHECK-NEXT: vmov.u16 r0, q5[3]
; CHECK-NEXT: vmov.32 q1[3], r0		; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vcmp.i32 ne, q1, zr		; CHECK-NEXT: vcmp.i32 ne, q1, zr
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i64 q1, #0xff
; CHECK-NEXT: vmrs r0, p0		; CHECK-NEXT: vmrs r0, p0
; CHECK-NEXT: and r1, r0, #1		; CHECK-NEXT: and r1, r0, #1
; CHECK-NEXT: rsbs r1, r1, #0		; CHECK-NEXT: rsbs r1, r1, #0
; CHECK-NEXT: vmov.32 q6[0], r1		; CHECK-NEXT: vmov.32 q6[0], r1
; CHECK-NEXT: vmov.32 q6[1], r1
; CHECK-NEXT: ubfx r1, r0, #4, #1		; CHECK-NEXT: ubfx r1, r0, #4, #1
; CHECK-NEXT: rsbs r1, r1, #0		; CHECK-NEXT: rsbs r1, r1, #0
; CHECK-NEXT: vmov.32 q6[2], r1		; CHECK-NEXT: vmov.32 q6[2], r1
; CHECK-NEXT: vmov.32 q6[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[0]		; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmov.32 q7[0], r1		; CHECK-NEXT: vmov.32 q7[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]		; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.32 q7[2], r1		; CHECK-NEXT: vmov.32 q7[2], r1
; CHECK-NEXT: vand q7, q7, q1		; CHECK-NEXT: vand q7, q7, q1
; CHECK-NEXT: vand q6, q7, q6		; CHECK-NEXT: vand q6, q7, q6
; CHECK-NEXT: vmov r1, s27		; CHECK-NEXT: vmov r1, s26
; CHECK-NEXT: vmov r2, s25		; CHECK-NEXT: vmov r2, s24
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: add r1, r2
; CHECK-NEXT: orrs r1, r2		; CHECK-NEXT: ubfx r2, r0, #8, #1
; CHECK-NEXT: vmov r2, s26
; CHECK-NEXT: add r2, r3
; CHECK-NEXT: ubfx r3, r0, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r0, r0, #12, #1		; CHECK-NEXT: ubfx r0, r0, #12, #1
; CHECK-NEXT: vmov.32 q6[0], r3		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: rsbs r0, r0, #0		; CHECK-NEXT: rsbs r0, r0, #0
; CHECK-NEXT: vmov.32 q6[1], r3
; CHECK-NEXT: vmov.32 q6[2], r0		; CHECK-NEXT: vmov.32 q6[2], r0
; CHECK-NEXT: vmov.32 q6[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.32 q7[0], r0		; CHECK-NEXT: vmov.32 q7[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.32 q7[2], r0		; CHECK-NEXT: vmov.32 q7[2], r0
		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vand q7, q7, q1		; CHECK-NEXT: vand q7, q7, q1
; CHECK-NEXT: vand q6, q7, q6		; CHECK-NEXT: vand q6, q7, q6
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmov r0, s25		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: vmov r3, s27		; CHECK-NEXT: vmov r2, s26
; CHECK-NEXT: adcs r1, r0		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r0, s26
; CHECK-NEXT: adds.w r12, r2, r0
; CHECK-NEXT: vmov.u16 r2, q5[4]		; CHECK-NEXT: vmov.u16 r2, q5[4]
; CHECK-NEXT: vmov.32 q6[0], r2		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: vmov.u16 r2, q5[5]		; CHECK-NEXT: vmov.u16 r2, q5[5]
; CHECK-NEXT: vmov.32 q6[1], r2		; CHECK-NEXT: vmov.32 q6[1], r2
; CHECK-NEXT: vmov.u16 r2, q5[6]		; CHECK-NEXT: vmov.u16 r2, q5[6]
; CHECK-NEXT: vmov.32 q6[2], r2		; CHECK-NEXT: vmov.32 q6[2], r2
; CHECK-NEXT: vmov.u16 r2, q5[7]		; CHECK-NEXT: vmov.u16 r2, q5[7]
; CHECK-NEXT: vmov.32 q6[3], r2		; CHECK-NEXT: vmov.32 q6[3], r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vcmp.i32 ne, q6, zr		; CHECK-NEXT: vcmp.i32 ne, q6, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q5[0], r3		; CHECK-NEXT: vmov.32 q5[0], r3
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q5[2], r3		; CHECK-NEXT: vmov.32 q5[2], r3
; CHECK-NEXT: vmov.32 q5[3], r3
; CHECK-NEXT: vmov.u8 r3, q0[4]		; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: vmov.32 q6[0], r3		; CHECK-NEXT: vmov.32 q6[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[5]		; CHECK-NEXT: vmov.u8 r3, q0[5]
; CHECK-NEXT: vmov.32 q6[2], r3		; CHECK-NEXT: vmov.32 q6[2], r3
; CHECK-NEXT: vand q6, q6, q1		; CHECK-NEXT: vand q6, q6, q1
; CHECK-NEXT: vand q5, q6, q5		; CHECK-NEXT: vand q5, q6, q5
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov r3, s20
; CHECK-NEXT: vmov r3, s21		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adds.w r12, r12, r0		; CHECK-NEXT: vmov r3, s22
; CHECK-NEXT: vmov r0, s22		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: vmov r3, s23
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q5[0], r3		; CHECK-NEXT: vmov.32 q5[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov.32 q5[2], r2
; CHECK-NEXT: vmov.32 q5[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.32 q6[0], r2		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: vmov.32 q6[2], r2		; CHECK-NEXT: vmov.32 q6[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q6, q6, q1		; CHECK-NEXT: vand q6, q6, q1
; CHECK-NEXT: vand q5, q6, q5		; CHECK-NEXT: vand q5, q6, q5
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: vmov r3, s22		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u8 r2, q4[8]		; CHECK-NEXT: vmov.u8 r2, q4[8]
; CHECK-NEXT: vmov.16 q5[0], r2		; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov.u8 r2, q4[9]		; CHECK-NEXT: vmov.u8 r2, q4[9]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov.16 q5[1], r2
; CHECK-NEXT: vmov.u8 r2, q4[10]		; CHECK-NEXT: vmov.u8 r2, q4[10]
; CHECK-NEXT: vmov.16 q5[2], r2		; CHECK-NEXT: vmov.16 q5[2], r2
; CHECK-NEXT: vmov.u8 r2, q4[11]		; CHECK-NEXT: vmov.u8 r2, q4[11]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[3], r2
; CHECK-NEXT: vmov.u8 r2, q4[12]		; CHECK-NEXT: vmov.u8 r2, q4[12]
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q5[4], r2
; CHECK-NEXT: vmov.u8 r2, q4[13]		; CHECK-NEXT: vmov.u8 r2, q4[13]
; CHECK-NEXT: vmov.16 q5[5], r2		; CHECK-NEXT: vmov.16 q5[5], r2
; CHECK-NEXT: vmov.u8 r2, q4[14]		; CHECK-NEXT: vmov.u8 r2, q4[14]
; CHECK-NEXT: vmov.16 q5[6], r2		; CHECK-NEXT: vmov.16 q5[6], r2
; CHECK-NEXT: vmov.u8 r2, q4[15]		; CHECK-NEXT: vmov.u8 r2, q4[15]
; CHECK-NEXT: vmov.16 q5[7], r2		; CHECK-NEXT: vmov.16 q5[7], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vcmp.i16 ne, q5, zr		; CHECK-NEXT: vcmp.i16 ne, q5, zr
; CHECK-NEXT: vpsel q2, q3, q2		; CHECK-NEXT: vpsel q2, q3, q2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[1]		; CHECK-NEXT: vmov.u16 r2, q2[1]
; CHECK-NEXT: vmov.32 q3[1], r2		; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[2]		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.32 q3[3], r2		; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vcmp.i32 ne, q3, zr		; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vmov.32 q3[3], r3
; CHECK-NEXT: vmov.u8 r3, q0[8]		; CHECK-NEXT: vmov.u8 r3, q0[8]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[9]		; CHECK-NEXT: vmov.u8 r3, q0[9]
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r3, s12
; CHECK-NEXT: vmov r3, s13		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adds.w r12, r12, r0		; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: vmov r0, s14		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: vmov r3, s15
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[10]		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: vmov.32 q4[0], r2		; CHECK-NEXT: vmov.32 q4[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: vmov.32 q4[2], r2		; CHECK-NEXT: vmov.32 q4[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r2, s13		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s15
; CHECK-NEXT: adds.w r12, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov.u16 r2, q2[4]		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.32 q3[1], r2		; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.32 q3[3], r2		; CHECK-NEXT: vmov.32 q3[3], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vcmp.i32 ne, q3, zr		; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q2[2], r3		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov.u8 r3, q0[12]		; CHECK-NEXT: vmov.u8 r3, q0[12]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[13]		; CHECK-NEXT: vmov.u8 r3, q0[13]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q2, q3, q2		; CHECK-NEXT: vand q2, q3, q2
; CHECK-NEXT: vmov r0, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r3, s9		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adds.w r12, r12, r0		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: vmov r3, s11
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[14]		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[15]		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q0, q3, q1		; CHECK-NEXT: vand q0, q3, q1
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adds r0, r0, r3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adcs r1, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <16 x i8> %b, zeroinitializer		%c = icmp eq <16 x i8> %b, zeroinitializer
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%s = select <16 x i1> %c, <16 x i64> %xx, <16 x i64> zeroinitializer		%s = select <16 x i1> %c, <16 x i64> %xx, <16 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %s)
ret i64 %z		ret i64 %z
▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q3[0], r0		; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.32 q3[1], r0
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: cset r0, eq		; CHECK-NEXT: cset r0, eq
; CHECK-NEXT: tst.w r0, #1		; CHECK-NEXT: tst.w r0, #1
; CHECK-NEXT: csetm r0, ne		; CHECK-NEXT: csetm r0, ne
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vand q0, q0, q3		; CHECK-NEXT: vand q0, q0, q3
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s0
; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: vmov r1, s3		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: orrs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i8> %b, zeroinitializer		%c = icmp eq <2 x i8> %b, zeroinitializer
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %s)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, <2 x i32> %b, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, <2 x i32> %b, i64 %a) {
; CHECK-LABEL: add_v2i32_v2i64_acc_zext:		; CHECK-LABEL: add_v2i32_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov.i64 q2, #0xffffffff		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q2[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q2[1], r2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov r12, s3
; CHECK-NEXT: vmov lr, s1
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, lr, r12		; CHECK-NEXT: adc r3, r12, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i32> %b, zeroinitializer		%c = icmp eq <2 x i32> %b, zeroinitializer
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}
▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.32 q1[3], r2		; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vcmp.i32 ne, q1, zr		; CHECK-NEXT: vcmp.i32 ne, q1, zr
; CHECK-NEXT: vmov.i64 q1, #0xffff		; CHECK-NEXT: vmov.i64 q1, #0xffff
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vmov.32 q3[3], r3
; CHECK-NEXT: vmov.u16 r3, q0[0]		; CHECK-NEXT: vmov.u16 r3, q0[0]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u16 r3, q0[1]		; CHECK-NEXT: vmov.u16 r3, q0[1]
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r12, s15		; CHECK-NEXT: vmov r12, s14
; CHECK-NEXT: vmov r3, s13
; CHECK-NEXT: vmov lr, s14
; CHECK-NEXT: orr.w r12, r12, r3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s12
; CHECK-NEXT: add lr, r3		; CHECK-NEXT: add r12, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsbs r2, r2, #0
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.32 q4[0], r2		; CHECK-NEXT: vmov.32 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmov.32 q4[2], r2		; CHECK-NEXT: vmov.32 q4[2], r2
		; CHECK-NEXT: movs r3, #0
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r2, s13		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r4, lr, r3		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w lr, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r2, s15
; CHECK-NEXT: adds.w r12, r4, r3
; CHECK-NEXT: adc.w lr, lr, r2
; CHECK-NEXT: vmov.u16 r2, q2[4]		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.32 q3[1], r2		; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.32 q3[3], r2		; CHECK-NEXT: vmov.32 q3[3], r2
		; CHECK-NEXT: adc lr, r3, #0
; CHECK-NEXT: vcmp.i32 ne, q3, zr		; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r4, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r4, r4, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r4		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: ubfx r4, r2, #4, #1		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: rsbs r4, r4, #0		; CHECK-NEXT: vmov.32 q2[2], r3
; CHECK-NEXT: vmov.32 q2[2], r4		; CHECK-NEXT: vmov.u16 r3, q0[4]
; CHECK-NEXT: vmov.32 q2[3], r4		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u16 r4, q0[4]		; CHECK-NEXT: vmov.u16 r3, q0[5]
; CHECK-NEXT: vmov.32 q3[0], r4		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vmov.u16 r4, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r4
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q2, q3, q2		; CHECK-NEXT: vand q2, q3, q2
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r4, s9		; CHECK-NEXT: adds.w r4, r12, r3
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov r3, s11		; CHECK-NEXT: adc r12, lr, #0
; CHECK-NEXT: adc.w lr, lr, r4		; CHECK-NEXT: adds.w lr, r4, r3
; CHECK-NEXT: vmov r4, s10
; CHECK-NEXT: adds.w r4, r4, r12
; CHECK-NEXT: adc.w r12, lr, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q2[0], r3		; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r2
; CHECK-NEXT: vmov.u16 r2, q0[6]		; CHECK-NEXT: vmov.u16 r2, q0[6]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r4, r12, #0
; CHECK-NEXT: vand q0, q3, q1		; CHECK-NEXT: vand q0, q3, q1
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds.w r2, r2, lr
; CHECK-NEXT: adds r3, r3, r4		; CHECK-NEXT: adc r3, r4, #0
; CHECK-NEXT: vmov r4, s3		; CHECK-NEXT: vmov r4, s2
; CHECK-NEXT: adc.w r12, r12, r2		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, r12, r4
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vpop {d8, d9}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%c = icmp eq <8 x i16> %b, zeroinitializer		%c = icmp eq <8 x i16> %b, zeroinitializer
%xx = zext <8 x i16> %x to <8 x i64>		%xx = zext <8 x i16> %x to <8 x i64>
%s = select <8 x i1> %c, <8 x i64> %xx, <8 x i64> zeroinitializer		%s = select <8 x i1> %c, <8 x i64> %xx, <8 x i64> zeroinitializer
▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vand q0, q0, q3		; CHECK-NEXT: vand q0, q0, q3
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s1		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: orr.w r12, r3, r2
; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r12		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i16> %b, zeroinitializer		%c = icmp eq <2 x i16> %b, zeroinitializer
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
▲ Show 20 Lines • Show All 237 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u16 r2, q5[3]		; CHECK-NEXT: vmov.u16 r2, q5[3]
; CHECK-NEXT: vmov.32 q1[3], r2		; CHECK-NEXT: vmov.32 q1[3], r2
; CHECK-NEXT: vcmp.i32 ne, q1, zr		; CHECK-NEXT: vcmp.i32 ne, q1, zr
; CHECK-NEXT: vmov.i64 q1, #0xff		; CHECK-NEXT: vmov.i64 q1, #0xff
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r3, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q6[0], r3		; CHECK-NEXT: vmov.32 q6[0], r3
; CHECK-NEXT: vmov.32 q6[1], r3
; CHECK-NEXT: ubfx r3, r2, #4, #1		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q6[2], r3		; CHECK-NEXT: vmov.32 q6[2], r3
; CHECK-NEXT: vmov.32 q6[3], r3
; CHECK-NEXT: vmov.u8 r3, q0[0]		; CHECK-NEXT: vmov.u8 r3, q0[0]
; CHECK-NEXT: vmov.32 q7[0], r3		; CHECK-NEXT: vmov.32 q7[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[1]		; CHECK-NEXT: vmov.u8 r3, q0[1]
; CHECK-NEXT: vmov.32 q7[2], r3		; CHECK-NEXT: vmov.32 q7[2], r3
; CHECK-NEXT: vand q7, q7, q1		; CHECK-NEXT: vand q7, q7, q1
; CHECK-NEXT: vand q6, q7, q6		; CHECK-NEXT: vand q6, q7, q6
; CHECK-NEXT: vmov r12, s27		; CHECK-NEXT: vmov r12, s26
; CHECK-NEXT: vmov r3, s25
; CHECK-NEXT: vmov lr, s26
; CHECK-NEXT: orr.w r12, r12, r3
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: vmov r3, s24
; CHECK-NEXT: add lr, r3		; CHECK-NEXT: add r12, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q6[0], r3		; CHECK-NEXT: vmov.32 q6[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsbs r2, r2, #0
; CHECK-NEXT: vmov.32 q6[1], r3
; CHECK-NEXT: vmov.32 q6[2], r2		; CHECK-NEXT: vmov.32 q6[2], r2
; CHECK-NEXT: vmov.32 q6[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[2]		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: vmov.32 q7[0], r2		; CHECK-NEXT: vmov.32 q7[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[3]		; CHECK-NEXT: vmov.u8 r2, q0[3]
; CHECK-NEXT: vmov.32 q7[2], r2		; CHECK-NEXT: vmov.32 q7[2], r2
		; CHECK-NEXT: movs r3, #0
; CHECK-NEXT: vand q7, q7, q1		; CHECK-NEXT: vand q7, q7, q1
; CHECK-NEXT: vand q6, q7, q6		; CHECK-NEXT: vand q6, q7, q6
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: vmov r2, s24
; CHECK-NEXT: vmov r2, s25		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r4, lr, r3		; CHECK-NEXT: vmov r2, s26
; CHECK-NEXT: vmov r3, s26		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w lr, r12, r2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r2, s27
; CHECK-NEXT: adds.w r12, r4, r3
; CHECK-NEXT: adc.w lr, lr, r2
; CHECK-NEXT: vmov.u16 r2, q5[4]		; CHECK-NEXT: vmov.u16 r2, q5[4]
; CHECK-NEXT: vmov.32 q6[0], r2		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: vmov.u16 r2, q5[5]		; CHECK-NEXT: vmov.u16 r2, q5[5]
; CHECK-NEXT: vmov.32 q6[1], r2		; CHECK-NEXT: vmov.32 q6[1], r2
; CHECK-NEXT: vmov.u16 r2, q5[6]		; CHECK-NEXT: vmov.u16 r2, q5[6]
; CHECK-NEXT: vmov.32 q6[2], r2		; CHECK-NEXT: vmov.32 q6[2], r2
; CHECK-NEXT: vmov.u16 r2, q5[7]		; CHECK-NEXT: vmov.u16 r2, q5[7]
; CHECK-NEXT: vmov.32 q6[3], r2		; CHECK-NEXT: vmov.32 q6[3], r2
		; CHECK-NEXT: adc lr, r3, #0
; CHECK-NEXT: vcmp.i32 ne, q6, zr		; CHECK-NEXT: vcmp.i32 ne, q6, zr
; CHECK-NEXT: vmrs r2, p0		; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r4, r2, #1		; CHECK-NEXT: and r3, r2, #1
; CHECK-NEXT: rsbs r4, r4, #0		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: vmov.32 q5[0], r4		; CHECK-NEXT: vmov.32 q5[0], r3
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: ubfx r3, r2, #4, #1
; CHECK-NEXT: ubfx r4, r2, #4, #1		; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: rsbs r4, r4, #0		; CHECK-NEXT: vmov.32 q5[2], r3
; CHECK-NEXT: vmov.32 q5[2], r4		; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: vmov.32 q5[3], r4		; CHECK-NEXT: vmov.32 q6[0], r3
; CHECK-NEXT: vmov.u8 r4, q0[4]		; CHECK-NEXT: vmov.u8 r3, q0[5]
; CHECK-NEXT: vmov.32 q6[0], r4		; CHECK-NEXT: vmov.32 q6[2], r3
; CHECK-NEXT: vmov.u8 r4, q0[5]
; CHECK-NEXT: vmov.32 q6[2], r4
; CHECK-NEXT: vand q6, q6, q1		; CHECK-NEXT: vand q6, q6, q1
; CHECK-NEXT: vand q5, q6, q5		; CHECK-NEXT: vand q5, q6, q5
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r3, s20
; CHECK-NEXT: vmov r4, s21		; CHECK-NEXT: adds.w r4, r12, r3
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: vmov r3, s22
; CHECK-NEXT: vmov r3, s23		; CHECK-NEXT: adc r12, lr, #0
; CHECK-NEXT: adc.w lr, lr, r4		; CHECK-NEXT: adds.w lr, r4, r3
; CHECK-NEXT: vmov r4, s22
; CHECK-NEXT: adds.w r4, r4, r12
; CHECK-NEXT: adc.w r12, lr, r3
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: ubfx r3, r2, #8, #1
; CHECK-NEXT: rsbs r3, r3, #0
; CHECK-NEXT: ubfx r2, r2, #12, #1		; CHECK-NEXT: ubfx r2, r2, #12, #1
		; CHECK-NEXT: rsb.w r3, r3, #0
; CHECK-NEXT: vmov.32 q5[0], r3		; CHECK-NEXT: vmov.32 q5[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov.32 q5[2], r2
; CHECK-NEXT: vmov.32 q5[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: vmov.32 q6[0], r2		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: vmov.32 q6[2], r2		; CHECK-NEXT: vmov.32 q6[2], r2
		; CHECK-NEXT: adc r4, r12, #0
; CHECK-NEXT: vand q6, q6, q1		; CHECK-NEXT: vand q6, q6, q1
; CHECK-NEXT: vand q5, q6, q5		; CHECK-NEXT: vand q5, q6, q5
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: adds.w r2, r2, lr
; CHECK-NEXT: adds r3, r3, r4		; CHECK-NEXT: adc r3, r4, #0
; CHECK-NEXT: vmov r4, s23		; CHECK-NEXT: vmov r4, s22
; CHECK-NEXT: adc.w lr, r12, r2		; CHECK-NEXT: adds.w r12, r2, r4
; CHECK-NEXT: vmov r2, s22		; CHECK-NEXT: vmov.u8 r4, q4[8]
; CHECK-NEXT: adds.w r12, r3, r2		; CHECK-NEXT: vmov.16 q5[0], r4
; CHECK-NEXT: vmov.u8 r2, q4[8]		; CHECK-NEXT: vmov.u8 r4, q4[9]
; CHECK-NEXT: vmov.16 q5[0], r2		; CHECK-NEXT: vmov.16 q5[1], r4
; CHECK-NEXT: vmov.u8 r2, q4[9]		; CHECK-NEXT: vmov.u8 r4, q4[10]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov.16 q5[2], r4
; CHECK-NEXT: vmov.u8 r2, q4[10]		; CHECK-NEXT: vmov.u8 r4, q4[11]
; CHECK-NEXT: vmov.16 q5[2], r2		; CHECK-NEXT: vmov.16 q5[3], r4
; CHECK-NEXT: vmov.u8 r2, q4[11]		; CHECK-NEXT: vmov.u8 r4, q4[12]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[4], r4
; CHECK-NEXT: vmov.u8 r2, q4[12]		; CHECK-NEXT: vmov.u8 r4, q4[13]
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q5[5], r4
; CHECK-NEXT: vmov.u8 r2, q4[13]		; CHECK-NEXT: vmov.u8 r4, q4[14]
; CHECK-NEXT: vmov.16 q5[5], r2		; CHECK-NEXT: vmov.16 q5[6], r4
; CHECK-NEXT: vmov.u8 r2, q4[14]		; CHECK-NEXT: vmov.u8 r4, q4[15]
; CHECK-NEXT: vmov.16 q5[6], r2		; CHECK-NEXT: vmov.16 q5[7], r4
; CHECK-NEXT: vmov.u8 r2, q4[15]		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: adc.w lr, lr, r4
; CHECK-NEXT: vcmp.i16 ne, q5, zr		; CHECK-NEXT: vcmp.i16 ne, q5, zr
; CHECK-NEXT: vpsel q2, q3, q2		; CHECK-NEXT: vpsel q2, q3, q2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r4, q2[0]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[1]
; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r4, r2, #1
; CHECK-NEXT: rsbs r4, r4, #0
; CHECK-NEXT: vmov.32 q3[0], r4		; CHECK-NEXT: vmov.32 q3[0], r4
		; CHECK-NEXT: vmov.u16 r4, q2[1]
; CHECK-NEXT: vmov.32 q3[1], r4		; CHECK-NEXT: vmov.32 q3[1], r4
; CHECK-NEXT: ubfx r4, r2, #4, #1		; CHECK-NEXT: vmov.u16 r4, q2[2]
; CHECK-NEXT: rsbs r4, r4, #0
; CHECK-NEXT: vmov.32 q3[2], r4		; CHECK-NEXT: vmov.32 q3[2], r4
		; CHECK-NEXT: vmov.u16 r4, q2[3]
; CHECK-NEXT: vmov.32 q3[3], r4		; CHECK-NEXT: vmov.32 q3[3], r4
; CHECK-NEXT: vmov.u8 r4, q0[8]		; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmov.32 q4[0], r4		; CHECK-NEXT: vmrs r4, p0
; CHECK-NEXT: vmov.u8 r4, q0[9]		; CHECK-NEXT: and r2, r4, #1
; CHECK-NEXT: vmov.32 q4[2], r4		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q3[0], r2
		; CHECK-NEXT: ubfx r2, r4, #4, #1
		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: vmov.u8 r2, q0[8]
		; CHECK-NEXT: vmov.32 q4[0], r2
		; CHECK-NEXT: vmov.u8 r2, q0[9]
		; CHECK-NEXT: vmov.32 q4[2], r2
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r4, s13		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov r3, s15		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w lr, lr, r4		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r4, s14		; CHECK-NEXT: ubfx r2, r4, #8, #1
; CHECK-NEXT: adds.w r4, r4, r12		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: adc.w r12, lr, r3		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: ubfx r2, r4, #12, #1
; CHECK-NEXT: ubfx r2, r2, #12, #1
; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsbs r2, r2, #0
; CHECK-NEXT: vmov.32 q3[1], r3
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[10]		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: vmov.32 q4[0], r2		; CHECK-NEXT: vmov.32 q4[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: vmov.32 q4[2], r2		; CHECK-NEXT: vmov.32 q4[2], r2
; CHECK-NEXT: vand q4, q4, q1		; CHECK-NEXT: vand q4, q4, q1
; CHECK-NEXT: vand q3, q4, q3		; CHECK-NEXT: vand q3, q4, q3
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r2, s13		; CHECK-NEXT: vmov r4, s14
; CHECK-NEXT: adds r3, r3, r4		; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: vmov r4, s15		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w lr, r12, r2		; CHECK-NEXT: adds.w r12, r2, r4
; CHECK-NEXT: vmov r2, s14		; CHECK-NEXT: vmov.u16 r4, q2[4]
; CHECK-NEXT: adds.w r12, r3, r2		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: adc.w lr, lr, r4
; CHECK-NEXT: vcmp.i32 ne, q3, zr
; CHECK-NEXT: vmrs r2, p0
; CHECK-NEXT: and r4, r2, #1
; CHECK-NEXT: rsbs r4, r4, #0
; CHECK-NEXT: vmov.32 q2[0], r4
; CHECK-NEXT: vmov.32 q2[1], r4
; CHECK-NEXT: ubfx r4, r2, #4, #1
; CHECK-NEXT: rsbs r4, r4, #0
; CHECK-NEXT: vmov.32 q2[2], r4
; CHECK-NEXT: vmov.32 q2[3], r4
; CHECK-NEXT: vmov.u8 r4, q0[12]
; CHECK-NEXT: vmov.32 q3[0], r4		; CHECK-NEXT: vmov.32 q3[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[13]		; CHECK-NEXT: vmov.u16 r4, q2[5]
		; CHECK-NEXT: vmov.32 q3[1], r4
		; CHECK-NEXT: vmov.u16 r4, q2[6]
; CHECK-NEXT: vmov.32 q3[2], r4		; CHECK-NEXT: vmov.32 q3[2], r4
		; CHECK-NEXT: vmov.u16 r4, q2[7]
		; CHECK-NEXT: vmov.32 q3[3], r4
		; CHECK-NEXT: vcmp.i32 ne, q3, zr
		; CHECK-NEXT: vmrs r4, p0
		; CHECK-NEXT: and r2, r4, #1
		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q2[0], r2
		; CHECK-NEXT: ubfx r2, r4, #4, #1
		; CHECK-NEXT: rsbs r2, r2, #0
		; CHECK-NEXT: vmov.32 q2[2], r2
		; CHECK-NEXT: vmov.u8 r2, q0[12]
		; CHECK-NEXT: vmov.32 q3[0], r2
		; CHECK-NEXT: vmov.u8 r2, q0[13]
		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vand q3, q3, q1		; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q2, q3, q2		; CHECK-NEXT: vand q2, q3, q2
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r4, s9		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r12, r12, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s11		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w lr, lr, r4		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov r4, s10		; CHECK-NEXT: ubfx r2, r4, #8, #1
; CHECK-NEXT: adds.w r4, r4, r12		; CHECK-NEXT: rsb.w r2, r2, #0
; CHECK-NEXT: adc.w r12, lr, r3		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: ubfx r3, r2, #8, #1		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: rsbs r3, r3, #0		; CHECK-NEXT: ubfx r2, r4, #12, #1
; CHECK-NEXT: ubfx r2, r2, #12, #1
; CHECK-NEXT: vmov.32 q2[0], r3
; CHECK-NEXT: rsbs r2, r2, #0		; CHECK-NEXT: rsbs r2, r2, #0
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r2
; CHECK-NEXT: vmov.u8 r2, q0[14]		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q0[15]		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vand q0, q3, q1		; CHECK-NEXT: vand q0, q3, q1
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r4, s2
; CHECK-NEXT: adds r3, r3, r4		; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: vmov r4, s3		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adc.w r12, r12, r2		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adds r2, r2, r3
; CHECK-NEXT: adc.w r3, r12, r4
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%c = icmp eq <16 x i8> %b, zeroinitializer		%c = icmp eq <16 x i8> %b, zeroinitializer
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%s = select <16 x i1> %c, <16 x i64> %xx, <16 x i64> zeroinitializer		%s = select <16 x i1> %c, <16 x i64> %xx, <16 x i64> zeroinitializer
▲ Show 20 Lines • Show All 323 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: cset r2, eq		; CHECK-NEXT: cset r2, eq
; CHECK-NEXT: tst.w r2, #1		; CHECK-NEXT: tst.w r2, #1
; CHECK-NEXT: csetm r2, ne		; CHECK-NEXT: csetm r2, ne
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vand q0, q0, q3		; CHECK-NEXT: vand q0, q0, q3
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s1		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: orr.w r12, r3, r2
; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: add r2, r3		; CHECK-NEXT: add r2, r3
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r12		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%c = icmp eq <2 x i8> %b, zeroinitializer		%c = icmp eq <2 x i8> %b, zeroinitializer
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer		%s = select <2 x i1> %c, <2 x i64> %xx, <2 x i64> zeroinitializer
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %s)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-mla.ll

Show First 20 Lines • Show All 209 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %ma)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %ma)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_zext(<2 x i16> %x, <2 x i16> %y) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_zext(<2 x i16> %x, <2 x i16> %y) {
; CHECK-LABEL: add_v2i16_v2i64_zext:		; CHECK-LABEL: add_v2i16_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q2, #0xffff		; CHECK-NEXT: vmov.i64 q2, #0xffff
; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r1, s2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: umull r0, r1, r1, r0		; CHECK-NEXT: muls r0, r1, r0
; CHECK-NEXT: umlal r0, r1, r3, r2		; CHECK-NEXT: vmov r1, s4
		; CHECK-NEXT: muls r1, r2, r1
		; CHECK-NEXT: movs r2, #0
		; CHECK-NEXT: adds r0, r0, r1
		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
		foadAuthorUnsubmitted Done Reply Inline Actions Regression here and in other cases that are now using muls instead of umull/umlal. foad: Regression here and in other cases that are now using muls instead of umull/umlal.
entry:		entry:
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%yy = zext <2 x i16> %y to <2 x i64>		%yy = zext <2 x i16> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_sext(<2 x i16> %x, <2 x i16> %y) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_sext(<2 x i16> %x, <2 x i16> %y) {
; CHECK-LABEL: add_v2i16_v2i64_sext:		; CHECK-LABEL: add_v2i16_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: sxth r1, r1		; CHECK-NEXT: sxth r1, r1
; CHECK-NEXT: smull r0, r1, r1, r0		; CHECK-NEXT: smull r0, r1, r1, r0
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: sxth r3, r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: smlal r0, r1, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines	entry:
%m = mul <16 x i8> %x, %y		%m = mul <16 x i8> %x, %y
%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)		%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)
ret i8 %z		ret i8 %z
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_zext(<16 x i8> %x, <16 x i8> %y) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_zext(<16 x i8> %x, <16 x i8> %y) {
; CHECK-LABEL: add_v16i8_v16i64_zext:		; CHECK-LABEL: add_v16i8_v16i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.u8 r1, q0[0]		; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmov.32 q3[0], r0		; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.32 q4[0], r1		; CHECK-NEXT: vmov.32 q4[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]		; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.i64 q2, #0xff		; CHECK-NEXT: vmov.i64 q2, #0xff
; CHECK-NEXT: vmov.32 q4[2], r1		; CHECK-NEXT: vmov.32 q4[2], r1
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r0, s14		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmov r1, s18		; CHECK-NEXT: vmov r1, s16
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: muls r0, r1, r0
; CHECK-NEXT: umull r12, r1, r1, r0		; CHECK-NEXT: vmov r1, s14
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: smlabb r0, r2, r1, r0
; CHECK-NEXT: vmov.32 q4[0], r0		; CHECK-NEXT: vmov.u8 r1, q1[2]
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: vmov.32 q4[2], r0		; CHECK-NEXT: vmov.32 q3[0], r1
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: vmov.u8 r1, q1[3]
		; CHECK-NEXT: vmov.32 q4[0], r2
		; CHECK-NEXT: vmov.u8 r2, q0[3]
		; CHECK-NEXT: vmov.32 q3[2], r1
		; CHECK-NEXT: vmov.32 q4[2], r2
		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov r1, s12
; CHECK-NEXT: orr.w lr, r3, r1		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.u8 r3, q1[2]		; CHECK-NEXT: smlabb r0, r2, r1, r0
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov r1, s14
; CHECK-NEXT: vmov.u8 r3, q1[3]		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: smlabb r0, r2, r1, r0
; CHECK-NEXT: add r2, r12		; CHECK-NEXT: vmov.u8 r1, q1[4]
		; CHECK-NEXT: vmov.u8 r2, q0[4]
		; CHECK-NEXT: vmov.32 q3[0], r1
		; CHECK-NEXT: vmov.u8 r1, q1[5]
		; CHECK-NEXT: vmov.32 q4[0], r2
		; CHECK-NEXT: vmov.u8 r2, q0[5]
		; CHECK-NEXT: vmov.32 q3[2], r1
		; CHECK-NEXT: vmov.32 q4[2], r2
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: umull r0, r3, r0, r3		; CHECK-NEXT: vmov r1, s12
; CHECK-NEXT: vmov.32 q5[0], r0		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov r0, s14
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r0, r3, r3, r0		; CHECK-NEXT: muls r1, r2, r1
; CHECK-NEXT: vmov.32 q5[2], r0		; CHECK-NEXT: movs r2, #0
; CHECK-NEXT: vmov.32 q5[3], r3		; CHECK-NEXT: adds r0, r0, r1
; CHECK-NEXT: vmov r1, s20		; CHECK-NEXT: adc r1, r2, #0
; CHECK-NEXT: vmov r0, s21		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: adds r1, r1, r2		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: adc.w r2, lr, r0		; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: adds.w r12, r1, r0
; CHECK-NEXT: adc.w r1, r2, r3
; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[5]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[5]		; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[0], r2
; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r2, r3, r3, r2
; CHECK-NEXT: vmov.32 q5[2], r2
; CHECK-NEXT: vmov.32 q5[3], r3
; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[6]		; CHECK-NEXT: vmov.u8 r2, q1[6]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[7]		; CHECK-NEXT: vmov.u8 r2, q1[7]
; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: umull r2, r3, r3, r2
; CHECK-NEXT: vmov.32 q5[0], r2
; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[1], r3
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[3], r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[8]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[8]		; CHECK-NEXT: vmov.u8 r3, q0[8]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[9]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[9]		; CHECK-NEXT: vmov.u8 r3, q0[9]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[0], r2		; CHECK-NEXT: vmov.u8 r2, q1[8]
; CHECK-NEXT: vmov r2, s14		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.32 q5[1], r3		; CHECK-NEXT: vmov.u8 r2, q1[9]
		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r1, r1, #0
		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[3], r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[10]		; CHECK-NEXT: vmov.u8 r3, q0[10]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[11]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[11]		; CHECK-NEXT: vmov.u8 r3, q0[11]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[0], r2		; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: vmov r2, s14		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.32 q5[1], r3		; CHECK-NEXT: vmov.u8 r2, q1[11]
		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r1, r1, #0
		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[3], r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[12]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[12]		; CHECK-NEXT: vmov.u8 r3, q0[12]
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[13]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[13]		; CHECK-NEXT: vmov.u8 r3, q0[13]
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[0], r2		; CHECK-NEXT: vmov.u8 r2, q1[12]
; CHECK-NEXT: vmov r2, s14		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.32 q5[1], r3		; CHECK-NEXT: vmov.u8 r2, q1[13]
		; CHECK-NEXT: vmov.32 q3[2], r2
		; CHECK-NEXT: adc r1, r1, #0
		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.32 q5[2], r2		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.32 q5[3], r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: vmov.u8 r3, q0[14]
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s22
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[14]		; CHECK-NEXT: vmov.u8 r2, q1[14]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[15]		; CHECK-NEXT: vmov.u8 r2, q1[15]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u8 r3, q0[14]		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: vand q1, q3, q2		; CHECK-NEXT: vand q1, q3, q2
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[15]		; CHECK-NEXT: vmov.u8 r3, q0[15]
; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vand q0, q3, q2		; CHECK-NEXT: vand q0, q3, q2
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: umlal r0, r1, r3, r2		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: umlal r0, r1, r3, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: adc r1, r1, #0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: adds r0, r0, r2
		; CHECK-NEXT: adc r1, r1, #0
		; CHECK-NEXT: vpop {d8, d9}
		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%yy = zext <16 x i8> %y to <16 x i64>		%yy = zext <16 x i8> %y to <16 x i64>
%m = mul <16 x i64> %xx, %yy		%m = mul <16 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_sext(<16 x i8> %x, <16 x i8> %y) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_sext(<16 x i8> %x, <16 x i8> %y) {
; CHECK-LABEL: add_v16i8_v16i64_sext:		; CHECK-LABEL: add_v16i8_v16i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: sxtb r1, r1
; CHECK-NEXT: smull r0, r1, r1, r0
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]		; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: sxtb r0, r0		; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: sxtb r1, r1		; CHECK-NEXT: sxtb r1, r1
; CHECK-NEXT: smull r0, r1, r1, r0		; CHECK-NEXT: smull r0, r1, r1, r0
; CHECK-NEXT: vmov.32 q2[2], r0		; CHECK-NEXT: vmov.u8 r2, q1[0]
; CHECK-NEXT: vmov.32 q2[3], r1		; CHECK-NEXT: vmov.u8 r3, q0[0]
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: vmov r0, s9		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: vmov.u8 r2, q1[2]
; CHECK-NEXT: vmov.u8 r3, q0[2]		; CHECK-NEXT: vmov.u8 r3, q0[2]
; CHECK-NEXT: adc.w r12, r0, r1		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov.u8 r1, q1[2]
; CHECK-NEXT: sxtb r1, r1
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r1, r3, r3, r1		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r1		; CHECK-NEXT: vmov.u8 r2, q1[3]
; CHECK-NEXT: vmov.u8 r1, q1[3]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[3]		; CHECK-NEXT: vmov.u8 r3, q0[3]
; CHECK-NEXT: sxtb r1, r1		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r1, r3, r3, r1		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r1, s9
; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adc.w r1, r1, r12
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[4]		; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[4]		; CHECK-NEXT: vmov.u8 r3, q0[4]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[5]		; CHECK-NEXT: vmov.u8 r2, q1[5]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[5]		; CHECK-NEXT: vmov.u8 r3, q0[5]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[6]		; CHECK-NEXT: vmov.u8 r2, q1[6]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[6]		; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[7]		; CHECK-NEXT: vmov.u8 r2, q1[7]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[7]		; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[8]		; CHECK-NEXT: vmov.u8 r2, q1[8]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[8]		; CHECK-NEXT: vmov.u8 r3, q0[8]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[9]		; CHECK-NEXT: vmov.u8 r2, q1[9]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[9]		; CHECK-NEXT: vmov.u8 r3, q0[9]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[10]		; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[10]		; CHECK-NEXT: vmov.u8 r3, q0[10]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[11]		; CHECK-NEXT: vmov.u8 r2, q1[11]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[11]		; CHECK-NEXT: vmov.u8 r3, q0[11]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w r12, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[12]		; CHECK-NEXT: vmov.u8 r2, q1[12]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[12]		; CHECK-NEXT: vmov.u8 r3, q0[12]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[13]		; CHECK-NEXT: vmov.u8 r2, q1[13]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[13]		; CHECK-NEXT: vmov.u8 r3, q0[13]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r0, r0, r12
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: vmov.u8 r2, q1[14]		; CHECK-NEXT: vmov.u8 r2, q1[14]
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vmov.u8 r3, q0[14]		; CHECK-NEXT: vmov.u8 r3, q0[14]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smlal r0, r1, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: vmov.u8 r2, q1[15]		; CHECK-NEXT: vmov.u8 r2, q1[15]
; CHECK-NEXT: vmov.u8 r3, q0[15]		; CHECK-NEXT: vmov.u8 r3, q0[15]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smlal r0, r1, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i64>		%xx = sext <16 x i8> %x to <16 x i64>
%yy = sext <16 x i8> %y to <16 x i64>		%yy = sext <16 x i8> %y to <16 x i64>
%m = mul <16 x i64> %xx, %yy		%m = mul <16 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_zext(<2 x i8> %x, <2 x i8> %y) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_zext(<2 x i8> %x, <2 x i8> %y) {
; CHECK-LABEL: add_v2i8_v2i64_zext:		; CHECK-LABEL: add_v2i8_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.i64 q2, #0xff		; CHECK-NEXT: vmov.i64 q2, #0xff
; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov r1, s2		; CHECK-NEXT: vmov r1, s2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: muls r0, r1, r0
; CHECK-NEXT: umull r0, r1, r1, r0		; CHECK-NEXT: vmov r1, s4
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: mla r0, r2, r1, r0
; CHECK-NEXT: add r0, r2		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: orrs r1, r3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%yy = zext <2 x i8> %y to <2 x i64>		%yy = zext <2 x i8> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_sext(<2 x i8> %x, <2 x i8> %y) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_sext(<2 x i8> %x, <2 x i8> %y) {
; CHECK-LABEL: add_v2i8_v2i64_sext:		; CHECK-LABEL: add_v2i8_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: sxtb r0, r0		; CHECK-NEXT: sxtb r0, r0
; CHECK-NEXT: sxtb r1, r1		; CHECK-NEXT: sxtb r1, r1
; CHECK-NEXT: smull r0, r1, r1, r0		; CHECK-NEXT: smull r0, r1, r1, r0
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smlal r0, r1, r3, r2		; CHECK-NEXT: smlal r0, r1, r3, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i8> %x to <2 x i64>		%xx = sext <2 x i8> %x to <2 x i64>
%yy = sext <2 x i8> %y to <2 x i64>		%yy = sext <2 x i8> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i64_v2i64(<2 x i64> %x, <2 x i64> %y) {		define arm_aapcs_vfpcc i64 @add_v2i64_v2i64(<2 x i64> %x, <2 x i64> %y) {
; CHECK-LABEL: add_v2i64_v2i64:		; CHECK-LABEL: add_v2i64_v2i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r1, s2
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov r2, s7
; CHECK-NEXT: vmov r4, s7		; CHECK-NEXT: vmov r4, s5
; CHECK-NEXT: umull r12, r3, r1, r0		; CHECK-NEXT: umull r12, r3, r1, r0
; CHECK-NEXT: mla r1, r1, r2, r3		; CHECK-NEXT: mla r1, r1, r2, r3
		; CHECK-NEXT: vmov r2, s3
		; CHECK-NEXT: mla lr, r2, r0, r1
		; CHECK-NEXT: vmov r0, s4
		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: umull r3, r1, r2, r0
		; CHECK-NEXT: mla r1, r2, r4, r1
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov.32 q2[0], r12
; CHECK-NEXT: mla r1, r2, r0, r1		; CHECK-NEXT: mla r1, r2, r0, r1
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: adds.w r0, r3, r12
; CHECK-NEXT: vmov.32 q2[1], r1		; CHECK-NEXT: adc.w r1, r1, lr
; CHECK-NEXT: vmov r12, s8
; CHECK-NEXT: umull lr, r0, r3, r2
; CHECK-NEXT: mla r0, r3, r4, r0
; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: mla r2, r3, r2, r0
; CHECK-NEXT: adds.w r0, r12, lr
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%m = mul <2 x i64> %x, %y		%m = mul <2 x i64> %x, %y
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i32 @add_v4i32_v4i32_acc(<4 x i32> %x, <4 x i32> %y, i32 %a) {		define arm_aapcs_vfpcc i32 @add_v4i32_v4i32_acc(<4 x i32> %x, <4 x i32> %y, i32 %a) {
▲ Show 20 Lines • Show All 227 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %ma)		%z = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %ma)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_zext(<2 x i16> %x, <2 x i16> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_zext(<2 x i16> %x, <2 x i16> %y, i64 %a) {
; CHECK-LABEL: add_v2i16_v2i64_acc_zext:		; CHECK-LABEL: add_v2i16_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.i64 q2, #0xffff		; CHECK-NEXT: vmov.i64 q2, #0xffff
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov r12, s6
; CHECK-NEXT: umull r2, lr, r3, r2
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: umlal r2, lr, r3, r12		; CHECK-NEXT: mul r12, r3, r2
		; CHECK-NEXT: vmov r3, s4
		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: movs r3, #0
		; CHECK-NEXT: adds.w r2, r2, r12
		; CHECK-NEXT: adc r3, r3, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, lr		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i16> %x to <2 x i64>		%xx = zext <2 x i16> %x to <2 x i64>
%yy = zext <2 x i16> %y to <2 x i64>		%yy = zext <2 x i16> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_sext(<2 x i16> %x, <2 x i16> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i16_v2i64_acc_sext(<2 x i16> %x, <2 x i16> %y, i64 %a) {
; CHECK-LABEL: add_v2i16_v2i64_acc_sext:		; CHECK-LABEL: add_v2i16_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: sxth r2, r2		; CHECK-NEXT: sxth r2, r2
; CHECK-NEXT: sxth r3, r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: smull r2, r12, r3, r2		; CHECK-NEXT: smull r2, r12, r3, r2
; CHECK-NEXT: vmov r3, s6		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: sxth.w lr, r3		; CHECK-NEXT: sxth.w lr, r3
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: sxth r3, r3		; CHECK-NEXT: sxth r3, r3
; CHECK-NEXT: smlal r2, r12, r3, lr		; CHECK-NEXT: smlal r2, r12, r3, lr
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r12		; CHECK-NEXT: adc.w r1, r1, r12
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = sext <2 x i16> %x to <2 x i64>		%xx = sext <2 x i16> %x to <2 x i64>
%yy = sext <2 x i16> %y to <2 x i64>		%yy = sext <2 x i16> %y to <2 x i64>
▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines	entry:
%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)		%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)
%r = add i8 %z, %a		%r = add i8 %z, %a
ret i8 %r		ret i8 %r
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_zext(<16 x i8> %x, <16 x i8> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_zext(<16 x i8> %x, <16 x i8> %y, i64 %a) {
; CHECK-LABEL: add_v16i8_v16i64_acc_zext:		; CHECK-LABEL: add_v16i8_v16i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, r5, r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vmov.u8 r2, q1[0]		; CHECK-NEXT: vmov.u8 r2, q1[0]
; CHECK-NEXT: vmov.u8 r3, q0[0]		; CHECK-NEXT: vmov.u8 r3, q0[0]
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[1]		; CHECK-NEXT: vmov.u8 r2, q1[1]
; CHECK-NEXT: vmov.32 q4[0], r3		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov.u8 r3, q0[1]		; CHECK-NEXT: vmov.u8 r3, q0[1]
; CHECK-NEXT: vmov.32 q3[2], r2		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.i64 q2, #0xff		; CHECK-NEXT: vmov.i64 q2, #0xff
; CHECK-NEXT: vmov.32 q4[2], r3		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: vmov.u8 r4, q0[2]
; CHECK-NEXT: umull r12, lr, r3, r2
; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov.32 q4[0], r4		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov.u8 r4, q0[3]		; CHECK-NEXT: mul r12, r3, r2
; CHECK-NEXT: vmov.32 q4[2], r4		; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: smlabb r12, r2, r3, r12
; CHECK-NEXT: umull r2, r3, r3, r2
; CHECK-NEXT: orr.w lr, lr, r3
; CHECK-NEXT: vmov.u8 r3, q1[2]		; CHECK-NEXT: vmov.u8 r3, q1[2]
		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: vmov.32 q3[0], r3		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u8 r3, q1[3]		; CHECK-NEXT: vmov.u8 r3, q1[3]
		; CHECK-NEXT: vmov.32 q4[0], r2
		; CHECK-NEXT: vmov.u8 r2, q0[3]
; CHECK-NEXT: vmov.32 q3[2], r3		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: add r2, r12		; CHECK-NEXT: vmov.32 q4[2], r2
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov r3, s12
; CHECK-NEXT: umull r3, r4, r4, r3		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.32 q5[0], r3		; CHECK-NEXT: smlabb r12, r2, r3, r12
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: smlabb r12, r2, r3, r12
; CHECK-NEXT: umull r3, r4, r4, r3		; CHECK-NEXT: vmov.u8 r3, q1[4]
; CHECK-NEXT: vmov.32 q5[2], r3		; CHECK-NEXT: vmov.u8 r2, q0[4]
; CHECK-NEXT: vmov.32 q5[3], r4		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov.u8 r3, q1[5]
; CHECK-NEXT: vmov r5, s21		; CHECK-NEXT: vmov.32 q4[0], r2
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: vmov.u8 r2, q0[5]
; CHECK-NEXT: adc.w r3, lr, r5		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vmov r5, s22		; CHECK-NEXT: vmov.32 q4[2], r2
; CHECK-NEXT: adds.w r12, r2, r5
; CHECK-NEXT: vmov.u8 r5, q1[4]
; CHECK-NEXT: adcs r3, r4
; CHECK-NEXT: vmov.u8 r4, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r5
; CHECK-NEXT: vmov.u8 r5, q1[5]
; CHECK-NEXT: vmov.32 q4[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[5]
; CHECK-NEXT: vmov.32 q3[2], r5
; CHECK-NEXT: vmov.32 q4[2], r4
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r5, s12		; CHECK-NEXT: vmov r3, s12
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov.32 q5[0], r5		; CHECK-NEXT: movs r3, #0
; CHECK-NEXT: vmov r5, s14		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: adc lr, r3, #0
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: vmov.32 q5[2], r5		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov.32 q5[3], r4		; CHECK-NEXT: vmov.u8 r3, q0[6]
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov r5, s21		; CHECK-NEXT: vmov.u8 r3, q0[7]
; CHECK-NEXT: adds.w r2, r2, r12		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: adcs r3, r5
; CHECK-NEXT: vmov r5, s22
; CHECK-NEXT: adds.w r12, r2, r5
; CHECK-NEXT: vmov.u8 r5, q1[6]
; CHECK-NEXT: adcs r3, r4
; CHECK-NEXT: vmov.u8 r4, q0[6]
; CHECK-NEXT: vmov.32 q3[0], r5
; CHECK-NEXT: vmov.u8 r5, q1[7]
; CHECK-NEXT: vmov.32 q4[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[7]
; CHECK-NEXT: vmov.32 q3[2], r5
; CHECK-NEXT: vmov.32 q4[2], r4
; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r5, s12		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vmov.u8 r2, q1[6]
; CHECK-NEXT: vmov.32 q5[0], r5		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r5, s14		; CHECK-NEXT: vmov.u8 r2, q1[7]
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: umull r5, r4, r4, r5
; CHECK-NEXT: vmov.32 q5[2], r5
; CHECK-NEXT: vmov.32 q5[3], r4
; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r5, s21
; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: adcs r3, r5
; CHECK-NEXT: vmov r5, s22
; CHECK-NEXT: adds.w r12, r2, r5
; CHECK-NEXT: vmov.u8 r5, q1[8]
; CHECK-NEXT: adcs r3, r4
; CHECK-NEXT: vmov.u8 r4, q0[8]
; CHECK-NEXT: vmov.32 q3[0], r5
; CHECK-NEXT: vmov.u8 r5, q1[9]
; CHECK-NEXT: vmov.32 q4[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[9]
; CHECK-NEXT: vmov.32 q3[2], r5
; CHECK-NEXT: vmov.32 q4[2], r4
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov r3, s18
		; CHECK-NEXT: adds.w r12, r12, r2
		; CHECK-NEXT: vmov r2, s14
		; CHECK-NEXT: adc lr, lr, #0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov.u8 r3, q0[8]
		; CHECK-NEXT: vmov.32 q4[0], r3
		; CHECK-NEXT: vmov.u8 r3, q0[9]
		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r5, s12		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vmov.u8 r2, q1[8]
; CHECK-NEXT: vmov.32 q5[0], r5		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r5, s14		; CHECK-NEXT: vmov.u8 r2, q1[9]
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: umull r5, r4, r4, r5
; CHECK-NEXT: vmov.32 q5[2], r5
; CHECK-NEXT: vmov.32 q5[3], r4
; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r5, s21
; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: adcs r3, r5
; CHECK-NEXT: vmov r5, s22
; CHECK-NEXT: adds.w r12, r2, r5
; CHECK-NEXT: vmov.u8 r5, q1[10]
; CHECK-NEXT: adcs r3, r4
; CHECK-NEXT: vmov.u8 r4, q0[10]
; CHECK-NEXT: vmov.32 q3[0], r5
; CHECK-NEXT: vmov.u8 r5, q1[11]
; CHECK-NEXT: vmov.32 q4[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[11]
; CHECK-NEXT: vmov.32 q3[2], r5
; CHECK-NEXT: vmov.32 q4[2], r4
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov r3, s18
		; CHECK-NEXT: adds.w r12, r12, r2
		; CHECK-NEXT: vmov r2, s14
		; CHECK-NEXT: adc lr, lr, #0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov.u8 r3, q0[10]
		; CHECK-NEXT: vmov.32 q4[0], r3
		; CHECK-NEXT: vmov.u8 r3, q0[11]
		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r5, s12		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: vmov.32 q5[0], r5		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r5, s14		; CHECK-NEXT: vmov.u8 r2, q1[11]
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: umull r5, r4, r4, r5
; CHECK-NEXT: vmov.32 q5[2], r5
; CHECK-NEXT: vmov.32 q5[3], r4
; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r5, s21
; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: adcs r3, r5
; CHECK-NEXT: vmov r5, s22
; CHECK-NEXT: adds.w r12, r2, r5
; CHECK-NEXT: vmov.u8 r5, q1[12]
; CHECK-NEXT: adcs r3, r4
; CHECK-NEXT: vmov.u8 r4, q0[12]
; CHECK-NEXT: vmov.32 q3[0], r5
; CHECK-NEXT: vmov.u8 r5, q1[13]
; CHECK-NEXT: vmov.32 q4[0], r4
; CHECK-NEXT: vmov.u8 r4, q0[13]
; CHECK-NEXT: vmov.32 q3[2], r5
; CHECK-NEXT: vmov.32 q4[2], r4
; CHECK-NEXT: vand q3, q3, q2		; CHECK-NEXT: vand q3, q3, q2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov r3, s18
		; CHECK-NEXT: adds.w r12, r12, r2
		; CHECK-NEXT: vmov r2, s14
		; CHECK-NEXT: adc lr, lr, #0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: vmov.u8 r3, q0[12]
		; CHECK-NEXT: vmov.32 q4[0], r3
		; CHECK-NEXT: vmov.u8 r3, q0[13]
		; CHECK-NEXT: vmov.32 q4[2], r3
; CHECK-NEXT: vand q4, q4, q2		; CHECK-NEXT: vand q4, q4, q2
; CHECK-NEXT: vmov r5, s12		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vmov.u8 r2, q1[12]
; CHECK-NEXT: vmov.32 q5[0], r5		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r5, s14		; CHECK-NEXT: vmov.u8 r2, q1[13]
; CHECK-NEXT: vmov.32 q5[1], r4		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov r4, s18		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: umull r5, r4, r4, r5		; CHECK-NEXT: vand q3, q3, q2
; CHECK-NEXT: vmov.32 q5[2], r5		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov.32 q5[3], r4		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: vmov r5, s21		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: adds.w r2, r2, r12		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: adcs r3, r5		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: vmov r5, s22		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: adds r2, r2, r5		; CHECK-NEXT: vmov.u8 r3, q0[14]
; CHECK-NEXT: vmov.u8 r5, q1[14]		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: vmov.32 q3[0], r5		; CHECK-NEXT: vmov.u8 r2, q1[14]
; CHECK-NEXT: vmov.u8 r5, q1[15]		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: adcs r3, r4		; CHECK-NEXT: vmov.u8 r2, q1[15]
; CHECK-NEXT: vmov.32 q3[2], r5		; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov.u8 r4, q0[14]		; CHECK-NEXT: adc lr, lr, #0
; CHECK-NEXT: vand q1, q3, q2		; CHECK-NEXT: vand q1, q3, q2
; CHECK-NEXT: vmov.32 q3[0], r4		; CHECK-NEXT: vmov.32 q3[0], r3
; CHECK-NEXT: vmov.u8 r4, q0[15]		; CHECK-NEXT: vmov.u8 r3, q0[15]
; CHECK-NEXT: vmov.32 q3[2], r4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov r5, s4		; CHECK-NEXT: vmov.32 q3[2], r3
; CHECK-NEXT: vand q0, q3, q2		; CHECK-NEXT: vand q0, q3, q2
; CHECK-NEXT: vmov r4, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: umlal r2, r3, r4, r5		; CHECK-NEXT: muls r2, r3, r2
; CHECK-NEXT: vmov r5, s6		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r4, s2		; CHECK-NEXT: adds.w r12, r12, r2
; CHECK-NEXT: umlal r2, r3, r4, r5		; CHECK-NEXT: vmov r2, s6
		; CHECK-NEXT: adc lr, lr, #0
		; CHECK-NEXT: muls r2, r3, r2
		; CHECK-NEXT: adds.w r2, r2, r12
		; CHECK-NEXT: adc r3, lr, #0
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: pop {r4, r5, r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i64>		%xx = zext <16 x i8> %x to <16 x i64>
%yy = zext <16 x i8> %y to <16 x i64>		%yy = zext <16 x i8> %y to <16 x i64>
%m = mul <16 x i64> %xx, %yy		%m = mul <16 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_sext(<16 x i8> %x, <16 x i8> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v16i8_v16i64_acc_sext(<16 x i8> %x, <16 x i8> %y, i64 %a) {
; CHECK-LABEL: add_v16i8_v16i64_acc_sext:		; CHECK-LABEL: add_v16i8_v16i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.u8 r2, q1[0]
; CHECK-NEXT: vmov.u8 r3, q0[0]
; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[1]		; CHECK-NEXT: vmov.u8 r2, q1[1]
; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.u8 r3, q0[1]		; CHECK-NEXT: vmov.u8 r3, q0[1]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: smull r3, r12, r3, r2
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: vmov.u8 r2, q1[0]
; CHECK-NEXT: vmov.32 q2[3], r3		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov lr, s10		; CHECK-NEXT: vmov.u8 r2, q0[0]
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov r12, s9		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: adds.w lr, lr, r2
; CHECK-NEXT: vmov.u8 r2, q1[2]		; CHECK-NEXT: vmov.u8 r2, q1[2]
; CHECK-NEXT: adc.w r12, r12, r3		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r3, q0[2]		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r3, r3, r2
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[3]		; CHECK-NEXT: vmov.u8 r2, q1[3]
; CHECK-NEXT: vmov.32 q2[1], r3		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r3, q0[3]		; CHECK-NEXT: vmov.u8 r2, q0[3]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r3, r3, r2		; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r3
; CHECK-NEXT: vmov r4, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r4, r4, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r4, r2
; CHECK-NEXT: vmov.u8 r4, q1[4]
; CHECK-NEXT: vmov.u8 r2, q0[4]		; CHECK-NEXT: vmov.u8 r2, q0[4]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: adc.w r12, r12, r3		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r2, r4
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[5]		; CHECK-NEXT: vmov.u8 r2, q1[5]
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r4, q0[5]		; CHECK-NEXT: vmov.u8 r2, q0[5]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r4, r2		; CHECK-NEXT: vmov.u8 r2, q1[6]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r4
; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: vmov.u8 r2, q0[6]		; CHECK-NEXT: vmov.u8 r2, q0[6]
; CHECK-NEXT: adc.w r12, r12, r4
; CHECK-NEXT: vmov.u8 r4, q1[6]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: smull r2, r4, r2, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[7]		; CHECK-NEXT: vmov.u8 r2, q1[7]
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r4, q0[7]		; CHECK-NEXT: vmov.u8 r2, q0[7]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r4, r2		; CHECK-NEXT: vmov.u8 r2, q1[8]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r4
; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: vmov.u8 r2, q0[8]		; CHECK-NEXT: vmov.u8 r2, q0[8]
; CHECK-NEXT: adc.w r12, r12, r4
; CHECK-NEXT: vmov.u8 r4, q1[8]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: smull r2, r4, r2, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[9]		; CHECK-NEXT: vmov.u8 r2, q1[9]
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r4, q0[9]		; CHECK-NEXT: vmov.u8 r2, q0[9]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r4, r2		; CHECK-NEXT: vmov.u8 r2, q1[10]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r4
; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: vmov.u8 r2, q0[10]		; CHECK-NEXT: vmov.u8 r2, q0[10]
; CHECK-NEXT: adc.w r12, r12, r4
; CHECK-NEXT: vmov.u8 r4, q1[10]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: smull r2, r4, r2, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[11]		; CHECK-NEXT: vmov.u8 r2, q1[11]
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r4, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r4, r2		; CHECK-NEXT: vmov.u8 r2, q1[12]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r4
; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adds.w r3, r3, lr
; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: adds.w lr, r3, r2
; CHECK-NEXT: vmov.u8 r2, q0[12]		; CHECK-NEXT: vmov.u8 r2, q0[12]
; CHECK-NEXT: adc.w r12, r12, r4
; CHECK-NEXT: vmov.u8 r4, q1[12]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: smull r2, r4, r2, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.u8 r2, q1[13]		; CHECK-NEXT: vmov.u8 r2, q1[13]
; CHECK-NEXT: vmov.32 q2[1], r4		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.u8 r4, q0[13]		; CHECK-NEXT: vmov.u8 r2, q0[13]
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r4, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: smull r2, r4, r4, r2		; CHECK-NEXT: vmov.u8 r2, q1[14]
; CHECK-NEXT: vmov.32 q2[2], r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov.32 q2[3], r4		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: adds.w r3, r3, lr		; CHECK-NEXT: vmov.u8 r2, q1[15]
; CHECK-NEXT: adc.w r12, r12, r2		; CHECK-NEXT: sxtb.w lr, r2
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov.u8 r2, q0[15]
; CHECK-NEXT: adds r2, r2, r3		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: adc.w r3, r12, r4		; CHECK-NEXT: smlal r3, r12, r2, lr
; CHECK-NEXT: vmov.u8 r4, q1[14]		; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: sxtb.w r12, r4		; CHECK-NEXT: adc.w r1, r1, r12
; CHECK-NEXT: vmov.u8 r4, q0[14]		; CHECK-NEXT: pop {r7, pc}
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: smlal r2, r3, r4, r12
; CHECK-NEXT: vmov.u8 r4, q1[15]
; CHECK-NEXT: sxtb.w r12, r4
; CHECK-NEXT: vmov.u8 r4, q0[15]
; CHECK-NEXT: sxtb r4, r4
; CHECK-NEXT: smlal r2, r3, r4, r12
; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i64>		%xx = sext <16 x i8> %x to <16 x i64>
%yy = sext <16 x i8> %y to <16 x i64>		%yy = sext <16 x i8> %y to <16 x i64>
%m = mul <16 x i64> %xx, %yy		%m = mul <16 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v16i64(<16 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_zext(<2 x i8> %x, <2 x i8> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_zext(<2 x i8> %x, <2 x i8> %y, i64 %a) {
; CHECK-LABEL: add_v2i8_v2i64_acc_zext:		; CHECK-LABEL: add_v2i8_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov.i64 q2, #0xff		; CHECK-NEXT: vmov.i64 q2, #0xff
; CHECK-NEXT: vand q1, q1, q2		; CHECK-NEXT: vand q1, q1, q2
; CHECK-NEXT: vand q0, q0, q2		; CHECK-NEXT: vand q0, q0, q2
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: umull r12, lr, r3, r2		; CHECK-NEXT: mul r12, r3, r2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: umull r2, r3, r3, r2		; CHECK-NEXT: mla r2, r2, r3, r12
; CHECK-NEXT: add r2, r12
; CHECK-NEXT: orr.w r3, r3, lr
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adcs r1, r3		; CHECK-NEXT: adc r1, r1, #0
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i8> %x to <2 x i64>		%xx = zext <2 x i8> %x to <2 x i64>
%yy = zext <2 x i8> %y to <2 x i64>		%yy = zext <2 x i8> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_sext(<2 x i8> %x, <2 x i8> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i8_v2i64_acc_sext(<2 x i8> %x, <2 x i8> %y, i64 %a) {
; CHECK-LABEL: add_v2i8_v2i64_acc_sext:		; CHECK-LABEL: add_v2i8_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: sxtb r2, r2		; CHECK-NEXT: sxtb r2, r2
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smull r2, r12, r3, r2		; CHECK-NEXT: smull r2, r12, r3, r2
; CHECK-NEXT: vmov r3, s6		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: sxtb.w lr, r3		; CHECK-NEXT: sxtb.w lr, r3
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: sxtb r3, r3		; CHECK-NEXT: sxtb r3, r3
; CHECK-NEXT: smlal r2, r12, r3, lr		; CHECK-NEXT: smlal r2, r12, r3, lr
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, r12		; CHECK-NEXT: adc.w r1, r1, r12
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = sext <2 x i8> %x to <2 x i64>		%xx = sext <2 x i8> %x to <2 x i64>
%yy = sext <2 x i8> %y to <2 x i64>		%yy = sext <2 x i8> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i64_v2i64_acc(<2 x i64> %x, <2 x i64> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i64_v2i64_acc(<2 x i64> %x, <2 x i64> %y, i64 %a) {
; CHECK-LABEL: add_v2i64_v2i64_acc:		; CHECK-LABEL: add_v2i64_v2i64_acc:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, lr}		; CHECK-NEXT: .save {r4, r5, r6, lr}
; CHECK-NEXT: push {r4, r5, r6, lr}		; CHECK-NEXT: push {r4, r5, r6, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r4, s5		; CHECK-NEXT: vmov r4, s7
; CHECK-NEXT: vmov r6, s7		; CHECK-NEXT: vmov r6, s5
; CHECK-NEXT: umull r12, lr, r3, r2		; CHECK-NEXT: umull r12, lr, r3, r2
; CHECK-NEXT: mla r3, r3, r4, lr		; CHECK-NEXT: mla r3, r3, r4, lr
; CHECK-NEXT: vmov r4, s1		; CHECK-NEXT: vmov r4, s3
; CHECK-NEXT: vmov.32 q2[0], r12		; CHECK-NEXT: mla lr, r4, r2, r3
; CHECK-NEXT: mla r2, r4, r2, r3		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r4, s6		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: umull r2, r5, r4, r3
; CHECK-NEXT: vmov.32 q2[1], r2		; CHECK-NEXT: mla r4, r4, r6, r5
; CHECK-NEXT: vmov r12, s8		; CHECK-NEXT: vmov r5, s1
; CHECK-NEXT: umull lr, r5, r3, r4		; CHECK-NEXT: adds.w r2, r2, r12
; CHECK-NEXT: mla r3, r3, r6, r5		; CHECK-NEXT: mla r3, r5, r3, r4
; CHECK-NEXT: vmov r5, s3		; CHECK-NEXT: adc.w r3, r3, lr
; CHECK-NEXT: adds.w r6, r12, lr		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: mla r3, r5, r4, r3		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: adcs r2, r3
; CHECK-NEXT: adds r0, r0, r6
; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: pop {r4, r5, r6, pc}		; CHECK-NEXT: pop {r4, r5, r6, pc}
entry:		entry:
%m = mul <2 x i64> %x, %y		%m = mul <2 x i64> %x, %y
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

Show All 10 Lines

llvm/test/CodeGen/Thumb2/mve-vld2-post.ll

Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	entry:
ret <32 x i8> *%ret		ret <32 x i8> *%ret
}		}

; i64		; i64

define <4 x i64> @vld2_v2i64(<4 x i64> %src, <2 x i64> *%dst) {		define <4 x i64> @vld2_v2i64(<4 x i64> %src, <2 x i64> *%dst) {
; CHECK-LABEL: vld2_v2i64:		; CHECK-LABEL: vld2_v2i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, lr}		; CHECK-NEXT: .save {r4, r5, r7, lr}
; CHECK-NEXT: push {r4, r5, r6, lr}		; CHECK-NEXT: push {r4, r5, r7, lr}
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vldrw.u32 q0, [r0], #32		; CHECK-NEXT: vldrw.u32 q0, [r0], #32
; CHECK-NEXT: vmov.f64 d2, d1		; CHECK-NEXT: vmov.f64 d4, d0
; CHECK-NEXT: vmov.f32 s5, s3		; CHECK-NEXT: vmov.f32 s9, s1
; CHECK-NEXT: vmov.f32 s6, s10		; CHECK-NEXT: vmov.f32 s10, s4
; CHECK-NEXT: vmov.f32 s2, s8		; CHECK-NEXT: vmov.f32 s11, s5
; CHECK-NEXT: vmov.f32 s7, s11		; CHECK-NEXT: vmov lr, s10
; CHECK-NEXT: vmov.f32 s3, s9		; CHECK-NEXT: vmov r3, s6
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s7
; CHECK-NEXT: vmov r3, s2
; CHECK-NEXT: vmov r4, s4
; CHECK-NEXT: vmov r5, s0		; CHECK-NEXT: vmov r5, s0
; CHECK-NEXT: vmov r12, s7		; CHECK-NEXT: vmov r4, s1
; CHECK-NEXT: vmov lr, s3		; CHECK-NEXT: vmov r12, s11
; CHECK-NEXT: adds r6, r3, r2		; CHECK-NEXT: vmov.f64 d4, d1
; CHECK-NEXT: vmov r3, s5		; CHECK-NEXT: vmov.f32 s9, s3
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: adds.w lr, lr, r3
; CHECK-NEXT: adc.w r12, r12, lr		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: adds r5, r5, r4		; CHECK-NEXT: adc.w r12, r12, r2
; CHECK-NEXT: vmov.32 q0[0], r5		; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: adcs r2, r3		; CHECK-NEXT: adds r3, r3, r5
		; CHECK-NEXT: vmov.32 q0[0], r3
		; CHECK-NEXT: adcs r2, r4
; CHECK-NEXT: vmov.32 q0[1], r2		; CHECK-NEXT: vmov.32 q0[1], r2
; CHECK-NEXT: vmov.32 q0[2], r6		; CHECK-NEXT: vmov.32 q0[2], lr
; CHECK-NEXT: vmov.32 q0[3], r12		; CHECK-NEXT: vmov.32 q0[3], r12
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: pop {r4, r5, r6, pc}		; CHECK-NEXT: pop {r4, r5, r7, pc}
entry:		entry:
%l1 = load <4 x i64>, <4 x i64>* %src, align 4		%l1 = load <4 x i64>, <4 x i64>* %src, align 4
%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>		%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>
%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>		%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>
%a = add <2 x i64> %s1, %s2		%a = add <2 x i64> %s1, %s2
store <2 x i64> %a, <2 x i64> *%dst		store <2 x i64> %a, <2 x i64> *%dst
%ret = getelementptr inbounds <4 x i64>, <4 x i64>* %src, i32 1		%ret = getelementptr inbounds <4 x i64>, <4 x i64>* %src, i32 1
ret <4 x i64> *%ret		ret <4 x i64> *%ret
▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld2.ll

	Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	; i64			; i64

	define void @vld2_v2i64(<4 x i64> %src, <2 x i64> %dst) {			define void @vld2_v2i64(<4 x i64> %src, <2 x i64> %dst) {
	; CHECK-LABEL: vld2_v2i64:			; CHECK-LABEL: vld2_v2i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vldrw.u32 q2, [r0, #16]			; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
	; CHECK-NEXT: vmov.f64 d2, d1			; CHECK-NEXT: vmov.f64 d4, d0
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov.f32 s9, s1
	; CHECK-NEXT: vmov.f32 s6, s10			; CHECK-NEXT: vmov.f32 s10, s4
	; CHECK-NEXT: vmov.f32 s2, s8			; CHECK-NEXT: vmov.f32 s11, s5
	; CHECK-NEXT: vmov.f32 s3, s9			; CHECK-NEXT: vmov r2, s10
	; CHECK-NEXT: vmov.f32 s7, s11			; CHECK-NEXT: vmov r0, s6
	; CHECK-NEXT: vmov r3, s6			; CHECK-NEXT: vmov r3, s7
	; CHECK-NEXT: vmov r0, s2
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmov r2, s3			; CHECK-NEXT: vmov r12, s11
	; CHECK-NEXT: vmov r12, s7			; CHECK-NEXT: vmov.f64 d4, d1
	; CHECK-NEXT: adds.w lr, r0, r3			; CHECK-NEXT: vmov.f32 s9, s3
	; CHECK-NEXT: vmov r0, s4			; CHECK-NEXT: adds.w lr, r2, r0
	; CHECK-NEXT: vmov r3, s5			; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: adc.w r12, r12, r2			; CHECK-NEXT: vmov r0, s1
	; CHECK-NEXT: vmov r2, s1			; CHECK-NEXT: adc.w r12, r12, r3
	; CHECK-NEXT: adds r0, r0, r4			; CHECK-NEXT: vmov r3, s9
	; CHECK-NEXT: vmov.32 q0[0], r0			; CHECK-NEXT: adds r2, r2, r4
	; CHECK-NEXT: adcs r2, r3			; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.32 q0[1], r2			; CHECK-NEXT: adcs r0, r3
				; CHECK-NEXT: vmov.32 q0[1], r0
	; CHECK-NEXT: vmov.32 q0[2], lr			; CHECK-NEXT: vmov.32 q0[2], lr
	; CHECK-NEXT: vmov.32 q0[3], r12			; CHECK-NEXT: vmov.32 q0[3], r12
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%l1 = load <4 x i64>, <4 x i64>* %src, align 4			%l1 = load <4 x i64>, <4 x i64>* %src, align 4
	%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>			%s1 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 0, i32 2>
	%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>			%s2 = shufflevector <4 x i64> %l1, <4 x i64> undef, <2 x i32> <i32 1, i32 3>
	%a = add <2 x i64> %s1, %s2			%a = add <2 x i64> %s1, %s2
	store <2 x i64> %a, <2 x i64> *%dst			store <2 x i64> %a, <2 x i64> *%dst
	ret void			ret void
	}			}

	define void @vld2_v4i64(<8 x i64> %src, <4 x i64> %dst) {			define void @vld2_v4i64(<8 x i64> %src, <4 x i64> %dst) {
	; CHECK-LABEL: vld2_v4i64:			; CHECK-LABEL: vld2_v4i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vldrw.u32 q3, [r0, #32]			; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
	; CHECK-NEXT: vldrw.u32 q5, [r0, #48]			; CHECK-NEXT: vldrw.u32 q5, [r0, #48]
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vldrw.u32 q2, [r0, #16]			; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
	; CHECK-NEXT: vmov.f64 d8, d7			; CHECK-NEXT: vmov.f64 d6, d8
	; CHECK-NEXT: vmov.f32 s17, s15			; CHECK-NEXT: vmov.f32 s13, s17
	; CHECK-NEXT: vmov.f32 s18, s22
	; CHECK-NEXT: vmov.f32 s14, s20			; CHECK-NEXT: vmov.f32 s14, s20
	; CHECK-NEXT: vmov.f32 s15, s21			; CHECK-NEXT: vmov.f32 s15, s21
	; CHECK-NEXT: vmov.f32 s19, s23			; CHECK-NEXT: vmov r2, s14
	; CHECK-NEXT: vmov r3, s18			; CHECK-NEXT: vmov r0, s22
	; CHECK-NEXT: vmov r0, s14			; CHECK-NEXT: vmov r3, s23
				; CHECK-NEXT: vmov.f64 d12, d9
				; CHECK-NEXT: vmov r12, s15
				; CHECK-NEXT: vmov.f32 s25, s19
				; CHECK-NEXT: vmov r4, s16
				; CHECK-NEXT: vmov.f64 d4, d0
				; CHECK-NEXT: vmov.f32 s9, s1
				; CHECK-NEXT: vmov.f32 s10, s4
				; CHECK-NEXT: vmov.f32 s11, s5
				; CHECK-NEXT: vmov.f64 d6, d1
				; CHECK-NEXT: adds.w lr, r2, r0
				; CHECK-NEXT: vmov r2, s24
				; CHECK-NEXT: vmov r0, s17
				; CHECK-NEXT: vmov.f32 s13, s3
				; CHECK-NEXT: adc.w r12, r12, r3
				; CHECK-NEXT: vmov r3, s25
				; CHECK-NEXT: adds r2, r2, r4
				; CHECK-NEXT: vmov r4, s6
				; CHECK-NEXT: vmov.32 q4[0], r2
				; CHECK-NEXT: vmov r2, s10
				; CHECK-NEXT: adcs r0, r3
				; CHECK-NEXT: vmov r3, s7
				; CHECK-NEXT: vmov.32 q4[1], r0
				; CHECK-NEXT: vmov r0, s11
				; CHECK-NEXT: vmov.32 q4[2], lr
				; CHECK-NEXT: vmov.32 q4[3], r12
				; CHECK-NEXT: vstrw.32 q4, [r1, #16]
				; CHECK-NEXT: adds.w lr, r2, r4
	; CHECK-NEXT: vmov r4, s12			; CHECK-NEXT: vmov r4, s12
	; CHECK-NEXT: vmov.f64 d2, d1			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov r12, s19			; CHECK-NEXT: adc.w r12, r0, r3
	; CHECK-NEXT: vmov r2, s15			; CHECK-NEXT: vmov r3, s13
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov r0, s1
	; CHECK-NEXT: vmov.f32 s6, s10			; CHECK-NEXT: adds r2, r2, r4
	; CHECK-NEXT: vmov.f32 s2, s8			; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.f32 s7, s11			; CHECK-NEXT: adcs r0, r3
	; CHECK-NEXT: vmov.f32 s3, s9			; CHECK-NEXT: vmov.32 q0[1], r0
	; CHECK-NEXT: adds.w lr, r0, r3
	; CHECK-NEXT: vmov r0, s16
	; CHECK-NEXT: vmov r3, s17
	; CHECK-NEXT: adc.w r12, r12, r2
	; CHECK-NEXT: vmov r2, s13
	; CHECK-NEXT: adds r0, r0, r4
	; CHECK-NEXT: vmov r4, s2
	; CHECK-NEXT: vmov.32 q3[0], r0
	; CHECK-NEXT: vmov r0, s7
	; CHECK-NEXT: adcs r2, r3
	; CHECK-NEXT: vmov r3, s6
	; CHECK-NEXT: vmov.32 q3[1], r2
	; CHECK-NEXT: vmov r2, s3
	; CHECK-NEXT: vmov.32 q3[2], lr
	; CHECK-NEXT: vmov.32 q3[3], r12
	; CHECK-NEXT: vstrw.32 q3, [r1, #16]
	; CHECK-NEXT: adds.w lr, r4, r3
	; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: adc.w r12, r2, r0
	; CHECK-NEXT: vmov r0, s4
	; CHECK-NEXT: vmov r2, s5
	; CHECK-NEXT: vmov r4, s1
	; CHECK-NEXT: adds r0, r0, r3
	; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: adcs r2, r4
	; CHECK-NEXT: vmov.32 q0[1], r2
	; CHECK-NEXT: vmov.32 q0[2], lr			; CHECK-NEXT: vmov.32 q0[2], lr
	; CHECK-NEXT: vmov.32 q0[3], r12			; CHECK-NEXT: vmov.32 q0[3], r12
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: vpop {d8, d9, d10, d11}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%l1 = load <8 x i64>, <8 x i64>* %src, align 4			%l1 = load <8 x i64>, <8 x i64>* %src, align 4
	%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%a = add <4 x i64> %s1, %s2			%a = add <4 x i64> %s1, %s2
	store <4 x i64> %a, <4 x i64> *%dst			store <4 x i64> %a, <4 x i64> *%dst
	ret void			ret void
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines

	; f16			; f16

	define void @vld2_v2f16(<4 x half> %src, <2 x half> %dst) {			define void @vld2_v2f16(<4 x half> %src, <2 x half> %dst) {
	; CHECK-LABEL: vld2_v2f16:			; CHECK-LABEL: vld2_v2f16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: ldrd r2, r0, [r0]			; CHECK-NEXT: ldrd r2, r0, [r0]
	; CHECK-NEXT: vmov.32 q0[0], r2			; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.32 q0[1], r0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmovx.f16 s4, s1			; CHECK-NEXT: vmov.32 q1[1], r0
	; CHECK-NEXT: vmov r0, s4			; CHECK-NEXT: vmovx.f16 s8, s5
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vmov r2, s4			; CHECK-NEXT: vmovx.f16 s8, s0
	; CHECK-NEXT: vmov.16 q1[0], r2			; CHECK-NEXT: vmov r2, s8
				; CHECK-NEXT: vmov.16 q2[0], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.16 q1[1], r0			; CHECK-NEXT: vmov.16 q2[1], r0
	; CHECK-NEXT: vmov r0, s1			; CHECK-NEXT: vmov r0, s5
	; CHECK-NEXT: vmov.16 q0[0], r2			; CHECK-NEXT: vmov.16 q0[0], r2
	; CHECK-NEXT: vmov.16 q0[1], r0			; CHECK-NEXT: vmov.16 q0[1], r0
	; CHECK-NEXT: vadd.f16 q0, q0, q1			; CHECK-NEXT: vadd.f16 q0, q0, q2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: str r0, [r1]			; CHECK-NEXT: str r0, [r1]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%l1 = load <4 x half>, <4 x half>* %src, align 4			%l1 = load <4 x half>, <4 x half>* %src, align 4
	%s1 = shufflevector <4 x half> %l1, <4 x half> undef, <2 x i32> <i32 0, i32 2>			%s1 = shufflevector <4 x half> %l1, <4 x half> undef, <2 x i32> <i32 0, i32 2>
	%s2 = shufflevector <4 x half> %l1, <4 x half> undef, <2 x i32> <i32 1, i32 3>			%s2 = shufflevector <4 x half> %l1, <4 x half> undef, <2 x i32> <i32 1, i32 3>
	%a = fadd <2 x half> %s1, %s2			%a = fadd <2 x half> %s1, %s2
	▲ Show 20 Lines • Show All 122 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld3.ll

Show First 20 Lines • Show All 328 Lines • ▼ Show 20 Lines	entry:
%a = add <4 x i16> %a1, %s3		%a = add <4 x i16> %a1, %s3
store <4 x i16> %a, <4 x i16> *%dst		store <4 x i16> %a, <4 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {		define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {
; CHECK-LABEL: vld3_v8i16:		; CHECK-LABEL: vld3_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vldrw.u32 q3, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
; CHECK-NEXT: vmov.u16 r2, q1[2]
; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmov.16 q3[0], r2
; CHECK-NEXT: vmov.u16 r0, q3[7]
; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.f32 s22, s12		; CHECK-NEXT: vmov.16 q3[1], r2
		; CHECK-NEXT: vmov.u16 r2, q2[6]
		; CHECK-NEXT: vmov q4, q3
		; CHECK-NEXT: vmov.u16 r0, q0[2]
		; CHECK-NEXT: vmov.16 q4[2], r2
		; CHECK-NEXT: vmov.u16 r2, q1[1]
; CHECK-NEXT: vmov.16 q4[3], r2		; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov q6, q5		; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.f32 s18, s11		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov r2, s16		; CHECK-NEXT: vmov.u16 r2, q1[4]
; CHECK-NEXT: vmovnb.i32 q6, q4		; CHECK-NEXT: vmov q5, q4
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vmov.16 q6[7], r0
; CHECK-NEXT: vmov r2, s17		; CHECK-NEXT: vmov.16 q5[4], r2
; CHECK-NEXT: vmov.32 q0[1], r2		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov r0, s26		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.32 q0[2], r0		; CHECK-NEXT: vmov.f32 s13, s17
; CHECK-NEXT: vmov r0, s23
; CHECK-NEXT: vmov.32 q0[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[6]
; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
; CHECK-NEXT: vmov.16 q4[3], r0		; CHECK-NEXT: vmov.f32 s14, s22
; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q1[1]
; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vmov.16 q5[0], r0		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.16 q5[1], r0		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.f32 s15, s27
		; CHECK-NEXT: vmov r0, s20
		; CHECK-NEXT: vmov.32 q4[0], r0
		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q5[2], r0		; CHECK-NEXT: vmov.16 q5[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[2]		; CHECK-NEXT: vmov.u16 r0, q1[2]
; CHECK-NEXT: vmov.16 q5[3], r0		; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]
; CHECK-NEXT: vmov.16 q1[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]
; CHECK-NEXT: vmov.16 q1[6], r0
; CHECK-NEXT: vmov.u16 r0, q3[6]
; CHECK-NEXT: vmov.16 q1[7], r0
; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov r0, s21		; CHECK-NEXT: vmov r0, s21
; CHECK-NEXT: vmovnb.i32 q2, q5		; CHECK-NEXT: vmov.32 q4[1], r0
; CHECK-NEXT: vmov.32 q3[1], r0		; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov r0, s7		; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.32 q3[3], r0		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vadd.i16 q1, q4, q3		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vadd.i16 q0, q1, q0		; CHECK-NEXT: vmov.u16 r0, q0[6]
		; CHECK-NEXT: vmov.16 q6[7], r0
		; CHECK-NEXT: vmov q7, q6
		; CHECK-NEXT: vmovnb.i32 q7, q5
		; CHECK-NEXT: vmov r0, s30
		; CHECK-NEXT: vmov.32 q4[2], r0
		; CHECK-NEXT: vmov r0, s27
		; CHECK-NEXT: vmov.32 q4[3], r0
		; CHECK-NEXT: vmov.u16 r0, q2[2]
		; CHECK-NEXT: vadd.i16 q3, q3, q4
		; CHECK-NEXT: vmov.16 q4[0], r0
		; CHECK-NEXT: vmov.u16 r0, q2[5]
		; CHECK-NEXT: vmov.16 q4[1], r0
		; CHECK-NEXT: vmov.u16 r0, q1[0]
		; CHECK-NEXT: vmov q2, q4
		; CHECK-NEXT: vmov.16 q2[2], r0
		; CHECK-NEXT: vmov.u16 r0, q1[3]
		; CHECK-NEXT: vmov.16 q2[3], r0
		; CHECK-NEXT: vmov.f32 s17, s9
		; CHECK-NEXT: vmov.f32 s18, s7
		; CHECK-NEXT: vmov r0, s16
		; CHECK-NEXT: vmov.32 q1[0], r0
		; CHECK-NEXT: vmov r0, s17
		; CHECK-NEXT: vmov.32 q1[1], r0
		; CHECK-NEXT: vmov.u16 r0, q0[4]
		; CHECK-NEXT: vmov.16 q2[6], r0
		; CHECK-NEXT: vmov.u16 r0, q0[7]
		; CHECK-NEXT: vmov.16 q2[7], r0
		; CHECK-NEXT: vmov.f32 s10, s0
		; CHECK-NEXT: vmov q0, q2
		; CHECK-NEXT: vmovnb.i32 q0, q4
		; CHECK-NEXT: vmov r0, s2
		; CHECK-NEXT: vmov.32 q1[2], r0
		; CHECK-NEXT: vmov r0, s11
		; CHECK-NEXT: vmov.32 q1[3], r0
		; CHECK-NEXT: vadd.i16 q0, q3, q1
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x i16>, <24 x i16>* %src, align 4		%l1 = load <24 x i16>, <24 x i16>* %src, align 4
%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = add <8 x i16> %s1, %s2		%a1 = add <8 x i16> %s1, %s2
%a = add <8 x i16> %a1, %s3		%a = add <8 x i16> %a1, %s3
store <8 x i16> %a, <8 x i16> *%dst		store <8 x i16> %a, <8 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {		define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {
; CHECK-LABEL: vld3_v16i16:		; CHECK-LABEL: vld3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q1, [r0, #48]		; CHECK-NEXT: .pad #32
; CHECK-NEXT: vldrw.u32 q2, [r0, #64]		; CHECK-NEXT: sub sp, #32
; CHECK-NEXT: vldrw.u32 q3, [r0, #80]		; CHECK-NEXT: vldrw.u32 q2, [r0, #48]
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vldrw.u32 q1, [r0, #64]
; CHECK-NEXT: vmov.16 q4[0], r2		; CHECK-NEXT: vldrw.u32 q0, [r0, #80]
; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.16 q4[2], r2		; CHECK-NEXT: vmov.16 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q4[3], r2		; CHECK-NEXT: vmov.16 q3[1], r2
; CHECK-NEXT: vmov.f32 s18, s11		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov r2, s16		; CHECK-NEXT: vmov q4, q3
; CHECK-NEXT: vmov.32 q0[0], r2
; CHECK-NEXT: vmov r2, s17
; CHECK-NEXT: vmov.32 q0[1], r2
; CHECK-NEXT: vmov.u16 r2, q3[4]
; CHECK-NEXT: vmov.16 q5[6], r2
; CHECK-NEXT: vmov.u16 r2, q3[7]
; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vmov.f32 s22, s12
; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmovnb.i32 q6, q4
; CHECK-NEXT: vmov r2, s26
; CHECK-NEXT: vmov.32 q0[2], r2
; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: vmov.32 q0[3], r2
; CHECK-NEXT: vmov.u16 r2, q1[0]
; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q1[6]
; CHECK-NEXT: vmov.16 q4[2], r2		; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[1]
; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov.16 q4[4], r2
; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.16 q5[6], r2
; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.16 q4[5], r2
; CHECK-NEXT: vmov.u16 r2, q1[1]		; CHECK-NEXT: vmov.u16 r2, q1[1]
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[4]		; CHECK-NEXT: vmov.u16 r2, q1[4]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov q5, q4
		; CHECK-NEXT: vmov.f32 s13, s17
		; CHECK-NEXT: vmov.16 q5[4], r2
		; CHECK-NEXT: vmov.u16 r2, q0[2]
		; CHECK-NEXT: vmov.16 q6[6], r2
		; CHECK-NEXT: vmov.u16 r2, q0[5]
		; CHECK-NEXT: vmov.16 q6[7], r2
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov.u16 r2, q1[7]
		; CHECK-NEXT: vmov.16 q5[5], r2
		; CHECK-NEXT: vmov.u16 r2, q2[1]
		; CHECK-NEXT: vmov.f32 s14, s22
		; CHECK-NEXT: vmov.16 q5[0], r2
		; CHECK-NEXT: vmov.u16 r2, q2[4]
		; CHECK-NEXT: vmov.f32 s15, s27
		; CHECK-NEXT: vmov.16 q5[1], r2
		; CHECK-NEXT: vmov r2, s20
		; CHECK-NEXT: vmov.32 q4[0], r2
		; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.16 q5[2], r2		; CHECK-NEXT: vmov.16 q5[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[2]		; CHECK-NEXT: vmov.u16 r2, q1[2]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[3], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov r2, s21
		; CHECK-NEXT: vmov.32 q4[1], r2
		; CHECK-NEXT: vmov.u16 r2, q0[0]
		; CHECK-NEXT: vmov.16 q6[5], r2
		; CHECK-NEXT: vmov.u16 r2, q0[3]
		; CHECK-NEXT: vmov.16 q6[6], r2
		; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q5[4], r2
		; CHECK-NEXT: vmov.u16 r2, q0[6]
		; CHECK-NEXT: vmov.16 q6[7], r2
		; CHECK-NEXT: vmov q7, q6
		; CHECK-NEXT: vmovnb.i32 q7, q5
		; CHECK-NEXT: vmov r2, s30
		; CHECK-NEXT: vmov.32 q4[2], r2
		; CHECK-NEXT: vmov r2, s27
		; CHECK-NEXT: vmov.32 q4[3], r2
		; CHECK-NEXT: vmov.u16 r2, q2[2]
		; CHECK-NEXT: vadd.i16 q3, q3, q4
		; CHECK-NEXT: vmov.16 q4[0], r2
		; CHECK-NEXT: vmov.u16 r2, q2[5]
		; CHECK-NEXT: vmov.16 q4[1], r2
		; CHECK-NEXT: vmov.u16 r2, q1[0]
		; CHECK-NEXT: vmov q2, q4
		; CHECK-NEXT: vmov.16 q2[2], r2
		; CHECK-NEXT: vmov.u16 r2, q1[3]
		; CHECK-NEXT: vmov.16 q2[3], r2
		; CHECK-NEXT: vmov.f32 s17, s9
		; CHECK-NEXT: vmov.f32 s18, s7
		; CHECK-NEXT: vmov r2, s16
		; CHECK-NEXT: vmov.32 q1[0], r2
		; CHECK-NEXT: vmov r2, s17
		; CHECK-NEXT: vmov.32 q1[1], r2
		; CHECK-NEXT: vmov.u16 r2, q0[4]
		; CHECK-NEXT: vmov.16 q2[6], r2
		; CHECK-NEXT: vmov.u16 r2, q0[7]
		; CHECK-NEXT: vmov.16 q2[7], r2
		; CHECK-NEXT: vmov.f32 s10, s0
		; CHECK-NEXT: vmov q0, q2
		; CHECK-NEXT: vmovnb.i32 q0, q4
		; CHECK-NEXT: vmov r2, s2
		; CHECK-NEXT: vmov.32 q1[2], r2
		; CHECK-NEXT: vmov r2, s11
		; CHECK-NEXT: vmov.32 q1[3], r2
		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
		; CHECK-NEXT: vadd.i16 q0, q3, q1
		; CHECK-NEXT: vldrw.u32 q3, [r0]
		; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
		; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
; CHECK-NEXT: vmov.u16 r2, q3[0]		; CHECK-NEXT: vmov.u16 r2, q3[0]
; CHECK-NEXT: vmov.16 q1[5], r2		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[3]		; CHECK-NEXT: vmov.u16 r2, q3[3]
; CHECK-NEXT: vmov.16 q1[6], r2		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q3[6]		; CHECK-NEXT: vmov.u16 r2, q3[6]
; CHECK-NEXT: vmov.16 q1[7], r2		; CHECK-NEXT: vmov q5, q4
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: vmovnb.i32 q2, q5
; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov.32 q3[2], r2
; CHECK-NEXT: vmov r2, s7
; CHECK-NEXT: vmov.32 q3[3], r2
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vadd.i16 q1, q4, q3
; CHECK-NEXT: vldrw.u32 q3, [r0, #32]
; CHECK-NEXT: vadd.i16 q0, q1, q0
; CHECK-NEXT: vldrw.u32 q1, [r0]
; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmov.u16 r2, q1[2]
; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q5[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.u16 r0, q3[7]
; CHECK-NEXT: vmov.16 q5[2], r2		; CHECK-NEXT: vmov.16 q5[2], r2
; CHECK-NEXT: vmov.16 q6[7], r0		; CHECK-NEXT: vmov.u16 r2, q2[1]
; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[3], r2
; CHECK-NEXT: vmov.f32 s26, s12		; CHECK-NEXT: vmov.16 q7[6], r0
; CHECK-NEXT: vmov.f32 s22, s11		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov q7, q6		; CHECK-NEXT: vmov.u16 r2, q2[4]
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmovnb.i32 q7, q5		; CHECK-NEXT: vmov.16 q7[7], r0
; CHECK-NEXT: vmov.32 q4[0], r0		; CHECK-NEXT: vmov.16 q6[4], r2
; CHECK-NEXT: vmov r0, s21		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.32 q4[1], r0		; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov r0, s30		; CHECK-NEXT: vmov.u16 r0, q3[1]
; CHECK-NEXT: vmov.32 q4[2], r0		; CHECK-NEXT: vmov.f32 s17, s21
; CHECK-NEXT: vmov r0, s27
; CHECK-NEXT: vmov.32 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.16 q5[0], r0		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[3]		; CHECK-NEXT: vmov.u16 r0, q3[4]
		; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vmov.16 q5[1], r0		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[6]		; CHECK-NEXT: vmov.u16 r0, q3[7]
; CHECK-NEXT: vmov.16 q5[2], r0		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.f32 s19, s31
; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q6[7], r0
; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov.u16 r0, q1[1]
; CHECK-NEXT: vmov.f32 s23, s27
; CHECK-NEXT: vmov.16 q6[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.16 q6[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.16 q6[2], r0		; CHECK-NEXT: vmov.16 q6[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[2]		; CHECK-NEXT: vmov.u16 r0, q2[2]
; CHECK-NEXT: vmov.16 q6[3], r0		; CHECK-NEXT: vmov.16 q6[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.16 q6[4], r0		; CHECK-NEXT: vmov q1, q6
; CHECK-NEXT: vmov r0, s24		; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
		; CHECK-NEXT: vmov.16 q1[4], r0
		; CHECK-NEXT: vmov.u16 r0, q0[0]
		; CHECK-NEXT: vmov.16 q7[5], r0
		; CHECK-NEXT: vmov.u16 r0, q0[3]
		; CHECK-NEXT: vmov.16 q7[6], r0
		; CHECK-NEXT: vmov.u16 r0, q0[6]
		; CHECK-NEXT: vmov.16 q7[7], r0
		; CHECK-NEXT: vmov r0, s20
		; CHECK-NEXT: vmov q0, q7
		; CHECK-NEXT: vmovnb.i32 q0, q1
; CHECK-NEXT: vmov.32 q1[0], r0		; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: vmov r0, s25		; CHECK-NEXT: vmov r0, s25
; CHECK-NEXT: vmov.32 q1[1], r0		; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov.16 q2[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]
; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov.u16 r0, q3[6]
; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vmov q3, q2
; CHECK-NEXT: vmovnb.i32 q3, q6
; CHECK-NEXT: vmov r0, s14
; CHECK-NEXT: vmov.32 q1[2], r0		; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: vmov r0, s11		; CHECK-NEXT: vmov r0, s31
; CHECK-NEXT: vmov.32 q1[3], r0		; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vadd.i16 q1, q5, q1		; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vadd.i16 q1, q1, q4		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vstrw.32 q1, [r1]		; CHECK-NEXT: vmov.u16 r0, q3[5]
		; CHECK-NEXT: vmov.16 q5[1], r0
		; CHECK-NEXT: vmov.u16 r0, q2[0]
		; CHECK-NEXT: vmov q0, q5
		; CHECK-NEXT: vadd.i16 q4, q4, q1
		; CHECK-NEXT: vmov.16 q0[2], r0
		; CHECK-NEXT: vmov.u16 r0, q2[3]
		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s21, s1
		; CHECK-NEXT: vmov.f32 s22, s11
		; CHECK-NEXT: vmov r0, s20
		; CHECK-NEXT: vmov.32 q2[0], r0
		; CHECK-NEXT: vmov r0, s21
		; CHECK-NEXT: vmov.32 q2[1], r0
		; CHECK-NEXT: vmov.u16 r0, q1[4]
		; CHECK-NEXT: vmov.16 q0[6], r0
		; CHECK-NEXT: vmov.u16 r0, q1[7]
		; CHECK-NEXT: vmov.16 q0[7], r0
		; CHECK-NEXT: vmov.f32 s2, s4
		; CHECK-NEXT: vmov q1, q0
		; CHECK-NEXT: vmovnb.i32 q1, q5
		; CHECK-NEXT: vmov r0, s6
		; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
		; CHECK-NEXT: vmov.32 q2[2], r0
		; CHECK-NEXT: vmov r0, s3
		; CHECK-NEXT: vmov.32 q2[3], r0
		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
		; CHECK-NEXT: vadd.i16 q0, q4, q2
		; CHECK-NEXT: vstrw.32 q0, [r1]
		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i16>, <48 x i16>* %src, align 4		%l1 = load <48 x i16>, <48 x i16>* %src, align 4
%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = add <16 x i16> %s1, %s2		%a1 = add <16 x i16> %s1, %s2
▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.8 q1[0], r2		; CHECK-NEXT: vmov.8 q1[0], r2
; CHECK-NEXT: vmov.u8 r2, q2[3]		; CHECK-NEXT: vmov.u8 r2, q2[3]
; CHECK-NEXT: vmov.8 q1[1], r2		; CHECK-NEXT: vmov.8 q1[1], r2
; CHECK-NEXT: vmov.u8 r2, q2[6]		; CHECK-NEXT: vmov.u8 r2, q2[6]
; CHECK-NEXT: vmov.8 q1[2], r2		; CHECK-NEXT: vmov.8 q1[2], r2
; CHECK-NEXT: vmov.u8 r2, q2[9]		; CHECK-NEXT: vmov.u8 r2, q2[9]
; CHECK-NEXT: vmov.8 q1[3], r2		; CHECK-NEXT: vmov.8 q1[3], r2
; CHECK-NEXT: vmov.u8 r2, q2[12]		; CHECK-NEXT: vmov.u8 r2, q2[12]
; CHECK-NEXT: vmov.8 q1[4], r2		; CHECK-NEXT: vmov q4, q1
		; CHECK-NEXT: vmov.8 q4[4], r2
; CHECK-NEXT: vmov.u8 r2, q2[15]		; CHECK-NEXT: vmov.u8 r2, q2[15]
; CHECK-NEXT: vmov.8 q1[5], r2		; CHECK-NEXT: vmov.8 q4[5], r2
; CHECK-NEXT: vmov.u8 r2, q0[2]		; CHECK-NEXT: vmov.u8 r2, q0[2]
; CHECK-NEXT: vmov.8 q1[6], r2		; CHECK-NEXT: vmov.8 q4[6], r2
; CHECK-NEXT: vmov.u8 r2, q0[5]		; CHECK-NEXT: vmov.u8 r2, q0[5]
; CHECK-NEXT: vmov.8 q1[7], r2		; CHECK-NEXT: vmov.8 q4[7], r2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov.32 q3[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov r2, s17
; CHECK-NEXT: vmov.32 q3[1], r2		; CHECK-NEXT: vmov.32 q3[1], r2
; CHECK-NEXT: vmov.u8 r2, q0[8]		; CHECK-NEXT: vmov.u8 r2, q0[8]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vmov.8 q4[8], r2		; CHECK-NEXT: vmov.8 q4[8], r2
; CHECK-NEXT: vmov.u8 r2, q0[11]		; CHECK-NEXT: vmov.u8 r2, q0[11]
; CHECK-NEXT: vmov.8 q4[9], r2		; CHECK-NEXT: vmov.8 q4[9], r2
; CHECK-NEXT: vmov.u8 r2, q0[14]		; CHECK-NEXT: vmov.u8 r2, q0[14]
; CHECK-NEXT: vmov.8 q4[10], r2		; CHECK-NEXT: vmov.8 q4[10], r2
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.8 q4[11], r0		; CHECK-NEXT: vmov.8 q4[11], r0
; CHECK-NEXT: vmov r0, s18		; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: vmov.32 q3[2], r0		; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q2[1]		; CHECK-NEXT: vmov.u8 r0, q2[1]
; CHECK-NEXT: vmov.8 q5[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q2[4]		; CHECK-NEXT: vmov.u8 r0, q2[4]
; CHECK-NEXT: vmov.8 q5[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q2[7]		; CHECK-NEXT: vmov.u8 r0, q2[7]
; CHECK-NEXT: vmov.8 q5[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q2[10]		; CHECK-NEXT: vmov.u8 r0, q2[10]
; CHECK-NEXT: vmov.8 q5[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q2[13]		; CHECK-NEXT: vmov.u8 r0, q2[13]
		; CHECK-NEXT: vmov q5, q4
; CHECK-NEXT: vmov.8 q5[4], r0		; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.8 q5[5], r0		; CHECK-NEXT: vmov.8 q5[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.8 q5[6], r0		; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]		; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.8 q5[7], r0		; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov r0, s16
; CHECK-NEXT: vmov.32 q4[0], r0		; CHECK-NEXT: vmov.32 q4[0], r0
; CHECK-NEXT: vmov r0, s21		; CHECK-NEXT: vmov r0, s21
; CHECK-NEXT: vmov.32 q4[1], r0		; CHECK-NEXT: vmov.32 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[9]		; CHECK-NEXT: vmov.u8 r0, q0[9]
; CHECK-NEXT: vmov.8 q5[8], r0		; CHECK-NEXT: vmov.8 q5[8], r0
; CHECK-NEXT: vmov.u8 r0, q0[12]		; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.8 q5[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]		; CHECK-NEXT: vmov.u8 r0, q0[15]
Show All 27 Lines
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q2[5]		; CHECK-NEXT: vmov.u8 r0, q2[5]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q2[8]		; CHECK-NEXT: vmov.u8 r0, q2[8]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q2[11]		; CHECK-NEXT: vmov.u8 r0, q2[11]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q2[14]		; CHECK-NEXT: vmov.u8 r0, q2[14]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov q5, q4
		; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.8 q4[5], r0		; CHECK-NEXT: vmov.8 q5[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.8 q4[6], r0		; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.8 q4[7], r0		; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov r0, s16
; CHECK-NEXT: vmov.32 q2[0], r0		; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov r0, s17		; CHECK-NEXT: vmov r0, s21
; CHECK-NEXT: vmov.32 q2[1], r0		; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[10]		; CHECK-NEXT: vmov.u8 r0, q0[10]
; CHECK-NEXT: vmov.8 q4[8], r0		; CHECK-NEXT: vmov.8 q4[8], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]		; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.8 q4[9], r0		; CHECK-NEXT: vmov.8 q4[9], r0
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q4[10], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
Show All 27 Lines

; i64		; i64

define void @vld3_v2i64(<6 x i64> %src, <2 x i64> %dst) {		define void @vld3_v2i64(<6 x i64> %src, <2 x i64> %dst) {
; CHECK-LABEL: vld3_v2i64:		; CHECK-LABEL: vld3_v2i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vpush {d8, d9}		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0, #16]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vmov.f64 d4, d1
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]		; CHECK-NEXT: vmov.f32 s9, s3
; CHECK-NEXT: vmov.f64 d6, d3		; CHECK-NEXT: vmov.f32 s10, s4
; CHECK-NEXT: vmov.f32 s13, s7		; CHECK-NEXT: vmov.f32 s11, s5
; CHECK-NEXT: vmov.f32 s14, s16		; CHECK-NEXT: vmov r3, s10
; CHECK-NEXT: vmov.f32 s6, s10		; CHECK-NEXT: vmov r2, s14
; CHECK-NEXT: vmov.f32 s7, s11		; CHECK-NEXT: vmov r0, s15
; CHECK-NEXT: vmov.f32 s15, s17		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: vmov r12, s11
		; CHECK-NEXT: adds r2, r2, r3
		; CHECK-NEXT: vmov r3, s7
		; CHECK-NEXT: adc.w r12, r12, r0
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov.f64 d0, d4		; CHECK-NEXT: adds.w lr, r2, r0
; CHECK-NEXT: vmov.f32 s1, s9		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov.f32 s2, s18		; CHECK-NEXT: adc.w r12, r12, r3
; CHECK-NEXT: vmov.f32 s3, s19		; CHECK-NEXT: vmov r3, s9
; CHECK-NEXT: vmov r12, s15		; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: vmov r2, s7		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: vmov r4, s4		; CHECK-NEXT: vmov r4, s12
; CHECK-NEXT: adds.w lr, r0, r3		; CHECK-NEXT: adcs r0, r3
; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: adc.w r2, r2, r12
; CHECK-NEXT: adds.w lr, lr, r0
; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: adc.w r12, r2, r3
; CHECK-NEXT: vmov r3, s13		; CHECK-NEXT: vmov r3, s13
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adds r0, r0, r4		; CHECK-NEXT: vmov.32 q0[0], r2
; CHECK-NEXT: vmov r4, s0		; CHECK-NEXT: adcs r0, r3
; CHECK-NEXT: adcs r2, r3		; CHECK-NEXT: vmov.32 q0[1], r0
; CHECK-NEXT: vmov r3, s1
; CHECK-NEXT: adds r0, r0, r4
; CHECK-NEXT: vmov.32 q0[0], r0
; CHECK-NEXT: adcs r2, r3
; CHECK-NEXT: vmov.32 q0[1], r2
; CHECK-NEXT: vmov.32 q0[2], lr		; CHECK-NEXT: vmov.32 q0[2], lr
; CHECK-NEXT: vmov.32 q0[3], r12		; CHECK-NEXT: vmov.32 q0[3], r12
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%l1 = load <6 x i64>, <6 x i64>* %src, align 4		%l1 = load <6 x i64>, <6 x i64>* %src, align 4
%s1 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 0, i32 3>		%s1 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 0, i32 3>
%s2 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 1, i32 4>		%s2 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 1, i32 4>
%s3 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 2, i32 5>		%s3 = shufflevector <6 x i64> %l1, <6 x i64> undef, <2 x i32> <i32 2, i32 5>
%a1 = add <2 x i64> %s1, %s2		%a1 = add <2 x i64> %s1, %s2
%a = add <2 x i64> %a1, %s3		%a = add <2 x i64> %a1, %s3
store <2 x i64> %a, <2 x i64> *%dst		store <2 x i64> %a, <2 x i64> *%dst
ret void		ret void
}		}

define void @vld3_v4i64(<12 x i64> %src, <4 x i64> %dst) {		define void @vld3_v4i64(<12 x i64> %src, <4 x i64> %dst) {
; CHECK-LABEL: vld3_v4i64:		; CHECK-LABEL: vld3_v4i64:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #24		; CHECK-NEXT: vldrw.u32 q4, [r0, #48]
; CHECK-NEXT: sub sp, #24		; CHECK-NEXT: vldrw.u32 q5, [r0, #80]
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]		; CHECK-NEXT: vldrw.u32 q7, [r0, #64]
; CHECK-NEXT: vldrw.u32 q5, [r0, #48]		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vldrw.u32 q6, [r0, #64]		; CHECK-NEXT: vmov.f64 d12, d9
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vmov.f64 d4, d0		; CHECK-NEXT: vldrw.u32 q3, [r0, #16]
; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill		; CHECK-NEXT: vmov.f32 s25, s19
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]		; CHECK-NEXT: vmov.f32 s26, s20
; CHECK-NEXT: vmov.f32 s9, s1		; CHECK-NEXT: vmov.f32 s27, s21
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vmov r3, s26
; CHECK-NEXT: vmov.f64 d14, d11		; CHECK-NEXT: vmov r2, s30
; CHECK-NEXT: vmov.f32 s29, s23		; CHECK-NEXT: vmov r0, s31
; CHECK-NEXT: vmov.f32 s30, s0		; CHECK-NEXT: vmov r4, s16
; CHECK-NEXT: vmov.f32 s22, s26		; CHECK-NEXT: vmov.f64 d4, d1
; CHECK-NEXT: vmov.f32 s23, s27		; CHECK-NEXT: vmov r12, s27
; CHECK-NEXT: vmov.f32 s31, s1		; CHECK-NEXT: vmov.f32 s9, s3
; CHECK-NEXT: vmov r3, s30		; CHECK-NEXT: vmov.f32 s10, s4
		; CHECK-NEXT: vmov.f32 s11, s5
		; CHECK-NEXT: adds r2, r2, r3
		; CHECK-NEXT: vmov r3, s23
		; CHECK-NEXT: adc.w r12, r12, r0
; CHECK-NEXT: vmov r0, s22		; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: vmov.f64 d6, d3		; CHECK-NEXT: adds.w lr, r2, r0
; CHECK-NEXT: vmov.f32 s13, s7		; CHECK-NEXT: vmov r2, s24
; CHECK-NEXT: vmov.f32 s10, s18		; CHECK-NEXT: adc.w r12, r12, r3
; CHECK-NEXT: vmov.f32 s14, s16		; CHECK-NEXT: vmov r3, s25
; CHECK-NEXT: vmov.f32 s11, s19		; CHECK-NEXT: vmov r0, s17
; CHECK-NEXT: vmov.f32 s15, s17		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: vmov.f64 d8, d12		; CHECK-NEXT: vmov r4, s28
; CHECK-NEXT: vmov.f32 s17, s25		; CHECK-NEXT: adcs r0, r3
; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vmov r12, s31
; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: adds.w lr, r0, r3
; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: vmov r4, s20
; CHECK-NEXT: vmov r3, s19
; CHECK-NEXT: adc.w r2, r2, r12
; CHECK-NEXT: adds.w lr, lr, r0
; CHECK-NEXT: vmov r0, s28
; CHECK-NEXT: adc.w r12, r2, r3
; CHECK-NEXT: vmov r3, s29		; CHECK-NEXT: vmov r3, s29
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: adds r0, r0, r4		; CHECK-NEXT: vmov r4, s14
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: vmov.32 q4[0], r2
; CHECK-NEXT: adcs r2, r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r3, s17		; CHECK-NEXT: adcs r0, r3
; CHECK-NEXT: adds r0, r0, r4		; CHECK-NEXT: vmov r3, s15
; CHECK-NEXT: vmov.32 q0[0], r0		; CHECK-NEXT: vmov.32 q4[1], r0
; CHECK-NEXT: vmov r0, s15		; CHECK-NEXT: vmov r0, s11
; CHECK-NEXT: adcs r2, r3		; CHECK-NEXT: vmov.32 q4[2], lr
; CHECK-NEXT: vmov r3, s14		; CHECK-NEXT: vmov.32 q4[3], r12
; CHECK-NEXT: vmov.32 q0[1], r2		; CHECK-NEXT: vstrw.32 q4, [r1, #16]
; CHECK-NEXT: vmov.32 q0[2], lr		; CHECK-NEXT: adds r2, r2, r4
; CHECK-NEXT: vmov.32 q0[3], r12
; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s6, s2
; CHECK-NEXT: vmov.f32 s7, s3
; CHECK-NEXT: vmov r4, s6		; CHECK-NEXT: vmov r4, s6
; CHECK-NEXT: vmov r2, s7		; CHECK-NEXT: adcs r0, r3
; CHECK-NEXT: adds r3, r3, r4		; CHECK-NEXT: vmov r3, s7
; CHECK-NEXT: vmov r4, s10		; CHECK-NEXT: adds.w lr, r2, r4
; CHECK-NEXT: adcs r0, r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: adds.w lr, r3, r4
; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r4, s5
; CHECK-NEXT: adc.w r12, r0, r2
; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmov r2, s13
; CHECK-NEXT: adds r0, r0, r3
; CHECK-NEXT: vmov r3, s9
; CHECK-NEXT: adcs r2, r4
; CHECK-NEXT: vmov r4, s8		; CHECK-NEXT: vmov r4, s8
; CHECK-NEXT: adds r0, r0, r4		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: adcs r2, r3		; CHECK-NEXT: adc.w r12, r0, r3
; CHECK-NEXT: vmov.32 q0[0], r0		; CHECK-NEXT: vmov r3, s9
; CHECK-NEXT: vmov.32 q0[1], r2		; CHECK-NEXT: vmov r0, s1
		; CHECK-NEXT: adds r2, r2, r4
		; CHECK-NEXT: vmov r4, s12
		; CHECK-NEXT: adcs r0, r3
		; CHECK-NEXT: vmov r3, s13
		; CHECK-NEXT: adds r2, r2, r4
		; CHECK-NEXT: vmov.32 q0[0], r2
		; CHECK-NEXT: adcs r0, r3
		; CHECK-NEXT: vmov.32 q0[1], r0
; CHECK-NEXT: vmov.32 q0[2], lr		; CHECK-NEXT: vmov.32 q0[2], lr
; CHECK-NEXT: vmov.32 q0[3], r12		; CHECK-NEXT: vmov.32 q0[3], r12
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: add sp, #24
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%l1 = load <12 x i64>, <12 x i64>* %src, align 4		%l1 = load <12 x i64>, <12 x i64>* %src, align 4
%s1 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <12 x i64> %l1, <12 x i64> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a1 = add <4 x i64> %s1, %s2		%a1 = add <4 x i64> %s1, %s2
▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; f16		; f16

define void @vld3_v2f16(<6 x half> %src, <2 x half> %dst) {		define void @vld3_v2f16(<6 x half> %src, <2 x half> %dst) {
; CHECK-LABEL: vld3_v2f16:		; CHECK-LABEL: vld3_v2f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
		; CHECK-NEXT: .vsave {d8}
		; CHECK-NEXT: vpush {d8}
; CHECK-NEXT: ldrd r2, r3, [r0]		; CHECK-NEXT: ldrd r2, r3, [r0]
; CHECK-NEXT: ldr r0, [r0, #8]		; CHECK-NEXT: ldr r0, [r0, #8]
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vmov.32 q1[0], r2
; CHECK-NEXT: vmov.32 q0[1], r3		; CHECK-NEXT: vmovx.f16 s0, s4
; CHECK-NEXT: vmov.32 q0[2], r0
; CHECK-NEXT: vmovx.f16 s4, s0
; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmovx.f16 s8, s1
; CHECK-NEXT: vmov.16 q1[0], r0
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q2[0], r2		; CHECK-NEXT: vmov q0, q1
		; CHECK-NEXT: vmov.32 q0[1], r3
		; CHECK-NEXT: vmov.16 q3[0], r2
		; CHECK-NEXT: vmov q2, q0
		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.32 q2[2], r0
		; CHECK-NEXT: vmovx.f16 s16, s1
		; CHECK-NEXT: vmov r0, s10
		; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: vmov.16 q2[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vadd.f16 q1, q2, q1		; CHECK-NEXT: vmov r0, s16
; CHECK-NEXT: vmovx.f16 s8, s2		; CHECK-NEXT: vmovx.f16 s8, s10
		; CHECK-NEXT: vmov.16 q1[1], r0
; CHECK-NEXT: vmov r0, s8		; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov.16 q0[0], r2		; CHECK-NEXT: vmov.16 q0[0], r2
		; CHECK-NEXT: vadd.f16 q1, q1, q3
; CHECK-NEXT: vmov.16 q0[1], r0		; CHECK-NEXT: vmov.16 q0[1], r0
; CHECK-NEXT: vadd.f16 q0, q1, q0		; CHECK-NEXT: vadd.f16 q0, q1, q0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: str r0, [r1]		; CHECK-NEXT: str r0, [r1]
		; CHECK-NEXT: vpop {d8}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <6 x half>, <6 x half>* %src, align 4		%l1 = load <6 x half>, <6 x half>* %src, align 4
%s1 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 0, i32 3>		%s1 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 0, i32 3>
%s2 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 1, i32 4>		%s2 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 1, i32 4>
%s3 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 2, i32 5>		%s3 = shufflevector <6 x half> %l1, <6 x half> undef, <2 x i32> <i32 2, i32 5>
%a1 = fadd <2 x half> %s1, %s2		%a1 = fadd <2 x half> %s1, %s2
%a = fadd <2 x half> %a1, %s3		%a = fadd <2 x half> %a1, %s3
store <2 x half> %a, <2 x half> *%dst		store <2 x half> %a, <2 x half> *%dst
ret void		ret void
}		}

define void @vld3_v4f16(<12 x half> %src, <4 x half> %dst) {		define void @vld3_v4f16(<12 x half> %src, <4 x half> %dst) {
; CHECK-LABEL: vld3_v4f16:		; CHECK-LABEL: vld3_v4f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8}		; CHECK-NEXT: .vsave {d8, d9, d10}
; CHECK-NEXT: vpush {d8}		; CHECK-NEXT: vpush {d8, d9, d10}
; CHECK-NEXT: vldrw.u32 q0, [r0]		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vmovx.f16 s4, s0		; CHECK-NEXT: vmovx.f16 s4, s0
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmovx.f16 s4, s3		; CHECK-NEXT: vmovx.f16 s4, s3
; CHECK-NEXT: vmov.16 q2[0], r3		; CHECK-NEXT: vmov.16 q2[0], r3
; CHECK-NEXT: vmovx.f16 s12, s1		; CHECK-NEXT: vmovx.f16 s16, s1
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: vmov.16 q2[1], r2
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov.16 q2[2], r2		; CHECK-NEXT: vmov.16 q2[2], r2
; CHECK-NEXT: ldrd r2, r0, [r0, #16]		; CHECK-NEXT: ldrd r2, r0, [r0, #16]
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: vmov.32 q3[0], r2
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov q1, q3
		; CHECK-NEXT: vmovx.f16 s20, s12
; CHECK-NEXT: vmov.32 q1[1], r0		; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov r0, s5		; CHECK-NEXT: vmov r0, s5
; CHECK-NEXT: vmovx.f16 s16, s4		; CHECK-NEXT: vmovx.f16 s4, s5
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s16
; CHECK-NEXT: vmov.16 q3[0], r2		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov r0, s3		; CHECK-NEXT: vmov r0, s3
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov r0, s1		; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: vmov.16 q0[0], r0		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmovx.f16 s4, s5		; CHECK-NEXT: vadd.f16 q2, q4, q2
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vadd.f16 q2, q3, q2
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vadd.f16 q0, q2, q0		; CHECK-NEXT: vadd.f16 q0, q2, q0
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: strd r0, r2, [r1]		; CHECK-NEXT: strd r0, r2, [r1]
; CHECK-NEXT: vpop {d8}		; CHECK-NEXT: vpop {d8, d9, d10}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <12 x half>, <12 x half>* %src, align 4		%l1 = load <12 x half>, <12 x half>* %src, align 4
%s1 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>		%s1 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 0, i32 3, i32 6, i32 9>
%s2 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>		%s2 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 1, i32 4, i32 7, i32 10>
%s3 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>		%s3 = shufflevector <12 x half> %l1, <12 x half> undef, <4 x i32> <i32 2, i32 5, i32 8, i32 11>
%a1 = fadd <4 x half> %s1, %s2		%a1 = fadd <4 x half> %s1, %s2
%a = fadd <4 x half> %a1, %s3		%a = fadd <4 x half> %a1, %s3
store <4 x half> %a, <4 x half> *%dst		store <4 x half> %a, <4 x half> *%dst
ret void		ret void
}		}

define void @vld3_v8f16(<24 x half> %src, <8 x half> %dst) {		define void @vld3_v8f16(<24 x half> %src, <8 x half> %dst) {
; CHECK-LABEL: vld3_v8f16:		; CHECK-LABEL: vld3_v8f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14}
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]		; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
; CHECK-NEXT: vmovx.f16 s0, s6		; CHECK-NEXT: vmovx.f16 s0, s14
; CHECK-NEXT: vmov r3, s5		; CHECK-NEXT: vmov r3, s13
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q0[0], r3		; CHECK-NEXT: vmov.16 q0[0], r3
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmovx.f16 s4, s9
; CHECK-NEXT: vmovx.f16 s12, s9		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov.16 q0[2], r2		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmovx.f16 s12, s19		; CHECK-NEXT: vmovx.f16 s20, s16
; CHECK-NEXT: vmov.16 q0[3], r2		; CHECK-NEXT: vmov.16 q1[2], r3
; CHECK-NEXT: vmov r3, s18		; CHECK-NEXT: vmov r3, s18
		; CHECK-NEXT: vmov.16 q1[3], r2
		; CHECK-NEXT: vmovx.f16 s24, s15
		; CHECK-NEXT: vmov.f32 s1, s5
		; CHECK-NEXT: vmovx.f16 s4, s19
; CHECK-NEXT: vmov.f32 s2, s11		; CHECK-NEXT: vmov.f32 s2, s11
; CHECK-NEXT: vmovx.f16 s20, s16		; CHECK-NEXT: vmovx.f16 s28, s18
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.16 q3[6], r3		; CHECK-NEXT: vmov.16 q1[6], r3
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q1[7], r0
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov.f32 s14, s16		; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: vmovx.f16 s24, s8		; CHECK-NEXT: vmov r4, s12
; CHECK-NEXT: vmov r4, s0		; CHECK-NEXT: vmov.f32 s6, s16
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q5[4], r2
; CHECK-NEXT: vmov r2, s17
; CHECK-NEXT: vmov.16 q5[5], r0		; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov r0, s19		; CHECK-NEXT: vmov r0, s19
; CHECK-NEXT: vmov lr, s22		; CHECK-NEXT: vmov r12, s22
; CHECK-NEXT: vmovx.f16 s20, s17		; CHECK-NEXT: vmovx.f16 s20, s17
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov.16 q5[6], r3		; CHECK-NEXT: vmov.16 q5[6], r2
		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov lr, s23
; CHECK-NEXT: vmov r12, s23		; CHECK-NEXT: vmovx.f16 s20, s12
; CHECK-NEXT: vmovx.f16 s20, s10
; CHECK-NEXT: vmov r3, s20
; CHECK-NEXT: vmov.16 q5[4], r3
; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov r3, s22
; CHECK-NEXT: vmovx.f16 s20, s18
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov.16 q4[6], r2
; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vmovx.f16 s20, s5
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov.16 q5[0], r0		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.16 q5[1], r2
; CHECK-NEXT: vmov r0, s7
; CHECK-NEXT: vmov.16 q5[2], r0
; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmovx.f16 s24, s11
; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmovx.f16 s24, s4
; CHECK-NEXT: vmov r2, s24
; CHECK-NEXT: vmov.16 q5[5], r0
; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov.16 q6[0], r2
; CHECK-NEXT: vmovx.f16 s4, s7
; CHECK-NEXT: vmov.16 q6[1], r0
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.32 q1[0], r4
; CHECK-NEXT: vmov.16 q6[2], r0
; CHECK-NEXT: vmov r0, s9		; CHECK-NEXT: vmov r0, s9
		; CHECK-NEXT: vmov.16 q5[1], r3
		; CHECK-NEXT: vmov r3, s24
		; CHECK-NEXT: vmov q6, q5
		; CHECK-NEXT: vmov.16 q6[2], r3
; CHECK-NEXT: vmov.16 q6[3], r0		; CHECK-NEXT: vmov.16 q6[3], r0
; CHECK-NEXT: vmov r4, s1		; CHECK-NEXT: vmov r3, s25
		; CHECK-NEXT: vmovx.f16 s24, s10
		; CHECK-NEXT: vmov r0, s24
		; CHECK-NEXT: vmov.16 q6[4], r0
		; CHECK-NEXT: vmov.16 q6[5], r2
		; CHECK-NEXT: vmov r0, s26
		; CHECK-NEXT: vmovx.f16 s24, s13
; CHECK-NEXT: vmov r2, s24		; CHECK-NEXT: vmov r2, s24
; CHECK-NEXT: vmov.32 q1[1], r4		; CHECK-NEXT: vmov.16 q6[0], r4
; CHECK-NEXT: vmov r0, s25		; CHECK-NEXT: vmov.16 q6[1], r2
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vmov r2, s15
; CHECK-NEXT: vmov.32 q0[1], r0		; CHECK-NEXT: vmovx.f16 s12, s8
; CHECK-NEXT: vmov.32 q1[2], lr		; CHECK-NEXT: vmovx.f16 s8, s11
; CHECK-NEXT: vmov.32 q0[2], r3		; CHECK-NEXT: vmov r4, s12
; CHECK-NEXT: vmov r4, s15		; CHECK-NEXT: vmov q3, q6
; CHECK-NEXT: vmov.f32 s23, s19		; CHECK-NEXT: vmov.16 q3[2], r2
; CHECK-NEXT: vmov.32 q0[3], r12		; CHECK-NEXT: vmov r2, s28
; CHECK-NEXT: vmov.32 q1[3], r4		; CHECK-NEXT: vmov.16 q3[3], r4
; CHECK-NEXT: vadd.f16 q0, q5, q0		; CHECK-NEXT: vmov r4, s17
; CHECK-NEXT: vadd.f16 q0, q0, q1		; CHECK-NEXT: vmov.16 q4[6], r4
		; CHECK-NEXT: vmov r4, s8
		; CHECK-NEXT: vmov.16 q4[7], r2
		; CHECK-NEXT: vmov r2, s10
		; CHECK-NEXT: vmov q2, q3
		; CHECK-NEXT: vmov.f32 s25, s13
		; CHECK-NEXT: vmov.16 q2[4], r2
		; CHECK-NEXT: vmov r2, s20
		; CHECK-NEXT: vmov.16 q2[5], r4
		; CHECK-NEXT: vmov.f32 s26, s10
		; CHECK-NEXT: vmov.32 q2[0], r2
		; CHECK-NEXT: vmov.32 q2[1], r3
		; CHECK-NEXT: vmov.f32 s27, s19
		; CHECK-NEXT: vmov.32 q2[2], r0
		; CHECK-NEXT: vmov r0, s0
		; CHECK-NEXT: vmov.32 q3[0], r0
		; CHECK-NEXT: vmov r0, s1
		; CHECK-NEXT: vmov.32 q3[1], r0
		; CHECK-NEXT: vmov.32 q2[3], lr
		; CHECK-NEXT: vmov.32 q3[2], r12
		; CHECK-NEXT: vmov r0, s7
		; CHECK-NEXT: vadd.f16 q2, q6, q2
		; CHECK-NEXT: vmov.32 q3[3], r0
		; CHECK-NEXT: vadd.f16 q0, q2, q3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%l1 = load <24 x half>, <24 x half>* %src, align 4		%l1 = load <24 x half>, <24 x half>* %src, align 4
%s1 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x half> %l1, <24 x half> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = fadd <8 x half> %s1, %s2		%a1 = fadd <8 x half> %s1, %s2
%a = fadd <8 x half> %a1, %s3		%a = fadd <8 x half> %a1, %s3
store <8 x half> %a, <8 x half> *%dst		store <8 x half> %a, <8 x half> *%dst
ret void		ret void
}		}

define void @vld3_v16f16(<48 x half> %src, <16 x half> %dst) {		define void @vld3_v16f16(<48 x half> %src, <16 x half> %dst) {
; CHECK-LABEL: vld3_v16f16:		; CHECK-LABEL: vld3_v16f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r7, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, r5, r7, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q4, [r0, #80]		; CHECK-NEXT: .pad #24
		; CHECK-NEXT: sub sp, #24
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vldrw.u32 q2, [r0, #48]
; CHECK-NEXT: vldrw.u32 q3, [r0, #64]		; CHECK-NEXT: vldrw.u32 q3, [r0, #64]
; CHECK-NEXT: vmovx.f16 s0, s19		; CHECK-NEXT: vldrw.u32 q4, [r0, #80]
; CHECK-NEXT: vmovx.f16 s4, s16
; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmovx.f16 s20, s13
; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov.16 q0[6], r2
; CHECK-NEXT: vmov r12, s4
; CHECK-NEXT: vmovx.f16 s4, s10
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: vmov.16 q0[7], r3		; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov.16 q1[0], r2		; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov.16 q1[1], r3		; CHECK-NEXT: vmov.16 q1[1], r3
		; CHECK-NEXT: vmovx.f16 s0, s13
		; CHECK-NEXT: vmov r3, s0
		; CHECK-NEXT: vmov q0, q1
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov.16 q0[3], r3
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov r3, s18
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov.f32 s5, s1
		; CHECK-NEXT: vmovx.f16 s0, s19
; CHECK-NEXT: vmov.f32 s6, s15		; CHECK-NEXT: vmov.f32 s6, s15
; CHECK-NEXT: vmovx.f16 s24, s12		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov.16 q0[6], r3
		; CHECK-NEXT: vmov.16 q0[7], r2
		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov.f32 s2, s16		; CHECK-NEXT: vmov.f32 s2, s16
; CHECK-NEXT: vmovx.f16 s16, s18		; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov r5, s4		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r12, s6
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q0[4], r12
; CHECK-NEXT: vmov.16 q5[5], r12		; CHECK-NEXT: vmov.16 q0[5], r2
; CHECK-NEXT: vmov lr, s22		; CHECK-NEXT: vmov r12, s2
; CHECK-NEXT: vmovx.f16 s20, s14		; CHECK-NEXT: vmovx.f16 s0, s14
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vmov r2, s19		; CHECK-NEXT: vmov r2, s19
; CHECK-NEXT: vmov.16 q5[5], r3		; CHECK-NEXT: vmov.16 q0[5], r3
; CHECK-NEXT: vmov r12, s22		; CHECK-NEXT: vmov lr, s2
; CHECK-NEXT: vmovx.f16 s20, s17		; CHECK-NEXT: vmovx.f16 s0, s17
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov.16 q5[6], r3		; CHECK-NEXT: vmov.16 q0[6], r3
; CHECK-NEXT: vmov r3, s17		; CHECK-NEXT: vmov r3, s17
; CHECK-NEXT: vmov.16 q5[7], r2		; CHECK-NEXT: vmov.16 q0[7], r2
		; CHECK-NEXT: vmov r2, s3
		; CHECK-NEXT: vmovx.f16 s0, s18
		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov.16 q4[6], r3		; CHECK-NEXT: vmov.16 q4[6], r3
; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: vmov.16 q4[7], r4		; CHECK-NEXT: vmov.16 q4[7], r4
; CHECK-NEXT: vmovx.f16 s20, s9		; CHECK-NEXT: vmovx.f16 s0, s9
; CHECK-NEXT: vmov r4, s8		; CHECK-NEXT: vmov r4, s8
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov.16 q5[0], r4		; CHECK-NEXT: vmov.16 q5[0], r4
; CHECK-NEXT: vmov.16 q5[1], r3		; CHECK-NEXT: vmov.16 q5[1], r3
		; CHECK-NEXT: vmovx.f16 s0, s12
; CHECK-NEXT: vmov r3, s11		; CHECK-NEXT: vmov r3, s11
; CHECK-NEXT: vmov.16 q5[2], r3		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov.16 q5[3], r3
; CHECK-NEXT: vmov r3, s14
; CHECK-NEXT: vmovx.f16 s24, s15
; CHECK-NEXT: vmov.16 q5[4], r3
; CHECK-NEXT: vmov r3, s24
; CHECK-NEXT: vmovx.f16 s24, s8
; CHECK-NEXT: vmov.16 q5[5], r3
; CHECK-NEXT: vmov r3, s24
; CHECK-NEXT: vmov r4, s10
; CHECK-NEXT: vmov.16 q6[0], r3
; CHECK-NEXT: vmovx.f16 s8, s11
; CHECK-NEXT: vmov.16 q6[1], r4
; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov.32 q2[0], r5
; CHECK-NEXT: vmov.16 q6[2], r3		; CHECK-NEXT: vmov.16 q6[2], r3
		; CHECK-NEXT: vmov.16 q6[3], r4
		; CHECK-NEXT: vmovx.f16 s0, s15
		; CHECK-NEXT: vmov r4, s14
		; CHECK-NEXT: vmov q7, q6
		; CHECK-NEXT: vmov r3, s0
		; CHECK-NEXT: vmov.16 q7[4], r4
		; CHECK-NEXT: vmovx.f16 s0, s8
		; CHECK-NEXT: vmov.16 q7[5], r3
		; CHECK-NEXT: vmov r3, s0
		; CHECK-NEXT: vmovx.f16 s8, s11
		; CHECK-NEXT: vmov.16 q0[0], r3
		; CHECK-NEXT: vmov r4, s10
		; CHECK-NEXT: vmov.16 q0[1], r4
		; CHECK-NEXT: vmov r4, s8
		; CHECK-NEXT: vmov q2, q0
; CHECK-NEXT: vmov r3, s13		; CHECK-NEXT: vmov r3, s13
; CHECK-NEXT: vmov.16 q6[3], r3		; CHECK-NEXT: vmov.16 q2[2], r4
; CHECK-NEXT: vmov r5, s5		; CHECK-NEXT: vmov.f32 s21, s25
; CHECK-NEXT: vmov r3, s24		; CHECK-NEXT: vmov.16 q2[3], r3
; CHECK-NEXT: vmov.32 q2[1], r5		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov r5, s3		; CHECK-NEXT: vmov r4, s9
; CHECK-NEXT: vmov.32 q0[0], r3		; CHECK-NEXT: vmov.32 q0[0], r3
; CHECK-NEXT: vmov r4, s25
; CHECK-NEXT: vmov.32 q2[2], lr
; CHECK-NEXT: vmov.32 q0[1], r4		; CHECK-NEXT: vmov.32 q0[1], r4
		; CHECK-NEXT: vmov.f32 s22, s30
		; CHECK-NEXT: vmov.32 q0[2], lr
; CHECK-NEXT: vmov.f32 s23, s19		; CHECK-NEXT: vmov.f32 s23, s19
; CHECK-NEXT: vmov.32 q0[2], r12
; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
; CHECK-NEXT: vmov.32 q0[3], r2		; CHECK-NEXT: vmov.32 q0[3], r2
; CHECK-NEXT: vmov.32 q2[3], r5		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.32 q2[0], r2
		; CHECK-NEXT: vmov r2, s5
		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
		; CHECK-NEXT: vmov.32 q2[1], r2
		; CHECK-NEXT: vmov.32 q2[2], r12
; CHECK-NEXT: vadd.f16 q0, q5, q0		; CHECK-NEXT: vadd.f16 q0, q5, q0
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vmov r2, s7
		; CHECK-NEXT: vldrw.u32 q3, [r0]
		; CHECK-NEXT: vmov.32 q2[3], r2
		; CHECK-NEXT: vldrw.u32 q4, [r0, #32]
; CHECK-NEXT: vadd.f16 q0, q0, q2		; CHECK-NEXT: vadd.f16 q0, q0, q2
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmovx.f16 s0, s19		; CHECK-NEXT: vmov r0, s13
; CHECK-NEXT: vmov r0, s18		; CHECK-NEXT: vmovx.f16 s0, s14
; CHECK-NEXT: vmovx.f16 s12, s16		; CHECK-NEXT: vmov.16 q1[0], r0
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q0[6], r0		; CHECK-NEXT: vmovx.f16 s0, s9
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmovx.f16 s12, s10		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: vmov q0, q1
; CHECK-NEXT: vmov r3, s12		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov.16 q3[0], r2		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov.16 q3[1], r3		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov.f32 s5, s1
; CHECK-NEXT: vmovx.f16 s20, s5		; CHECK-NEXT: vmovx.f16 s0, s19
; CHECK-NEXT: vmov.16 q3[2], r2		; CHECK-NEXT: vmov.f32 s6, s11
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmovx.f16 s24, s4		; CHECK-NEXT: vmov.16 q0[6], r2
; CHECK-NEXT: vmov.16 q3[3], r2		; CHECK-NEXT: vmov.16 q0[7], r3
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov r3, s16
; CHECK-NEXT: vmov.f32 s14, s7
; CHECK-NEXT: vmov.f32 s2, s16		; CHECK-NEXT: vmov.f32 s2, s16
; CHECK-NEXT: vmovx.f16 s16, s18		; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov r4, s16		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov r2, s14		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q5[4], r2		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov.16 q5[5], r0		; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov r2, s22		; CHECK-NEXT: vmov.16 q0[5], r2
; CHECK-NEXT: vmovx.f16 s20, s6		; CHECK-NEXT: vmov r12, s2
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vmov.16 q5[5], r3		; CHECK-NEXT: vmov.16 q0[5], r3
; CHECK-NEXT: vmov r3, s19		; CHECK-NEXT: vmov r3, s19
; CHECK-NEXT: vmov r12, s22		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmovx.f16 s20, s17		; CHECK-NEXT: vmovx.f16 s0, s17
; CHECK-NEXT: vmov r5, s20		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov.16 q5[6], r5		; CHECK-NEXT: vmov.16 q0[6], r4
; CHECK-NEXT: vmov r5, s17		; CHECK-NEXT: vmov r4, s17
; CHECK-NEXT: vmov.16 q5[7], r3		; CHECK-NEXT: vmov.16 q0[7], r3
; CHECK-NEXT: vmov.16 q4[6], r5		; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: vmov r3, s23		; CHECK-NEXT: vmovx.f16 s0, s18
; CHECK-NEXT: vmov.16 q4[7], r4		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmovx.f16 s20, s9		; CHECK-NEXT: vmov.16 q4[6], r4
; CHECK-NEXT: vmov r4, s8		; CHECK-NEXT: vmov r4, s12
; CHECK-NEXT: vmov r5, s20		; CHECK-NEXT: vmovx.f16 s0, s13
		; CHECK-NEXT: vmov.16 q4[7], r0
		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q5[0], r4		; CHECK-NEXT: vmov.16 q5[0], r4
; CHECK-NEXT: vmov.16 q5[1], r5		; CHECK-NEXT: vmovx.f16 s0, s8
; CHECK-NEXT: vmov r5, s11		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.16 q5[2], r5		; CHECK-NEXT: vmov r0, s15
; CHECK-NEXT: vmov r5, s24		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmov.16 q5[3], r5		; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov r5, s6		; CHECK-NEXT: vmov.16 q6[2], r0
; CHECK-NEXT: vmovx.f16 s24, s7		; CHECK-NEXT: vmovx.f16 s0, s11
; CHECK-NEXT: vmov.16 q5[4], r5		; CHECK-NEXT: vmov.16 q6[3], r4
; CHECK-NEXT: vmov r5, s24
; CHECK-NEXT: vmovx.f16 s24, s8
; CHECK-NEXT: vmov.16 q5[5], r5
; CHECK-NEXT: vmov r5, s24
; CHECK-NEXT: vmov r4, s10		; CHECK-NEXT: vmov r4, s10
; CHECK-NEXT: vmov.16 q6[0], r5		; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmovx.f16 s8, s11		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q6[1], r4		; CHECK-NEXT: vmov.16 q7[4], r4
; CHECK-NEXT: vmov r5, s8		; CHECK-NEXT: vmovx.f16 s0, s12
; CHECK-NEXT: vmov.16 q6[2], r5		; CHECK-NEXT: vmov.16 q7[5], r0
; CHECK-NEXT: vmov r5, s5		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q6[3], r5		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.32 q1[0], r0		; CHECK-NEXT: vmov r4, s14
; CHECK-NEXT: vmov r0, s13		; CHECK-NEXT: vmov r0, s9
; CHECK-NEXT: vmov r5, s24		; CHECK-NEXT: vmov.16 q0[1], r4
; CHECK-NEXT: vmov.32 q1[1], r0		; CHECK-NEXT: vmovx.f16 s8, s15
; CHECK-NEXT: vmov r0, s3		; CHECK-NEXT: vmov.f32 s21, s25
; CHECK-NEXT: vmov.32 q0[0], r5		; CHECK-NEXT: vmov r4, s8
; CHECK-NEXT: vmov r4, s25		; CHECK-NEXT: vmov q2, q0
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: vmov.16 q2[2], r4
		; CHECK-NEXT: vmov.f32 s22, s30
		; CHECK-NEXT: vmov.16 q2[3], r0
		; CHECK-NEXT: vmov r0, s0
		; CHECK-NEXT: vmov.32 q0[0], r0
		; CHECK-NEXT: vmov r4, s9
		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.32 q0[1], r4		; CHECK-NEXT: vmov.32 q0[1], r4
		; CHECK-NEXT: vmov.32 q2[0], r0
		; CHECK-NEXT: vmov r0, s5
		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
		; CHECK-NEXT: vmov.32 q2[1], r0
		; CHECK-NEXT: vmov.32 q0[2], r2
; CHECK-NEXT: vmov.f32 s23, s19		; CHECK-NEXT: vmov.f32 s23, s19
; CHECK-NEXT: vmov.32 q0[2], r12
; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vmov.32 q0[3], r3		; CHECK-NEXT: vmov.32 q0[3], r3
		; CHECK-NEXT: vmov.32 q2[2], r12
		; CHECK-NEXT: vmov r0, s7
; CHECK-NEXT: vadd.f16 q0, q5, q0		; CHECK-NEXT: vadd.f16 q0, q5, q0
; CHECK-NEXT: vadd.f16 q0, q0, q1		; CHECK-NEXT: vmov.32 q2[3], r0
		; CHECK-NEXT: vadd.f16 q0, q0, q2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: add sp, #24
; CHECK-NEXT: pop {r4, r5, r7, pc}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%l1 = load <48 x half>, <48 x half>* %src, align 4		%l1 = load <48 x half>, <48 x half>* %src, align 4
%s1 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x half> %l1, <48 x half> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = fadd <16 x half> %s1, %s2		%a1 = fadd <16 x half> %s1, %s2
%a = fadd <16 x half> %a1, %s3		%a = fadd <16 x half> %a1, %s3
store <16 x half> %a, <16 x half> *%dst		store <16 x half> %a, <16 x half> *%dst
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld4-post.ll

	Show First 20 Lines • Show All 100 Lines • ▼ Show 20 Lines

	define <8 x i64> @vld4_v2i64(<8 x i64> %src, <2 x i64> *%dst) {			define <8 x i64> @vld4_v2i64(<8 x i64> %src, <2 x i64> *%dst) {
	; CHECK-LABEL: vld4_v2i64:			; CHECK-LABEL: vld4_v2i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, r7, lr}			; CHECK-NEXT: .save {r4, r5, r6, r7, lr}
	; CHECK-NEXT: push {r4, r5, r6, r7, lr}			; CHECK-NEXT: push {r4, r5, r6, r7, lr}
	; CHECK-NEXT: .pad #4			; CHECK-NEXT: .pad #4
	; CHECK-NEXT: sub sp, #4			; CHECK-NEXT: sub sp, #4
	; CHECK-NEXT: .vsave {d8, d9, d10, d11}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vldrw.u32 q2, [r0, #32]			; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
	; CHECK-NEXT: vldrw.u32 q0, [r0], #64			; CHECK-NEXT: vldrw.u32 q0, [r0], #64
	; CHECK-NEXT: vldrw.u32 q3, [r0, #-48]			; CHECK-NEXT: vldrw.u32 q2, [r0, #-48]
	; CHECK-NEXT: vldrw.u32 q5, [r0, #-16]			; CHECK-NEXT: vldrw.u32 q5, [r0, #-16]
	; CHECK-NEXT: vmov.f64 d2, d1			; CHECK-NEXT: vmov.f64 d6, d0
	; CHECK-NEXT: vmov.f64 d8, d7			; CHECK-NEXT: vmov.f64 d8, d4
	; CHECK-NEXT: vmov.f32 s17, s15			; CHECK-NEXT: vmov.f32 s17, s9
	; CHECK-NEXT: vmov.f32 s18, s22			; CHECK-NEXT: vmov.f32 s18, s20
	; CHECK-NEXT: vmov.f32 s14, s20			; CHECK-NEXT: vmov.f32 s19, s21
	; CHECK-NEXT: vmov.f32 s19, s23			; CHECK-NEXT: vmov lr, s18
	; CHECK-NEXT: vmov.f32 s15, s21			; CHECK-NEXT: vmov r3, s22
	; CHECK-NEXT: vmov r2, s18			; CHECK-NEXT: vmov r2, s23
	; CHECK-NEXT: vmov r3, s14			; CHECK-NEXT: vmov.f32 s13, s1
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov.f32 s14, s4
	; CHECK-NEXT: vmov.f32 s6, s10			; CHECK-NEXT: vmov.f32 s15, s5
	; CHECK-NEXT: vmov.f32 s2, s8
	; CHECK-NEXT: vmov.f32 s3, s9
	; CHECK-NEXT: vmov.f32 s7, s11
	; CHECK-NEXT: vmov r12, s19			; CHECK-NEXT: vmov r12, s19
	; CHECK-NEXT: vmov lr, s15			; CHECK-NEXT: vmov r5, s6
	; CHECK-NEXT: vmov r4, s6			; CHECK-NEXT: vmov r4, s7
	; CHECK-NEXT: vmov r5, s2			; CHECK-NEXT: vmov.f64 d12, d5
				; CHECK-NEXT: vmov.f32 s25, s11
				; CHECK-NEXT: vmov.f64 d8, d1
				; CHECK-NEXT: vmov.f32 s17, s3
	; CHECK-NEXT: vmov r7, s0			; CHECK-NEXT: vmov r7, s0
	; CHECK-NEXT: adds r6, r3, r2			; CHECK-NEXT: adds.w lr, lr, r3
	; CHECK-NEXT: vmov r2, s7			; CHECK-NEXT: vmov r3, s14
	; CHECK-NEXT: vmov r3, s3			; CHECK-NEXT: vmov r6, s1
	; CHECK-NEXT: adc.w r12, r12, lr			; CHECK-NEXT: adc.w r12, r12, r2
	; CHECK-NEXT: adds r5, r5, r4			; CHECK-NEXT: vmov r2, s15
	; CHECK-NEXT: vmov r4, s16			; CHECK-NEXT: adds r3, r3, r5
	; CHECK-NEXT: adcs r2, r3			; CHECK-NEXT: vmov r5, s25
	; CHECK-NEXT: adds.w lr, r5, r6			; CHECK-NEXT: adcs r2, r4
				; CHECK-NEXT: adds.w lr, lr, r3
				; CHECK-NEXT: vmov r4, s24
	; CHECK-NEXT: adc.w r12, r12, r2			; CHECK-NEXT: adc.w r12, r12, r2
	; CHECK-NEXT: vmov r2, s12			; CHECK-NEXT: vmov r3, s8
	; CHECK-NEXT: vmov r6, s17			; CHECK-NEXT: vmov r2, s9
	; CHECK-NEXT: vmov r5, s13			; CHECK-NEXT: adds r3, r3, r4
	; CHECK-NEXT: vmov r3, s4			; CHECK-NEXT: vmov r4, s17
	; CHECK-NEXT: adds r2, r2, r4			; CHECK-NEXT: adcs r2, r5
	; CHECK-NEXT: vmov r4, s1			; CHECK-NEXT: vmov r5, s16
	; CHECK-NEXT: adcs r6, r5			; CHECK-NEXT: adds r5, r5, r7
	; CHECK-NEXT: vmov r5, s5			; CHECK-NEXT: adcs r4, r6
	; CHECK-NEXT: adds r3, r3, r7			; CHECK-NEXT: adds r3, r3, r5
	; CHECK-NEXT: adcs r4, r5			; CHECK-NEXT: adcs r2, r4
	; CHECK-NEXT: adds r2, r2, r3			; CHECK-NEXT: vmov.32 q0[0], r3
	; CHECK-NEXT: adc.w r3, r4, r6			; CHECK-NEXT: vmov.32 q0[1], r2
	; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.32 q0[1], r3
	; CHECK-NEXT: vmov.32 q0[2], lr			; CHECK-NEXT: vmov.32 q0[2], lr
	; CHECK-NEXT: vmov.32 q0[3], r12			; CHECK-NEXT: vmov.32 q0[3], r12
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: vpop {d8, d9, d10, d11}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop {r4, r5, r6, r7, pc}			; CHECK-NEXT: pop {r4, r5, r6, r7, pc}
	entry:			entry:
	%l1 = load <8 x i64>, <8 x i64>* %src, align 4			%l1 = load <8 x i64>, <8 x i64>* %src, align 4
	%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 0, i32 4>			%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 0, i32 4>
	%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 1, i32 5>			%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 1, i32 5>
	%s3 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 2, i32 6>			%s3 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 2, i32 6>
	%s4 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 3, i32 7>			%s4 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 3, i32 7>
	▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld4.ll

	Show First 20 Lines • Show All 537 Lines • ▼ Show 20 Lines

	; i64			; i64

	define void @vld4_v2i64(<8 x i64> %src, <2 x i64> %dst) {			define void @vld4_v2i64(<8 x i64> %src, <2 x i64> %dst) {
	; CHECK-LABEL: vld4_v2i64:			; CHECK-LABEL: vld4_v2i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, lr}			; CHECK-NEXT: .save {r4, r5, r6, lr}
	; CHECK-NEXT: push {r4, r5, r6, lr}			; CHECK-NEXT: push {r4, r5, r6, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vldrw.u32 q3, [r0, #16]			; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
	; CHECK-NEXT: vldrw.u32 q5, [r0, #48]			; CHECK-NEXT: vldrw.u32 q5, [r0, #48]
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vldrw.u32 q2, [r0, #32]			; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
	; CHECK-NEXT: vmov.f64 d8, d7			; CHECK-NEXT: vmov.f64 d8, d4
	; CHECK-NEXT: vmov.f32 s17, s15			; CHECK-NEXT: vmov.f32 s17, s9
	; CHECK-NEXT: vmov.f32 s18, s22			; CHECK-NEXT: vmov.f32 s18, s20
	; CHECK-NEXT: vmov.f32 s14, s20			; CHECK-NEXT: vmov.f32 s19, s21
	; CHECK-NEXT: vmov.f32 s19, s23			; CHECK-NEXT: vmov r2, s18
	; CHECK-NEXT: vmov.f32 s15, s21			; CHECK-NEXT: vmov r0, s22
	; CHECK-NEXT: vmov r3, s18			; CHECK-NEXT: vmov r3, s23
	; CHECK-NEXT: vmov r0, s14			; CHECK-NEXT: vmov.f64 d6, d0
	; CHECK-NEXT: vmov.f64 d2, d1
	; CHECK-NEXT: vmov r12, s19			; CHECK-NEXT: vmov r12, s19
	; CHECK-NEXT: vmov r2, s15			; CHECK-NEXT: vmov.f32 s13, s1
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov.f32 s14, s4
	; CHECK-NEXT: vmov.f32 s6, s10			; CHECK-NEXT: vmov.f32 s15, s5
	; CHECK-NEXT: vmov.f32 s2, s8			; CHECK-NEXT: vmov r4, s6
	; CHECK-NEXT: vmov.f32 s3, s9			; CHECK-NEXT: vmov.f64 d12, d5
	; CHECK-NEXT: vmov.f32 s7, s11			; CHECK-NEXT: vmov.f32 s25, s11
	; CHECK-NEXT: vmov r4, s2			; CHECK-NEXT: vmov.f64 d8, d1
	; CHECK-NEXT: vmov r5, s4			; CHECK-NEXT: adds.w lr, r2, r0
				; CHECK-NEXT: vmov r0, s14
				; CHECK-NEXT: vmov r2, s7
				; CHECK-NEXT: vmov.f32 s17, s3
	; CHECK-NEXT: vmov r6, s0			; CHECK-NEXT: vmov r6, s0
	; CHECK-NEXT: adds.w lr, r0, r3			; CHECK-NEXT: vmov r5, s1
	; CHECK-NEXT: vmov r3, s7			; CHECK-NEXT: adc.w r12, r12, r3
	; CHECK-NEXT: vmov r0, s3			; CHECK-NEXT: vmov r3, s15
				; CHECK-NEXT: adds r0, r0, r4
				; CHECK-NEXT: vmov r4, s24
				; CHECK-NEXT: adcs r2, r3
				; CHECK-NEXT: adds.w lr, lr, r0
				; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: adc.w r12, r12, r2			; CHECK-NEXT: adc.w r12, r12, r2
	; CHECK-NEXT: vmov r2, s6			; CHECK-NEXT: vmov r3, s25
	; CHECK-NEXT: adds r2, r2, r4			; CHECK-NEXT: vmov r2, s9
	; CHECK-NEXT: vmov r4, s13			; CHECK-NEXT: adds r0, r0, r4
	; CHECK-NEXT: adcs r0, r3			; CHECK-NEXT: vmov r4, s16
	; CHECK-NEXT: adds.w lr, lr, r2			; CHECK-NEXT: adcs r2, r3
	; CHECK-NEXT: adc.w r12, r12, r0
	; CHECK-NEXT: vmov r0, s16
	; CHECK-NEXT: vmov r2, s12
	; CHECK-NEXT: vmov r3, s17			; CHECK-NEXT: vmov r3, s17
	; CHECK-NEXT: adds r0, r0, r2			; CHECK-NEXT: adds r4, r4, r6
	; CHECK-NEXT: adc.w r2, r4, r3			; CHECK-NEXT: adcs r3, r5
	; CHECK-NEXT: vmov r3, s5			; CHECK-NEXT: adds r0, r0, r4
	; CHECK-NEXT: vmov r4, s1
	; CHECK-NEXT: adds r5, r5, r6
	; CHECK-NEXT: adcs r3, r4
	; CHECK-NEXT: adds r0, r0, r5
	; CHECK-NEXT: adcs r2, r3			; CHECK-NEXT: adcs r2, r3
	; CHECK-NEXT: vmov.32 q0[0], r0			; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: vmov.32 q0[1], r2			; CHECK-NEXT: vmov.32 q0[1], r2
	; CHECK-NEXT: vmov.32 q0[2], lr			; CHECK-NEXT: vmov.32 q0[2], lr
	; CHECK-NEXT: vmov.32 q0[3], r12			; CHECK-NEXT: vmov.32 q0[3], r12
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: vpop {d8, d9, d10, d11}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: pop {r4, r5, r6, pc}			; CHECK-NEXT: pop {r4, r5, r6, pc}
	entry:			entry:
	%l1 = load <8 x i64>, <8 x i64>* %src, align 4			%l1 = load <8 x i64>, <8 x i64>* %src, align 4
	%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 0, i32 4>			%s1 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 0, i32 4>
	%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 1, i32 5>			%s2 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 1, i32 5>
	%s3 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 2, i32 6>			%s3 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 2, i32 6>
	%s4 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 3, i32 7>			%s4 = shufflevector <8 x i64> %l1, <8 x i64> undef, <2 x i32> <i32 3, i32 7>
	%a1 = add <2 x i64> %s1, %s2			%a1 = add <2 x i64> %s1, %s2
	%a2 = add <2 x i64> %s3, %s4			%a2 = add <2 x i64> %s3, %s4
	%a3 = add <2 x i64> %a1, %a2			%a3 = add <2 x i64> %a1, %a2
	store <2 x i64> %a3, <2 x i64> *%dst			store <2 x i64> %a3, <2 x i64> *%dst
	ret void			ret void
	}			}

	define void @vld4_v4i64(<16 x i64> %src, <4 x i64> %dst) {			define void @vld4_v4i64(<16 x i64> %src, <4 x i64> %dst) {
	; CHECK-LABEL: vld4_v4i64:			; CHECK-LABEL: vld4_v4i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, r7, r8, lr}			; CHECK-NEXT: .save {r4, r5, r6, r7, r8, lr}
	; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, lr}			; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: .pad #72			; CHECK-NEXT: .pad #40
	; CHECK-NEXT: sub sp, #72			; CHECK-NEXT: sub sp, #40
	; CHECK-NEXT: vldrw.u32 q1, [r0, #64]			; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
	; CHECK-NEXT: vldrw.u32 q0, [r0, #96]			; CHECK-NEXT: vldrw.u32 q1, [r0, #96]
	; CHECK-NEXT: vldrw.u32 q5, [r0, #80]			; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
	; CHECK-NEXT: vldrw.u32 q7, [r0, #16]			; CHECK-NEXT: vldrw.u32 q3, [r0, #80]
	; CHECK-NEXT: vmov.f64 d8, d3			; CHECK-NEXT: vmov.f64 d10, d0
	; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill
	; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vmov.f32 s17, s7
	; CHECK-NEXT: vldrw.u32 q1, [r0]
	; CHECK-NEXT: vmov.f32 s18, s2
	; CHECK-NEXT: vmov.f32 s19, s3
	; CHECK-NEXT: vldrw.u32 q0, [r0, #112]
	; CHECK-NEXT: vmov.f64 d12, d11
	; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
	; CHECK-NEXT: vmov.f32 s25, s23
	; CHECK-NEXT: vmov.f32 s26, s2
	; CHECK-NEXT: vmov.f64 d6, d3
	; CHECK-NEXT: vmov.f32 s27, s3
	; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
	; CHECK-NEXT: vmov.f32 s13, s7
	; CHECK-NEXT: vmov.f32 s14, s2
	; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
	; CHECK-NEXT: vmov.f64 d4, d15
	; CHECK-NEXT: vmov.f32 s15, s3
	; CHECK-NEXT: vldrw.u32 q0, [r0, #48]
	; CHECK-NEXT: vmov.f32 s9, s31
	; CHECK-NEXT: vmov.f32 s10, s2
	; CHECK-NEXT: vmov.f32 s30, s0
	; CHECK-NEXT: vmov.f32 s11, s3
	; CHECK-NEXT: vmov.f32 s31, s1
	; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmov r3, s10
	; CHECK-NEXT: vmov r0, s30
	; CHECK-NEXT: vmov.f32 s6, s0
	; CHECK-NEXT: vmov.f32 s7, s1
	; CHECK-NEXT: vldrw.u32 q0, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov r4, s6
	; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill
	; CHECK-NEXT: vmov r12, s11			; CHECK-NEXT: vldrw.u32 q6, [r0, #112]
	; CHECK-NEXT: vmov r2, s31			; CHECK-NEXT: vldrw.u32 q4, [r0]
	; CHECK-NEXT: vmov.f32 s22, s0			; CHECK-NEXT: vmov.f32 s21, s1
	; CHECK-NEXT: vmov.f32 s23, s1			; CHECK-NEXT: vmov.f32 s22, s4
	; CHECK-NEXT: vldrw.u32 q0, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vmov.f64 d0, d4
	; CHECK-NEXT: vmov r5, s18			; CHECK-NEXT: vmov.f32 s23, s5
	; CHECK-NEXT: vmov r7, s16			; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
	; CHECK-NEXT: adds.w lr, r0, r3			; CHECK-NEXT: vmov.f32 s1, s9
	; CHECK-NEXT: vmov r3, s14
	; CHECK-NEXT: vmov r0, s7
	; CHECK-NEXT: vldrw.u32 q1, [sp, #32] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s2, s4			; CHECK-NEXT: vmov.f32 s2, s4
	; CHECK-NEXT: vmov.f32 s3, s5			; CHECK-NEXT: vmov.f32 s3, s5
	; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload			; CHECK-NEXT: vmov r3, s2
	; CHECK-NEXT: adc.w r12, r12, r2			; CHECK-NEXT: vmov r2, s6
	; CHECK-NEXT: vmov r2, s15			; CHECK-NEXT: vmov.f64 d14, d6
				; CHECK-NEXT: vmov r12, s3
				; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
				; CHECK-NEXT: vmov r0, s7
				; CHECK-NEXT: vmov.f64 d2, d8
				; CHECK-NEXT: vmov.f32 s5, s17
				; CHECK-NEXT: vmov.f32 s6, s0
				; CHECK-NEXT: vmov.f32 s7, s1
				; CHECK-NEXT: vmov r4, s2
				; CHECK-NEXT: vmov.f32 s29, s13
				; CHECK-NEXT: vmov.f32 s30, s24
				; CHECK-NEXT: vmov.f32 s31, s25
				; CHECK-NEXT: adds.w lr, r3, r2
				; CHECK-NEXT: vmov r2, s3
				; CHECK-NEXT: vmov r3, s7
				; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmov r6, s2			; CHECK-NEXT: vmov r6, s2
	; CHECK-NEXT: adds r3, r3, r4			; CHECK-NEXT: vmov r5, s3
	; CHECK-NEXT: vmov r4, s23			; CHECK-NEXT: vmov.f64 d0, d7
	; CHECK-NEXT: adcs r0, r2
	; CHECK-NEXT: adds.w lr, lr, r3
	; CHECK-NEXT: adc.w r12, r12, r0			; CHECK-NEXT: adc.w r12, r12, r0
	; CHECK-NEXT: vmov r0, s26			; CHECK-NEXT: vmov r0, s6
	; CHECK-NEXT: vmov r2, s22			; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov r3, s27			; CHECK-NEXT: vmov.f32 s1, s15
	; CHECK-NEXT: adds r0, r0, r2			; CHECK-NEXT: vmov r7, s5
	; CHECK-NEXT: adc.w r2, r4, r3			; CHECK-NEXT: adds r0, r0, r4
	; CHECK-NEXT: vmov r3, s19			; CHECK-NEXT: vmov r4, s27
	; CHECK-NEXT: vmov r4, s3			; CHECK-NEXT: adcs r3, r2
	; CHECK-NEXT: adds r5, r5, r6			; CHECK-NEXT: adds.w lr, lr, r0
	; CHECK-NEXT: vmov r6, s20			; CHECK-NEXT: adc.w r12, r12, r3
	; CHECK-NEXT: adcs r3, r4			; CHECK-NEXT: vmov r3, s30
	; CHECK-NEXT: adds r0, r0, r5			; CHECK-NEXT: vmov r2, s26
	; CHECK-NEXT: vmov r5, s24			; CHECK-NEXT: vmov r0, s31
	; CHECK-NEXT: adc.w r8, r3, r2			; CHECK-NEXT: adds r2, r2, r3
	; CHECK-NEXT: vmov r2, s25			; CHECK-NEXT: adc.w r3, r0, r4
	; CHECK-NEXT: vmov r4, s21			; CHECK-NEXT: vmov r4, s22
	; CHECK-NEXT: vmov r3, s0			; CHECK-NEXT: vmov r0, s23
	; CHECK-NEXT: adds r5, r5, r6			; CHECK-NEXT: adds r4, r4, r6
	; CHECK-NEXT: vmov r6, s1			; CHECK-NEXT: vmov r6, s12
	; CHECK-NEXT: adcs r2, r4			; CHECK-NEXT: adcs r5, r0
	; CHECK-NEXT: vmov r4, s17			; CHECK-NEXT: adds r0, r4, r2
	; CHECK-NEXT: adds r3, r3, r7			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmov r7, s28			; CHECK-NEXT: adc.w r8, r5, r3
				; CHECK-NEXT: vmov r2, s1
				; CHECK-NEXT: vmov r5, s13
				; CHECK-NEXT: vmov.f64 d0, d3
				; CHECK-NEXT: vmov.f32 s1, s7
				; CHECK-NEXT: vmov r3, s4
				; CHECK-NEXT: adds r4, r4, r6
				; CHECK-NEXT: vmov r6, s0
				; CHECK-NEXT: adcs r2, r5
				; CHECK-NEXT: vmov r5, s1
				; CHECK-NEXT: vmov.f64 d0, d5
				; CHECK-NEXT: vmov.f32 s1, s11
				; CHECK-NEXT: adds r3, r3, r6
				; CHECK-NEXT: vmov r6, s9
				; CHECK-NEXT: adcs r5, r7
				; CHECK-NEXT: adds r3, r3, r4
				; CHECK-NEXT: adcs r2, r5
				; CHECK-NEXT: vmov r5, s0
				; CHECK-NEXT: vmov r7, s8
				; CHECK-NEXT: vmov.32 q1[0], r3
				; CHECK-NEXT: vmov r4, s1
				; CHECK-NEXT: vmov.32 q1[1], r2
				; CHECK-NEXT: vmov.f64 d0, d9
				; CHECK-NEXT: vmov.32 q1[2], r0
				; CHECK-NEXT: vmov.32 q1[3], r8
				; CHECK-NEXT: vstrw.32 q1, [r1, #16]
				; CHECK-NEXT: vmov.f32 s1, s19
				; CHECK-NEXT: vmov r2, s0
				; CHECK-NEXT: vmov r0, s17
				; CHECK-NEXT: vmov r3, s1
				; CHECK-NEXT: adds r5, r5, r7
	; CHECK-NEXT: adcs r4, r6			; CHECK-NEXT: adcs r4, r6
	; CHECK-NEXT: adds r3, r3, r5			; CHECK-NEXT: vmov r6, s16
	; CHECK-NEXT: vmov r6, s8			; CHECK-NEXT: adds r2, r2, r6
	; CHECK-NEXT: adcs r2, r4			; CHECK-NEXT: adcs r0, r3
	; CHECK-NEXT: vmov r4, s9			; CHECK-NEXT: adds r2, r2, r5
	; CHECK-NEXT: vmov.32 q0[0], r3			; CHECK-NEXT: adcs r0, r4
	; CHECK-NEXT: vmov r5, s29			; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.32 q0[1], r2			; CHECK-NEXT: vmov.32 q0[1], r0
	; CHECK-NEXT: vmov.32 q0[2], r0
	; CHECK-NEXT: vmov r0, s12
	; CHECK-NEXT: vmov r3, s13
	; CHECK-NEXT: vmov.32 q0[3], r8
	; CHECK-NEXT: vmov r2, s5
	; CHECK-NEXT: vstrw.32 q0, [r1, #16]
	; CHECK-NEXT: adds r6, r6, r7
	; CHECK-NEXT: adcs r4, r5
	; CHECK-NEXT: vmov r5, s4
	; CHECK-NEXT: adds r0, r0, r5
	; CHECK-NEXT: adcs r2, r3
	; CHECK-NEXT: adds r0, r0, r6
	; CHECK-NEXT: adcs r2, r4
	; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: vmov.32 q0[1], r2
	; CHECK-NEXT: vmov.32 q0[2], lr			; CHECK-NEXT: vmov.32 q0[2], lr
	; CHECK-NEXT: vmov.32 q0[3], r12			; CHECK-NEXT: vmov.32 q0[3], r12
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: add sp, #72			; CHECK-NEXT: add sp, #40
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, pc}
	entry:			entry:
	%l1 = load <16 x i64>, <16 x i64>* %src, align 4			%l1 = load <16 x i64>, <16 x i64>* %src, align 4
	%s1 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>			%s1 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 0, i32 4, i32 8, i32 12>
	%s2 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>			%s2 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 1, i32 5, i32 9, i32 13>
	%s3 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>			%s3 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 2, i32 6, i32 10, i32 14>
	%s4 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>			%s4 = shufflevector <16 x i64> %l1, <16 x i64> undef, <4 x i32> <i32 3, i32 7, i32 11, i32 15>
	▲ Show 20 Lines • Show All 447 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vldst4.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s

	define void @vldst4(half* nocapture readonly %pIn, half* nocapture %pOut, i32 %numRows, i32 %numCols, i32 %scale.coerce) #0 {			define void @vldst4(half* nocapture readonly %pIn, half* nocapture %pOut, i32 %numRows, i32 %numCols, i32 %scale.coerce) #0 {
	; CHECK-LABEL: vldst4:			; CHECK-LABEL: vldst4:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r7, lr}			; CHECK-NEXT: .save {r4, r5, r7, lr}
	; CHECK-NEXT: push {r4, r5, r7, lr}			; CHECK-NEXT: push {r4, r5, r7, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: .pad #80			; CHECK-NEXT: .pad #192
	; CHECK-NEXT: sub sp, #80			; CHECK-NEXT: sub sp, #192
	; CHECK-NEXT: mul r12, r3, r2			; CHECK-NEXT: mul r12, r3, r2
	; CHECK-NEXT: movs r2, #0			; CHECK-NEXT: movs r2, #0
	; CHECK-NEXT: cmp.w r2, r12, lsr #2			; CHECK-NEXT: cmp.w r2, r12, lsr #2
	; CHECK-NEXT: beq.w .LBB0_3			; CHECK-NEXT: beq.w .LBB0_3
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: mvn r3, #7			; CHECK-NEXT: mvn r3, #7
	; CHECK-NEXT: ldr r5, [sp, #160]			; CHECK-NEXT: ldr r5, [sp, #272]
	; CHECK-NEXT: and.w r3, r3, r12, lsr #2			; CHECK-NEXT: and.w r3, r3, r12, lsr #2
	; CHECK-NEXT: sub.w r12, r3, #8			; CHECK-NEXT: sub.w r12, r3, #8
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #3			; CHECK-NEXT: add.w lr, r3, r12, lsr #3
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB0_2: @ %vector.body			; CHECK-NEXT: .LBB0_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q5, [r0, #32]			; CHECK-NEXT: vldrh.u16 q4, [r0], #64
	; CHECK-NEXT: vldrh.u16 q3, [r0, #48]			; CHECK-NEXT: vldrh.u16 q7, [r0, #-32]
	; CHECK-NEXT: vldrh.u16 q7, [r0], #64			; CHECK-NEXT: vmov r2, s16
	; CHECK-NEXT: vmov r2, s20			; CHECK-NEXT: vmov.16 q0[0], r2
	; CHECK-NEXT: vmovx.f16 s8, s12			; CHECK-NEXT: vmov r3, s18
	; CHECK-NEXT: vmov.16 q0[4], r2
	; CHECK-NEXT: vmov r3, s22
	; CHECK-NEXT: vmov.16 q0[5], r3
	; CHECK-NEXT: vmov r2, s12
	; CHECK-NEXT: vmov.16 q0[6], r2
	; CHECK-NEXT: vmov r2, s28			; CHECK-NEXT: vmov r2, s28
	; CHECK-NEXT: vldrh.u16 q6, [r0, #-48]			; CHECK-NEXT: vmov.16 q0[1], r3
	; CHECK-NEXT: vmov.16 q1[0], r2
	; CHECK-NEXT: vmov r3, s30			; CHECK-NEXT: vmov r3, s30
	; CHECK-NEXT: vmov.16 q1[1], r3			; CHECK-NEXT: vmov.16 q1[4], r2
	; CHECK-NEXT: vmov r2, s24			; CHECK-NEXT: vldrh.u16 q6, [r0, #-16]
	; CHECK-NEXT: vmov.16 q1[2], r2			; CHECK-NEXT: vmov.16 q1[5], r3
	; CHECK-NEXT: vmov r2, s14			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vmov.16 q0[7], r2			; CHECK-NEXT: vldrh.u16 q5, [r0, #-48]
				; CHECK-NEXT: vmov r3, s24
				; CHECK-NEXT: vmov q3, q0
				; CHECK-NEXT: vmov.16 q2[6], r3
	; CHECK-NEXT: vmov r2, s26			; CHECK-NEXT: vmov r2, s26
	; CHECK-NEXT: vmov.16 q1[3], r2			; CHECK-NEXT: vmov.16 q2[7], r2
	; CHECK-NEXT: vmov.f32 s6, s2			; CHECK-NEXT: vmov r2, s20
	; CHECK-NEXT: vmov.f32 s7, s3			; CHECK-NEXT: vmov r3, s22
	; CHECK-NEXT: vmul.f16 q0, q1, r5			; CHECK-NEXT: vmov.16 q3[2], r2
	; CHECK-NEXT: vmovx.f16 s4, s24			; CHECK-NEXT: vmov.16 q3[3], r3
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov.f32 s1, s13
	; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill			; CHECK-NEXT: vmovx.f16 s12, s22
	; CHECK-NEXT: vmovx.f16 s0, s30			; CHECK-NEXT: vmov.f32 s2, s6
				; CHECK-NEXT: vmovx.f16 s4, s26
				; CHECK-NEXT: vmov.f32 s3, s11
				; CHECK-NEXT: vmovx.f16 s8, s18
				; CHECK-NEXT: vmul.f16 q0, q0, r5
				; CHECK-NEXT: vstrw.32 q0, [sp, #176] @ 16-byte Spill
	; CHECK-NEXT: vmov r3, s3			; CHECK-NEXT: vmov r3, s3
				; CHECK-NEXT: vmovx.f16 s0, s30
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s28			; CHECK-NEXT: vmovx.f16 s0, s28
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmov.16 q0[0], r4			; CHECK-NEXT: vmov.16 q0[4], r4
	; CHECK-NEXT: vmov.16 q0[1], r2			; CHECK-NEXT: vmov.16 q0[5], r2
	; CHECK-NEXT: vmov r2, s4
	; CHECK-NEXT: vmovx.f16 s4, s22
	; CHECK-NEXT: vmov.16 q0[2], r2
	; CHECK-NEXT: vmov r2, s4			; CHECK-NEXT: vmov r2, s4
	; CHECK-NEXT: vmovx.f16 s4, s20			; CHECK-NEXT: vmovx.f16 s4, s24
	; CHECK-NEXT: vmov r4, s4			; CHECK-NEXT: vmov r4, s4
	; CHECK-NEXT: vmov.16 q1[4], r4			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov.16 q1[5], r2			; CHECK-NEXT: vmov.16 q1[6], r4
	; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmovx.f16 s8, s14
	; CHECK-NEXT: vmov.16 q1[6], r2
	; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmovx.f16 s8, s26
	; CHECK-NEXT: vmov.16 q1[7], r2			; CHECK-NEXT: vmov.16 q1[7], r2
	; CHECK-NEXT: vmov r2, s8			; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmov.16 q0[3], r2			; CHECK-NEXT: vmovx.f16 s8, s16
	; CHECK-NEXT: vmovx.f16 s8, s13			; CHECK-NEXT: vmov r4, s8
	; CHECK-NEXT: vmov.f32 s2, s6			; CHECK-NEXT: vmov.16 q2[0], r4
	; CHECK-NEXT: vmov.f32 s3, s7			; CHECK-NEXT: vmov.16 q2[1], r2
	; CHECK-NEXT: vmov.16 q1[0], r3			; CHECK-NEXT: vmov r2, s12
	; CHECK-NEXT: vmul.f16 q0, q0, r5			; CHECK-NEXT: vmovx.f16 s12, s20
	; CHECK-NEXT: vmov r3, s23			; CHECK-NEXT: vmov r4, s12
				; CHECK-NEXT: vmov q3, q2
				; CHECK-NEXT: vmov.16 q3[2], r4
				; CHECK-NEXT: vmov.16 q3[3], r2
				; CHECK-NEXT: vmov.f32 s9, s13
				; CHECK-NEXT: vmov.f32 s10, s2
				; CHECK-NEXT: vmov.f32 s11, s7
				; CHECK-NEXT: vmul.f16 q0, q2, r5
				; CHECK-NEXT: vstrw.32 q0, [sp, #144] @ 16-byte Spill
	; CHECK-NEXT: vmov r2, s3			; CHECK-NEXT: vmov r2, s3
	; CHECK-NEXT: vstrw.32 q0, [sp, #64] @ 16-byte Spill			; CHECK-NEXT: vmov.16 q0[0], r3
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vmov r3, s19
	; CHECK-NEXT: vmov.16 q1[1], r2			; CHECK-NEXT: vmov.16 q0[1], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s17
				; CHECK-NEXT: vstrw.32 q0, [sp, #160] @ 16-byte Spill
				; CHECK-NEXT: vmov.16 q0[0], r2
				; CHECK-NEXT: vmov r2, s29
				; CHECK-NEXT: vmov.16 q0[1], r3
	; CHECK-NEXT: vmov.16 q1[4], r2			; CHECK-NEXT: vmov.16 q1[4], r2
	; CHECK-NEXT: vmov r2, s21			; CHECK-NEXT: vmov r3, s31
	; CHECK-NEXT: vmov.16 q0[4], r2			; CHECK-NEXT: vmov.16 q1[5], r3
	; CHECK-NEXT: vmov r2, s13
	; CHECK-NEXT: vmov.16 q0[5], r3
	; CHECK-NEXT: vmov r3, s29
	; CHECK-NEXT: vstrw.32 q1, [sp, #16] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q0[6], r2
	; CHECK-NEXT: vmov r2, s31
	; CHECK-NEXT: vmov.16 q1[0], r3
	; CHECK-NEXT: vmov.16 q1[1], r2
	; CHECK-NEXT: vmov r2, s25			; CHECK-NEXT: vmov r2, s25
	; CHECK-NEXT: vmov.16 q1[2], r2			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vmov r2, s15			; CHECK-NEXT: vmov r3, s27
	; CHECK-NEXT: vmov.16 q0[7], r2			; CHECK-NEXT: vmov.16 q2[6], r2
	; CHECK-NEXT: vmov r2, s27			; CHECK-NEXT: vmov r2, s21
	; CHECK-NEXT: vmov.16 q1[3], r2			; CHECK-NEXT: vmov q3, q0
	; CHECK-NEXT: vmov.f32 s6, s2			; CHECK-NEXT: vmov.16 q2[7], r3
	; CHECK-NEXT: vmov.f32 s7, s3			; CHECK-NEXT: vmov r3, s23
				; CHECK-NEXT: vmov.16 q3[2], r2
				; CHECK-NEXT: vmov.16 q3[3], r3
				; CHECK-NEXT: vmov.f32 s1, s13
				; CHECK-NEXT: vmovx.f16 s12, s23
				; CHECK-NEXT: vmov.f32 s2, s6
				; CHECK-NEXT: vmovx.f16 s4, s27
				; CHECK-NEXT: vmov.f32 s3, s11
				; CHECK-NEXT: vmovx.f16 s8, s19
				; CHECK-NEXT: vmul.f16 q0, q0, r5
				; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
				; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vmovx.f16 s0, s31			; CHECK-NEXT: vmovx.f16 s0, s31
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s29			; CHECK-NEXT: vmovx.f16 s0, s29
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmul.f16 q4, q1, r5			; CHECK-NEXT: vmov.16 q0[4], r4
	; CHECK-NEXT: vmov.16 q0[0], r4			; CHECK-NEXT: vmov.16 q0[5], r2
	; CHECK-NEXT: vmovx.f16 s4, s25
	; CHECK-NEXT: vmov.16 q0[1], r2
	; CHECK-NEXT: vmov r2, s4
	; CHECK-NEXT: vmovx.f16 s4, s23
	; CHECK-NEXT: vmov.16 q0[2], r2
	; CHECK-NEXT: vmov r2, s4			; CHECK-NEXT: vmov r2, s4
	; CHECK-NEXT: vmovx.f16 s4, s21			; CHECK-NEXT: vmovx.f16 s4, s25
				; CHECK-NEXT: vldrw.u32 q6, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmov r4, s4			; CHECK-NEXT: vmov r4, s4
	; CHECK-NEXT: vstrw.32 q4, [sp, #32] @ 16-byte Spill			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov.16 q1[4], r4			; CHECK-NEXT: vmov.16 q1[6], r4
	; CHECK-NEXT: vmov r3, s16
	; CHECK-NEXT: vmov.16 q1[5], r2
	; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmovx.f16 s8, s15
	; CHECK-NEXT: vmov.16 q1[6], r2
	; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmovx.f16 s8, s27
	; CHECK-NEXT: vmov.16 q1[7], r2			; CHECK-NEXT: vmov.16 q1[7], r2
	; CHECK-NEXT: vmov r2, s8			; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmov.16 q0[3], r2			; CHECK-NEXT: vmovx.f16 s8, s17
	; CHECK-NEXT: vldrw.u32 q2, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vmov r4, s8
	; CHECK-NEXT: vmov.f32 s2, s6			; CHECK-NEXT: vmov.16 q2[0], r4
	; CHECK-NEXT: vmov.f32 s3, s7			; CHECK-NEXT: vmov.16 q2[1], r2
				; CHECK-NEXT: vmov r2, s12
				; CHECK-NEXT: vmovx.f16 s12, s21
				; CHECK-NEXT: vmov r4, s12
				; CHECK-NEXT: vmov q3, q2
				; CHECK-NEXT: vmov.16 q3[2], r4
				; CHECK-NEXT: vmov.16 q3[3], r2
				; CHECK-NEXT: vmov.f32 s9, s13
				; CHECK-NEXT: vldrw.u32 q3, [sp, #144] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s10, s2
				; CHECK-NEXT: vmovx.f16 s0, s24
				; CHECK-NEXT: vmov.f32 s11, s7
	; CHECK-NEXT: vmov.16 q1[2], r3			; CHECK-NEXT: vmov.16 q1[2], r3
	; CHECK-NEXT: vmul.f16 q6, q0, r5			; CHECK-NEXT: vmul.f16 q2, q2, r5
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vmov q4, q3
	; CHECK-NEXT: vmov r2, s24			; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmov.16 q1[3], r2			; CHECK-NEXT: vmov.16 q1[3], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s24
	; CHECK-NEXT: vmov.16 q1[6], r2
	; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s8			; CHECK-NEXT: vmovx.f16 s0, s8
	; CHECK-NEXT: vmov.16 q1[7], r2			; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill
	; CHECK-NEXT: vmov r2, s8			; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill			; CHECK-NEXT: vmov.16 q1[6], r2
	; CHECK-NEXT: vldrw.u32 q1, [sp, #64] @ 16-byte Reload			; CHECK-NEXT: vmov.16 q1[7], r3
	; CHECK-NEXT: vmov.16 q5[0], r2			; CHECK-NEXT: vmov r3, s12
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vstrw.32 q1, [sp, #112] @ 16-byte Spill
	; CHECK-NEXT: vmov r3, s4			; CHECK-NEXT: vldrw.u32 q1, [sp, #176] @ 16-byte Reload
				; CHECK-NEXT: vmov r2, s4
	; CHECK-NEXT: vmovx.f16 s0, s4			; CHECK-NEXT: vmovx.f16 s0, s4
	; CHECK-NEXT: vmov.16 q5[1], r3			; CHECK-NEXT: vmov.16 q7[0], r2
	; CHECK-NEXT: vmov r3, s25
	; CHECK-NEXT: vmov.16 q5[4], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.16 q5[5], r2			; CHECK-NEXT: vmov.16 q7[1], r3
	; CHECK-NEXT: vmov r2, s17			; CHECK-NEXT: vmovx.f16 s0, s12
				; CHECK-NEXT: vmov r3, s0
				; CHECK-NEXT: vmov q0, q7
				; CHECK-NEXT: vmov.16 q0[4], r2
				; CHECK-NEXT: vmov q5, q1
				; CHECK-NEXT: vmov q1, q6
				; CHECK-NEXT: vmov.16 q0[5], r3
				; CHECK-NEXT: vmov r2, s5
				; CHECK-NEXT: vstrw.32 q0, [sp, #96] @ 16-byte Spill
				; CHECK-NEXT: vmovx.f16 s0, s5
	; CHECK-NEXT: vmov.16 q3[2], r2			; CHECK-NEXT: vmov.16 q3[2], r2
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vmov r3, s9
				; CHECK-NEXT: vmov q1, q4
	; CHECK-NEXT: vmov.16 q3[3], r3			; CHECK-NEXT: vmov.16 q3[3], r3
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s25
	; CHECK-NEXT: vmov.16 q3[6], r2
	; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s9			; CHECK-NEXT: vmovx.f16 s0, s9
	; CHECK-NEXT: vmov.16 q3[7], r2			; CHECK-NEXT: vstrw.32 q3, [sp, #80] @ 16-byte Spill
	; CHECK-NEXT: vmov r2, s9			; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vmov.16 q7[0], r2			; CHECK-NEXT: vmov.16 q3[6], r2
				; CHECK-NEXT: vmov r2, s21
				; CHECK-NEXT: vmov.16 q3[7], r3
				; CHECK-NEXT: vmovx.f16 s0, s21
				; CHECK-NEXT: vmov.16 q4[0], r2
	; CHECK-NEXT: vmov r3, s5			; CHECK-NEXT: vmov r3, s5
	; CHECK-NEXT: vmov.16 q7[1], r3			; CHECK-NEXT: vmov q5, q6
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
				; CHECK-NEXT: vmov.16 q4[1], r3
	; CHECK-NEXT: vmovx.f16 s0, s5			; CHECK-NEXT: vmovx.f16 s0, s5
	; CHECK-NEXT: vmov.16 q7[4], r2			; CHECK-NEXT: vstrw.32 q3, [sp, #64] @ 16-byte Spill
				; CHECK-NEXT: vmov r3, s0
				; CHECK-NEXT: vmov q0, q4
				; CHECK-NEXT: vmov.16 q0[4], r2
				; CHECK-NEXT: vmov r2, s22
				; CHECK-NEXT: vmov.16 q0[5], r3
				; CHECK-NEXT: vmov q3, q1
				; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill
				; CHECK-NEXT: vmovx.f16 s0, s22
				; CHECK-NEXT: vmov.16 q1[2], r2
				; CHECK-NEXT: vmov r3, s10
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload			; CHECK-NEXT: vmovx.f16 s0, s10
	; CHECK-NEXT: vmov.16 q7[5], r2			; CHECK-NEXT: vmov.16 q1[3], r3
	; CHECK-NEXT: vmov r3, s26			; CHECK-NEXT: vmov r3, s0
				; CHECK-NEXT: vldrw.u32 q0, [sp, #176] @ 16-byte Reload
				; CHECK-NEXT: vstrw.32 q1, [sp, #32] @ 16-byte Spill
				; CHECK-NEXT: vmov.16 q1[6], r2
	; CHECK-NEXT: vmov r2, s2			; CHECK-NEXT: vmov r2, s2
				; CHECK-NEXT: vmov.16 q1[7], r3
				; CHECK-NEXT: vmov r3, s14
				; CHECK-NEXT: vmov.16 q6[0], r2
	; CHECK-NEXT: vmovx.f16 s0, s2			; CHECK-NEXT: vmovx.f16 s0, s2
	; CHECK-NEXT: vmov.16 q2[2], r2			; CHECK-NEXT: vmov.16 q6[1], r3
	; CHECK-NEXT: vmov q4, q1			; CHECK-NEXT: vstrw.32 q1, [sp, #16] @ 16-byte Spill
	; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q2[3], r3
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s26			; CHECK-NEXT: vmov q1, q6
				; CHECK-NEXT: vmovx.f16 s0, s14
				; CHECK-NEXT: vmov r3, s0
				; CHECK-NEXT: vmov.16 q1[4], r2
				; CHECK-NEXT: vmov r2, s23
				; CHECK-NEXT: vmovx.f16 s0, s23
				; CHECK-NEXT: vldrw.u32 q5, [sp, #128] @ 16-byte Reload
				; CHECK-NEXT: vmov.16 q1[5], r3
				; CHECK-NEXT: vmov.16 q3[2], r2
				; CHECK-NEXT: vmov r3, s11
				; CHECK-NEXT: vmov.f32 s29, s21
				; CHECK-NEXT: vldrw.u32 q5, [sp, #96] @ 16-byte Reload
				; CHECK-NEXT: vmov r2, s0
				; CHECK-NEXT: vmovx.f16 s0, s11
				; CHECK-NEXT: vmov.f32 s30, s22
				; CHECK-NEXT: vldrw.u32 q5, [sp, #112] @ 16-byte Reload
				; CHECK-NEXT: vmov.16 q3[3], r3
				; CHECK-NEXT: vmov r3, s0
				; CHECK-NEXT: vmov.f32 s31, s23
				; CHECK-NEXT: vldrw.u32 q5, [sp, #80] @ 16-byte Reload
				; CHECK-NEXT: vldrw.u32 q0, [sp, #176] @ 16-byte Reload
				; CHECK-NEXT: vmov q2, q3
				; CHECK-NEXT: vmov.f32 s17, s21
				; CHECK-NEXT: vldrw.u32 q5, [sp, #48] @ 16-byte Reload
				; CHECK-NEXT: vmovx.f16 s0, s3
	; CHECK-NEXT: vmov.16 q2[6], r2			; CHECK-NEXT: vmov.16 q2[6], r2
				; CHECK-NEXT: vmov.f32 s18, s22
				; CHECK-NEXT: vldrw.u32 q5, [sp, #64] @ 16-byte Reload
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.16 q2[7], r2			; CHECK-NEXT: vldrw.u32 q0, [sp, #144] @ 16-byte Reload
	; CHECK-NEXT: vmov r2, s6			; CHECK-NEXT: vmov.f32 s19, s23
	; CHECK-NEXT: vmov r3, s18			; CHECK-NEXT: vldrw.u32 q5, [sp, #32] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q0[0], r2			; CHECK-NEXT: vmovx.f16 s0, s3
	; CHECK-NEXT: vmovx.f16 s4, s6			; CHECK-NEXT: vmov.16 q2[7], r3
	; CHECK-NEXT: vmov.16 q0[1], r3			; CHECK-NEXT: vmov.f32 s25, s21
	; CHECK-NEXT: vmov r2, s4			; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vmovx.f16 s4, s18			; CHECK-NEXT: vldrw.u32 q0, [sp, #160] @ 16-byte Reload
	; CHECK-NEXT: vldrw.u32 q4, [sp, #32] @ 16-byte Reload			; CHECK-NEXT: vmov.f32 s26, s6
				; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q0[4], r2			; CHECK-NEXT: vmov.16 q0[4], r2
	; CHECK-NEXT: vmov r2, s4			; CHECK-NEXT: vmov.f32 s27, s7
	; CHECK-NEXT: vmov.16 q0[5], r2			; CHECK-NEXT: vldrw.u32 q1, [sp, #160] @ 16-byte Reload
	; CHECK-NEXT: vmov r2, s19			; CHECK-NEXT: vmov.16 q0[5], r3
	; CHECK-NEXT: vmov r3, s27			; CHECK-NEXT: vmov.f32 s5, s13
	; CHECK-NEXT: vmov.16 q1[2], r2			; CHECK-NEXT: vmov.f32 s6, s2
	; CHECK-NEXT: vmovx.f16 s16, s19			; CHECK-NEXT: vstrh.16 q6, [r1, #32]
	; CHECK-NEXT: vmov.16 q1[3], r3			; CHECK-NEXT: vmov.f32 s7, s11
	; CHECK-NEXT: vmov r2, s16			; CHECK-NEXT: vstrh.16 q1, [r1, #48]
	; CHECK-NEXT: vmovx.f16 s16, s27			; CHECK-NEXT: vstrh.16 q7, [r1], #64
	; CHECK-NEXT: vmov.16 q1[6], r2			; CHECK-NEXT: vstrh.16 q4, [r1, #-48]
	; CHECK-NEXT: vmov r2, s16
	; CHECK-NEXT: vldrw.u32 q4, [sp, #64] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q1[7], r2
	; CHECK-NEXT: vmov.f32 s1, s9
	; CHECK-NEXT: vldrw.u32 q6, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmovx.f16 s16, s19
	; CHECK-NEXT: vmov.f32 s3, s11
	; CHECK-NEXT: vmov r2, s16
	; CHECK-NEXT: vldrw.u32 q4, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s21, s25
	; CHECK-NEXT: vstrh.16 q0, [r1, #32]
	; CHECK-NEXT: vmov.16 q4[5], r2
	; CHECK-NEXT: vmov.f32 s29, s13
	; CHECK-NEXT: vmov q2, q4
	; CHECK-NEXT: vmov.f32 s23, s27
	; CHECK-NEXT: vmov.f32 s9, s5
	; CHECK-NEXT: vmov.f32 s11, s7
	; CHECK-NEXT: vstrh.16 q2, [r1, #48]
	; CHECK-NEXT: vstrh.16 q5, [r1], #64
	; CHECK-NEXT: vmov.f32 s31, s15
	; CHECK-NEXT: vstrh.16 q7, [r1, #-48]
	; CHECK-NEXT: le lr, .LBB0_2			; CHECK-NEXT: le lr, .LBB0_2
	; CHECK-NEXT: .LBB0_3: @ %while.end			; CHECK-NEXT: .LBB0_3: @ %while.end
	; CHECK-NEXT: add sp, #80			; CHECK-NEXT: add sp, #192
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: pop {r4, r5, r7, pc}			; CHECK-NEXT: pop {r4, r5, r7, pc}
	entry:			entry:
	%tmp.0.extract.trunc = trunc i32 %scale.coerce to i16			%tmp.0.extract.trunc = trunc i32 %scale.coerce to i16
	%l0 = bitcast i16 %tmp.0.extract.trunc to half			%l0 = bitcast i16 %tmp.0.extract.trunc to half
	%mul = mul i32 %numCols, %numRows			%mul = mul i32 %numCols, %numRows
	%shr = lshr i32 %mul, 2			%shr = lshr i32 %mul, 2
	%cmp38 = icmp eq i32 %shr, 0			%cmp38 = icmp eq i32 %shr, 0
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vmulh.ll

Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	entry:
%s2 = trunc <2 x i64> %s to <2 x i32>		%s2 = trunc <2 x i64> %s to <2 x i32>
ret <2 x i32> %s2		ret <2 x i32> %s2
}		}

define arm_aapcs_vfpcc <4 x i32> @vmulhs_v4i32(<4 x i32> %s0, <4 x i32> %s1) {		define arm_aapcs_vfpcc <4 x i32> @vmulhs_v4i32(<4 x i32> %s0, <4 x i32> %s1) {
; CHECK-LABEL: vmulhs_v4i32:		; CHECK-LABEL: vmulhs_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.f32 s8, s4		; CHECK-NEXT: vmov.f32 s8, s4
; CHECK-NEXT: vmov.f32 s12, s0
; CHECK-NEXT: vmov.f32 s14, s1
; CHECK-NEXT: vmov.f32 s10, s5		; CHECK-NEXT: vmov.f32 s10, s5
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov r1, s14
; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov.f32 s12, s6		; CHECK-NEXT: vmov.f32 s12, s6
; CHECK-NEXT: vmov.f32 s14, s7		; CHECK-NEXT: vmov.f32 s14, s7
		; CHECK-NEXT: vmov r0, s10
		; CHECK-NEXT: vmov.f32 s8, s0
		; CHECK-NEXT: vmov.f32 s10, s1
		; CHECK-NEXT: vmov r1, s10
		; CHECK-NEXT: smmul r0, r1, r0
		; CHECK-NEXT: vmov r1, s4
; CHECK-NEXT: vmov.f32 s4, s2		; CHECK-NEXT: vmov.f32 s4, s2
; CHECK-NEXT: vmov.f32 s6, s3		; CHECK-NEXT: vmov.f32 s6, s3
; CHECK-NEXT: vmullb.s32 q0, q1, q3		; CHECK-NEXT: vmullb.s32 q0, q1, q3
; CHECK-NEXT: smmul r0, r1, r0
; CHECK-NEXT: vmov r1, s8
; CHECK-NEXT: smmul r1, r2, r1		; CHECK-NEXT: smmul r1, r2, r1
; CHECK-NEXT: vmov.32 q2[0], r1		; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.32 q2[1], r0		; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov r0, s1		; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: vmov.32 q2[2], r0		; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov r0, s3		; CHECK-NEXT: vmov r0, s3
; CHECK-NEXT: vmov.32 q2[3], r0		; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmov q0, q2		; CHECK-NEXT: vmov q0, q2
▲ Show 20 Lines • Show All 457 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vmull-loop.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK

	define arm_aapcs_vfpcc void @test32(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32* nocapture %z, i32 %n) {			define arm_aapcs_vfpcc void @test32(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32* nocapture %z, i32 %n) {
	; CHECK-LABEL: test32:			; CHECK-LABEL: test32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r5, lr}			; CHECK-NEXT: .save {r5, lr}
	; CHECK-NEXT: push {r5, lr}			; CHECK-NEXT: push {r5, lr}
				; CHECK-NEXT: .vsave {d8, d9}
				; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: cmp r3, #1			; CHECK-NEXT: cmp r3, #1
	; CHECK-NEXT: it lt			; CHECK-NEXT: blt .LBB0_2
	; CHECK-NEXT: poplt {r5, pc}
	; CHECK-NEXT: .LBB0_1: @ %vector.body			; CHECK-NEXT: .LBB0_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r0], #16			; CHECK-NEXT: vldrw.u32 q2, [r0], #16
	; CHECK-NEXT: vldrw.u32 q2, [r1], #16			; CHECK-NEXT: vldrw.u32 q3, [r1], #16
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmullt.s32 q3, q2, q1			; CHECK-NEXT: vmullt.s32 q4, q3, q2
	; CHECK-NEXT: vmov r5, s13			; CHECK-NEXT: vmov r5, s17
	; CHECK-NEXT: vmov r12, s12			; CHECK-NEXT: vmov r12, s16
	; CHECK-NEXT: lsrl r12, r5, #31			; CHECK-NEXT: lsrl r12, r5, #31
	; CHECK-NEXT: vmov.32 q0[0], r12			; CHECK-NEXT: vmov.32 q0[0], r12
	; CHECK-NEXT: vmov r12, s14			; CHECK-NEXT: vmov r12, s18
	; CHECK-NEXT: vmov.32 q0[1], r5			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov r5, s15
	; CHECK-NEXT: lsrl r12, r5, #31
	; CHECK-NEXT: vmullb.s32 q3, q2, q1
	; CHECK-NEXT: vmov.32 q0[2], r12
	; CHECK-NEXT: vmov r12, s12
	; CHECK-NEXT: vmov.32 q0[3], r5
	; CHECK-NEXT: vmov r5, s13
	; CHECK-NEXT: lsrl r12, r5, #31
	; CHECK-NEXT: vmov.32 q1[0], r12
	; CHECK-NEXT: vmov r12, s14
	; CHECK-NEXT: vmov.32 q1[1], r5			; CHECK-NEXT: vmov.32 q1[1], r5
	; CHECK-NEXT: vmov r5, s15			; CHECK-NEXT: vmov r5, s19
	; CHECK-NEXT: lsrl r12, r5, #31			; CHECK-NEXT: lsrl r12, r5, #31
				; CHECK-NEXT: vmullb.s32 q4, q3, q2
	; CHECK-NEXT: vmov.32 q1[2], r12			; CHECK-NEXT: vmov.32 q1[2], r12
	; CHECK-NEXT: vmov.32 q1[3], r5			; CHECK-NEXT: vmov r5, s17
	; CHECK-NEXT: vmov.f32 s8, s6			; CHECK-NEXT: vmov r12, s16
	; CHECK-NEXT: vmov.f32 s9, s7			; CHECK-NEXT: lsrl r12, r5, #31
	; CHECK-NEXT: vmov.f32 s6, s0			; CHECK-NEXT: vmov.32 q2[0], r12
	; CHECK-NEXT: vmov.f32 s7, s1			; CHECK-NEXT: vmov r12, s18
	; CHECK-NEXT: vmov.f32 s10, s2			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov.f32 s5, s6			; CHECK-NEXT: vmov.f32 s9, s0
	; CHECK-NEXT: vmov.f32 s11, s3			; CHECK-NEXT: vmov.32 q3[1], r5
	; CHECK-NEXT: vmov.f32 s6, s8			; CHECK-NEXT: vmov r5, s19
	; CHECK-NEXT: vmov.f32 s7, s10			; CHECK-NEXT: lsrl r12, r5, #31
	; CHECK-NEXT: vstrb.8 q1, [r2], #16			; CHECK-NEXT: vmov.32 q3[2], r12
				; CHECK-NEXT: vmov.f32 s15, s6
				; CHECK-NEXT: vmov.f32 s10, s14
				; CHECK-NEXT: vmov.f32 s11, s15
				; CHECK-NEXT: vstrb.8 q2, [r2], #16
	; CHECK-NEXT: bne .LBB0_1			; CHECK-NEXT: bne .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: .LBB0_2: @ %for.cond.cleanup
				; CHECK-NEXT: vpop {d8, d9}
	; CHECK-NEXT: pop {r5, pc}			; CHECK-NEXT: pop {r5, pc}
	entry:			entry:
	%0 = and i32 %n, 3			%0 = and i32 %n, 3
	%cmp = icmp eq i32 %0, 0			%cmp = icmp eq i32 %0, 0
	%cmp113 = icmp sgt i32 %n, 0			%cmp113 = icmp sgt i32 %n, 0
	br i1 %cmp113, label %vector.body, label %for.cond.cleanup			br i1 %cmp113, label %vector.body, label %for.cond.cleanup

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vqmovn.ll

	Show First 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r1, #1			; CHECK-NEXT: movlt r1, #1
	; CHECK-NEXT: cmp r1, #0			; CHECK-NEXT: cmp r1, #0
	; CHECK-NEXT: csetm r1, ne			; CHECK-NEXT: csetm r1, ne
	; CHECK-NEXT: vmov.32 q1[2], r1			; CHECK-NEXT: vmov.32 q1[2], r1
	; CHECK-NEXT: vmov.32 q1[3], r1			; CHECK-NEXT: vmov.32 q1[3], r1
	; CHECK-NEXT: adr r1, .LCPI12_0			; CHECK-NEXT: adr r1, .LCPI12_0
	; CHECK-NEXT: vldrw.u32 q2, [r1]			; CHECK-NEXT: vldrw.u32 q2, [r1]
	; CHECK-NEXT: vand q0, q0, q1			; CHECK-NEXT: vand q3, q0, q1
				; CHECK-NEXT: vmov r2, s13
	; CHECK-NEXT: vbic q2, q2, q1			; CHECK-NEXT: vbic q2, q2, q1
	; CHECK-NEXT: vorr q0, q0, q2			; CHECK-NEXT: vorr q0, q3, q2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov r1, s1			; CHECK-NEXT: rsbs.w r1, r1, #-2147483648
	; CHECK-NEXT: rsbs.w r2, r2, #-2147483648			; CHECK-NEXT: sbcs.w r1, r3, r2
	; CHECK-NEXT: sbcs.w r1, r3, r1			; CHECK-NEXT: vmov r2, s15
	; CHECK-NEXT: vmov r2, s2
	; CHECK-NEXT: mov.w r1, #0			; CHECK-NEXT: mov.w r1, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r1, #1			; CHECK-NEXT: movlt r1, #1
	; CHECK-NEXT: cmp r1, #0			; CHECK-NEXT: cmp r1, #0
	; CHECK-NEXT: csetm r1, ne			; CHECK-NEXT: csetm r1, ne
	; CHECK-NEXT: vmov.32 q1[0], r1			; CHECK-NEXT: vmov.32 q1[0], r1
	; CHECK-NEXT: vmov.32 q1[1], r1			; CHECK-NEXT: vmov.32 q1[1], r1
	; CHECK-NEXT: vmov r1, s3			; CHECK-NEXT: vmov r1, s2
	; CHECK-NEXT: rsbs.w r2, r2, #-2147483648			; CHECK-NEXT: rsbs.w r1, r1, #-2147483648
	; CHECK-NEXT: sbcs.w r1, r3, r1			; CHECK-NEXT: sbcs.w r1, r3, r2
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r0, #1			; CHECK-NEXT: movlt r0, #1
	; CHECK-NEXT: cmp r0, #0			; CHECK-NEXT: cmp r0, #0
	; CHECK-NEXT: csetm r0, ne			; CHECK-NEXT: csetm r0, ne
	; CHECK-NEXT: vmov.32 q1[2], r0			; CHECK-NEXT: vmov.32 q1[2], r0
	; CHECK-NEXT: vmov.32 q1[3], r0			; CHECK-NEXT: vmov.32 q1[3], r0
	; CHECK-NEXT: adr r0, .LCPI12_1			; CHECK-NEXT: adr r0, .LCPI12_1
	; CHECK-NEXT: vldrw.u32 q2, [r0]			; CHECK-NEXT: vldrw.u32 q2, [r0]
	▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vqshrn.ll

	Show First 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r1, #1			; CHECK-NEXT: movlt r1, #1
	; CHECK-NEXT: cmp r1, #0			; CHECK-NEXT: cmp r1, #0
	; CHECK-NEXT: csetm r1, ne			; CHECK-NEXT: csetm r1, ne
	; CHECK-NEXT: vmov.32 q1[2], r1			; CHECK-NEXT: vmov.32 q1[2], r1
	; CHECK-NEXT: vmov.32 q1[3], r1			; CHECK-NEXT: vmov.32 q1[3], r1
	; CHECK-NEXT: adr r1, .LCPI12_0			; CHECK-NEXT: adr r1, .LCPI12_0
	; CHECK-NEXT: vldrw.u32 q0, [r1]			; CHECK-NEXT: vldrw.u32 q0, [r1]
				; CHECK-NEXT: vand q2, q2, q1
				; CHECK-NEXT: vmov r1, s9
	; CHECK-NEXT: vbic q0, q0, q1			; CHECK-NEXT: vbic q0, q0, q1
	; CHECK-NEXT: vand q1, q2, q1			; CHECK-NEXT: vorr q0, q2, q0
	; CHECK-NEXT: vorr q0, q1, q0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: rsbs.w r0, r0, #-2147483648
	; CHECK-NEXT: vmov r0, s1			; CHECK-NEXT: sbcs.w r0, r2, r1
	; CHECK-NEXT: rsbs.w r1, r1, #-2147483648			; CHECK-NEXT: vmov r1, s11
	; CHECK-NEXT: sbcs.w r0, r2, r0
	; CHECK-NEXT: vmov r1, s2
	; CHECK-NEXT: mov.w r0, #0			; CHECK-NEXT: mov.w r0, #0
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt r0, #1			; CHECK-NEXT: movlt r0, #1
	; CHECK-NEXT: cmp r0, #0			; CHECK-NEXT: cmp r0, #0
	; CHECK-NEXT: csetm r0, ne			; CHECK-NEXT: csetm r0, ne
	; CHECK-NEXT: vmov.32 q1[0], r0			; CHECK-NEXT: vmov.32 q1[0], r0
	; CHECK-NEXT: vmov.32 q1[1], r0			; CHECK-NEXT: vmov.32 q1[1], r0
	; CHECK-NEXT: vmov r0, s3			; CHECK-NEXT: vmov r0, s2
	; CHECK-NEXT: rsbs.w r1, r1, #-2147483648			; CHECK-NEXT: rsbs.w r0, r0, #-2147483648
	; CHECK-NEXT: sbcs.w r0, r2, r0			; CHECK-NEXT: sbcs.w r0, r2, r1
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: movlt.w r12, #1			; CHECK-NEXT: movlt.w r12, #1
	; CHECK-NEXT: cmp.w r12, #0			; CHECK-NEXT: cmp.w r12, #0
	; CHECK-NEXT: csetm r0, ne			; CHECK-NEXT: csetm r0, ne
	; CHECK-NEXT: vmov.32 q1[2], r0			; CHECK-NEXT: vmov.32 q1[2], r0
	; CHECK-NEXT: vmov.32 q1[3], r0			; CHECK-NEXT: vmov.32 q1[3], r0
	; CHECK-NEXT: adr r0, .LCPI12_1			; CHECK-NEXT: adr r0, .LCPI12_1
	; CHECK-NEXT: vldrw.u32 q2, [r0]			; CHECK-NEXT: vldrw.u32 q2, [r0]
	▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s

	; i32			; i32

	define void @vst2_v2i32(<2 x i32> %src, <4 x i32> %dst) {			define void @vst2_v2i32(<2 x i32> %src, <4 x i32> %dst) {
	; CHECK-LABEL: vst2_v2i32:			; CHECK-LABEL: vst2_v2i32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: ldrd r2, r12, [r0]			; CHECK-NEXT: ldrd r2, r12, [r0]
	; CHECK-NEXT: ldrd r3, r0, [r0, #8]			; CHECK-NEXT: ldrd r3, r0, [r0, #8]
	; CHECK-NEXT: vmov.32 q0[0], r2			; CHECK-NEXT: vmov.32 q0[0], r2
	; CHECK-NEXT: vmov.32 q1[0], r3			; CHECK-NEXT: vmov.32 q2[0], r3
	; CHECK-NEXT: vmov.32 q0[2], r12			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov.f64 d4, d1			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov.32 q1[2], r0			; CHECK-NEXT: vmov.32 q1[2], r12
	; CHECK-NEXT: vmov.f32 s9, s3			; CHECK-NEXT: vmov.32 q3[2], r0
	; CHECK-NEXT: vmov.f32 s2, s4			; CHECK-NEXT: vmov.f32 s1, s8
	; CHECK-NEXT: vmov.f32 s3, s5			; CHECK-NEXT: vmov.f32 s7, s14
	; CHECK-NEXT: vmov.f32 s10, s6			; CHECK-NEXT: vmov.f32 s2, s6
	; CHECK-NEXT: vmov.f32 s1, s2			; CHECK-NEXT: vmov.f32 s3, s7
	; CHECK-NEXT: vmov.f32 s11, s7
	; CHECK-NEXT: vmov.f32 s2, s8
	; CHECK-NEXT: vmov.f32 s3, s10
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0			%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0
	%l1 = load <2 x i32>, <2 x i32>* %s1, align 4			%l1 = load <2 x i32>, <2 x i32>* %s1, align 4
	%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1			%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1
	%l2 = load <2 x i32>, <2 x i32>* %s2, align 4			%l2 = load <2 x i32>, <2 x i32>* %s2, align 4
	%s = shufflevector <2 x i32> %l1, <2 x i32> %l2, <4 x i32> <i32 0, i32 2, i32 1, i32 3>			%s = shufflevector <2 x i32> %l1, <2 x i32> %l2, <4 x i32> <i32 0, i32 2, i32 1, i32 3>
	▲ Show 20 Lines • Show All 409 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.32 q1[0], r0			; CHECK-NEXT: vmov.32 q1[0], r0
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmovx.f16 s0, s0			; CHECK-NEXT: vmovx.f16 s0, s0
	; CHECK-NEXT: vmov r0, s4			; CHECK-NEXT: vmov r0, s4
	; CHECK-NEXT: vmov.16 q2[0], r2			; CHECK-NEXT: vmov.16 q2[0], r2
	; CHECK-NEXT: vmov.16 q2[1], r0			; CHECK-NEXT: vmov.16 q2[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s4			; CHECK-NEXT: vmovx.f16 s0, s4
				; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmov.16 q2[2], r0			; CHECK-NEXT: vmov.16 q2[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q2[3], r0			; CHECK-NEXT: vmov.16 q2[3], r0
	; CHECK-NEXT: vmov r2, s9			; CHECK-NEXT: vmov r0, s9
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: strd r2, r0, [r1]
	; CHECK-NEXT: strd r0, r2, [r1]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0			%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0
	%l1 = load <2 x half>, <2 x half>* %s1, align 4			%l1 = load <2 x half>, <2 x half>* %s1, align 4
	%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1			%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1
	%l2 = load <2 x half>, <2 x half>* %s2, align 4			%l2 = load <2 x half>, <2 x half>* %s2, align 4
	%s = shufflevector <2 x half> %l1, <2 x half> %l2, <4 x i32> <i32 0, i32 2, i32 1, i32 3>			%s = shufflevector <2 x half> %l1, <2 x half> %l2, <4 x i32> <i32 0, i32 2, i32 1, i32 3>
	store <4 x half> %s, <4 x half> *%dst			store <4 x half> %s, <4 x half> *%dst
	ret void			ret void
	}			}

	define void @vst2_v4f16(<4 x half> %src, <8 x half> %dst) {			define void @vst2_v4f16(<4 x half> %src, <8 x half> %dst) {
	; CHECK-LABEL: vst2_v4f16:			; CHECK-LABEL: vst2_v4f16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: ldm.w r0, {r2, r3, r12}			; CHECK-NEXT: ldrd r2, r12, [r0]
	; CHECK-NEXT: vmov.32 q0[0], r12			; CHECK-NEXT: ldrd r3, r0, [r0, #8]
	; CHECK-NEXT: ldr r0, [r0, #12]
	; CHECK-NEXT: vmov.32 q2[0], r2			; CHECK-NEXT: vmov.32 q2[0], r2
	; CHECK-NEXT: vmov.32 q2[1], r3			; CHECK-NEXT: vmov.32 q1[0], r3
	; CHECK-NEXT: vmov.32 q0[1], r0
	; CHECK-NEXT: vmov r2, s8			; CHECK-NEXT: vmov r2, s8
	; CHECK-NEXT: vmovx.f16 s12, s8			; CHECK-NEXT: vmovx.f16 s12, s8
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov.16 q0[0], r2
	; CHECK-NEXT: vmov.16 q1[0], r2			; CHECK-NEXT: vmov r3, s4
	; CHECK-NEXT: vmov.16 q1[1], r0			; CHECK-NEXT: vmov.32 q2[1], r12
	; CHECK-NEXT: vmov r0, s12			; CHECK-NEXT: vmov r2, s12
	; CHECK-NEXT: vmovx.f16 s12, s0			; CHECK-NEXT: vmov.16 q0[1], r3
	; CHECK-NEXT: vmov.16 q1[2], r0			; CHECK-NEXT: vmovx.f16 s12, s4
	; CHECK-NEXT: vmov r0, s12			; CHECK-NEXT: vmov.16 q0[2], r2
				; CHECK-NEXT: vmov r2, s12
				; CHECK-NEXT: vmov.32 q1[1], r0
				; CHECK-NEXT: vmov.16 q0[3], r2
				; CHECK-NEXT: vmov r2, s9
				; CHECK-NEXT: vmov.16 q0[4], r2
				; CHECK-NEXT: vmov r0, s5
	; CHECK-NEXT: vmovx.f16 s8, s9			; CHECK-NEXT: vmovx.f16 s8, s9
	; CHECK-NEXT: vmov.16 q1[3], r0			; CHECK-NEXT: vmov.16 q0[5], r0
	; CHECK-NEXT: vmov r0, s9
	; CHECK-NEXT: vmov.16 q1[4], r0
	; CHECK-NEXT: vmov r0, s1
	; CHECK-NEXT: vmov.16 q1[5], r0
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vmovx.f16 s0, s1			; CHECK-NEXT: vmovx.f16 s4, s5
	; CHECK-NEXT: vmov.16 q1[6], r0			; CHECK-NEXT: vmov.16 q0[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s4
	; CHECK-NEXT: vmov.16 q1[7], r0			; CHECK-NEXT: vmov.16 q0[7], r0
	; CHECK-NEXT: vstrw.32 q1, [r1]			; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0			%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0
	%l1 = load <4 x half>, <4 x half>* %s1, align 4			%l1 = load <4 x half>, <4 x half>* %s1, align 4
	%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1			%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1
	%l2 = load <4 x half>, <4 x half>* %s2, align 4			%l2 = load <4 x half>, <4 x half>* %s2, align 4
	%s = shufflevector <4 x half> %l1, <4 x half> %l2, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>			%s = shufflevector <4 x half> %l1, <4 x half> %l2, <8 x i32> <i32 0, i32 4, i32 1, i32 5, i32 2, i32 6, i32 3, i32 7>
	store <8 x half> %s, <8 x half> *%dst			store <8 x half> %s, <8 x half> *%dst
	▲ Show 20 Lines • Show All 96 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst3.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s		; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s

; i32		; i32

define void @vst3_v2i32(<2 x i32> %src, <6 x i32> %dst) {		define void @vst3_v2i32(<2 x i32> %src, <6 x i32> %dst) {
; CHECK-LABEL: vst3_v2i32:		; CHECK-LABEL: vst3_v2i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}		; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}
; CHECK-NEXT: ldrd r4, r0, [r0, #16]		; CHECK-NEXT: ldrd r4, r0, [r0, #16]
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: vmov.32 q1[0], r2
; CHECK-NEXT: vmov.32 q1[1], r3		; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov.32 q0[0], r4		; CHECK-NEXT: vmov.32 q0[0], r4
; CHECK-NEXT: vmov.32 q1[2], r12		; CHECK-NEXT: vmov.32 q2[1], r3
; CHECK-NEXT: vmov.32 q0[1], r0		; CHECK-NEXT: vmov q4, q0
; CHECK-NEXT: vmov.32 q1[3], lr		; CHECK-NEXT: vmov q3, q2
; CHECK-NEXT: vmov.f32 s8, s7		; CHECK-NEXT: vmov.32 q4[1], r0
; CHECK-NEXT: vmov.f32 s10, s1		; CHECK-NEXT: vmov.32 q3[2], r12
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov q5, q3
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: vmov.f32 s5, s14
; CHECK-NEXT: vmov.f64 d4, d2		; CHECK-NEXT: vmov.32 q5[3], lr
; CHECK-NEXT: vmov.f32 s9, s6		; CHECK-NEXT: vmov.f32 s6, s0
; CHECK-NEXT: vmov.f32 s10, s0		; CHECK-NEXT: vmov.f32 s16, s23
; CHECK-NEXT: vmov.f32 s11, s5		; CHECK-NEXT: vmov.f32 s18, s17
		; CHECK-NEXT: vmov r2, s16
		; CHECK-NEXT: vmov.f32 s7, s9
		; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: strd r2, r0, [r1, #16]		; CHECK-NEXT: strd r2, r0, [r1, #16]
; CHECK-NEXT: vstrw.32 q2, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0		%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0
%l1 = load <2 x i32>, <2 x i32>* %s1, align 4		%l1 = load <2 x i32>, <2 x i32>* %s1, align 4
%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1		%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1
%l2 = load <2 x i32>, <2 x i32>* %s2, align 4		%l2 = load <2 x i32>, <2 x i32>* %s2, align 4
%s3 = getelementptr <2 x i32>, <2 x i32>* %src, i32 2		%s3 = getelementptr <2 x i32>, <2 x i32>* %src, i32 2
%l3 = load <2 x i32>, <2 x i32>* %s3, align 4		%l3 = load <2 x i32>, <2 x i32>* %s3, align 4
▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines

; i16		; i16

define void @vst3_v2i16(<2 x i16> %src, <6 x i16> %dst) {		define void @vst3_v2i16(<2 x i16> %src, <6 x i16> %dst) {
; CHECK-LABEL: vst3_v2i16:		; CHECK-LABEL: vst3_v2i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: ldrh r2, [r0, #6]		; CHECK-NEXT: ldrh r4, [r0, #6]
; CHECK-NEXT: ldrh r3, [r0, #4]		; CHECK-NEXT: ldrh.w lr, [r0, #4]
; CHECK-NEXT: ldrh.w r12, [r0, #8]		; CHECK-NEXT: ldrh.w r12, [r0, #8]
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov.16 q0[4], r4
; CHECK-NEXT: ldrh.w lr, [r0, #2]		; CHECK-NEXT: ldrh r2, [r0, #2]
; CHECK-NEXT: vmov.32 q1[0], r3		; CHECK-NEXT: vmov.32 q2[0], lr
; CHECK-NEXT: ldrh r4, [r0]		; CHECK-NEXT: ldrh r3, [r0]
; CHECK-NEXT: vmov.32 q1[2], r2
; CHECK-NEXT: ldrh r0, [r0, #10]		; CHECK-NEXT: ldrh r0, [r0, #10]
; CHECK-NEXT: vmov.16 q0[5], r0		; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov.32 q0[0], r4		; CHECK-NEXT: vmov.32 q0[0], r3
; CHECK-NEXT: vmov.32 q0[2], lr		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.f32 s1, s4		; CHECK-NEXT: vmov.f32 s1, s8
		; CHECK-NEXT: vmov.32 q1[2], r2
		; CHECK-NEXT: vmov.f32 s3, s6
; CHECK-NEXT: vdup.32 q1, r12		; CHECK-NEXT: vdup.32 q1, r12
; CHECK-NEXT: vmov.f32 s3, s2
; CHECK-NEXT: vmov.f32 s2, s6		; CHECK-NEXT: vmov.f32 s2, s6
; CHECK-NEXT: vstrh.32 q0, [r1]		; CHECK-NEXT: vstrh.32 q0, [r1]
; CHECK-NEXT: str r0, [r1, #8]		; CHECK-NEXT: str r0, [r1, #8]
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0		%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0
%l1 = load <2 x i16>, <2 x i16>* %s1, align 4		%l1 = load <2 x i16>, <2 x i16>* %s1, align 4
%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1		%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

define void @vst3_v8i16(<8 x i16> %src, <24 x i16> %dst) {		define void @vst3_v8i16(<8 x i16> %src, <24 x i16> %dst) {
; CHECK-LABEL: vst3_v8i16:		; CHECK-LABEL: vst3_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: .pad #32
		; CHECK-NEXT: sub sp, #32
		; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vldrw.u32 q4, [r0, #16]		; CHECK-NEXT: vldrw.u32 q5, [r0, #16]
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.16 q0[0], r2		; CHECK-NEXT: vmov q1, q0
		; CHECK-NEXT: vmov.16 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q1[4]		; CHECK-NEXT: vmov.u16 r2, q0[4]
		; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
		; CHECK-NEXT: vmov q0, q3
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov.16 q0[6], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmov.16 q0[7], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.16 q3[0], r2		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r0, q4[0]		; CHECK-NEXT: vmov.u16 r0, q5[0]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q4[1]		; CHECK-NEXT: vmov.u16 r0, q5[1]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov q6, q4
		; CHECK-NEXT: vmov.f32 s17, s8
		; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov.u16 r0, q2[2]		; CHECK-NEXT: vmov.u16 r0, q2[2]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmov.u16 r0, q4[2]
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s4
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q7[6], r0
; CHECK-NEXT: vdup.32 q5, r2		; CHECK-NEXT: vmov.u16 r0, q5[2]
; CHECK-NEXT: vmov.f32 s13, s8		; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vmov.u16 r2, q5[2]		; CHECK-NEXT: vmov.16 q7[7], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]
; CHECK-NEXT: vmov.16 q6[2], r2
; CHECK-NEXT: vmov r2, s11
; CHECK-NEXT: vmov.16 q6[3], r0
; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov.u16 r0, q5[5]
; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov.u16 r0, q4[5]
; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.u16 r0, q4[6]
; CHECK-NEXT: vmov.16 q5[3], r0
; CHECK-NEXT: vmov.u16 r0, q4[7]
; CHECK-NEXT: vmov.f32 s13, s25
; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.f32 s14, s26
; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vdup.32 q6, r2		; CHECK-NEXT: vdup.32 q6, r2
; CHECK-NEXT: vmov.f32 s1, s5		; CHECK-NEXT: vmov.f32 s19, s31
; CHECK-NEXT: vmov.u16 r2, q6[2]		; CHECK-NEXT: vmov.u16 r2, q6[2]
; CHECK-NEXT: vmov.f32 s22, s7		; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vrev32.16 q4, q4		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov.16 q7[2], r2		; CHECK-NEXT: vmov.u16 r0, q4[3]
; CHECK-NEXT: vmov.u16 r0, q5[3]		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.u16 r2, q4[2]		; CHECK-NEXT: vmov.u16 r0, q4[4]
; CHECK-NEXT: vmov.f32 s2, s10		; CHECK-NEXT: vmov q7, q0
; CHECK-NEXT: vmov.16 q7[3], r0		; CHECK-NEXT: vmov.f32 s17, s1
; CHECK-NEXT: vmov.u16 r0, q5[4]
; CHECK-NEXT: vstrw.32 q3, [r1]
; CHECK-NEXT: vmov.16 q3[2], r2
; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmov.16 q7[4], r0		; CHECK-NEXT: vmov.16 q7[4], r0
; CHECK-NEXT: vmov.u16 r0, q6[5]		; CHECK-NEXT: vmov.u16 r0, q6[5]
; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov.u16 r2, q0[4]
; CHECK-NEXT: vmov.16 q7[5], r0		; CHECK-NEXT: vmov.16 q7[5], r0
; CHECK-NEXT: vmov.u16 r0, q4[5]		; CHECK-NEXT: vmov.u16 r0, q5[5]
; CHECK-NEXT: vmov.16 q3[4], r2		; CHECK-NEXT: vmov.16 q6[0], r0
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.f32 s21, s29		; CHECK-NEXT: vmov.16 q6[1], r0
; CHECK-NEXT: vmov.f32 s1, s13		; CHECK-NEXT: vmov.u16 r0, q5[6]
; CHECK-NEXT: vmov.f32 s22, s30		; CHECK-NEXT: vmov q0, q6
; CHECK-NEXT: vmov.f32 s2, s14		; CHECK-NEXT: vmov.f32 s18, s30
; CHECK-NEXT: vstrw.32 q5, [r1, #32]		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vstrw.32 q0, [r1, #16]		; CHECK-NEXT: vmov.u16 r0, q5[7]
		; CHECK-NEXT: vmov q7, q0
		; CHECK-NEXT: vmov.f32 s25, s1
		; CHECK-NEXT: vmov.16 q7[6], r0
		; CHECK-NEXT: vmov.u16 r0, q1[7]
		; CHECK-NEXT: vmov r2, s11
		; CHECK-NEXT: vmov.16 q7[7], r0
		; CHECK-NEXT: vmov.f32 s26, s7
		; CHECK-NEXT: vdup.32 q1, r2
		; CHECK-NEXT: vmov.f32 s27, s31
		; CHECK-NEXT: vmov.u16 r2, q1[2]
		; CHECK-NEXT: vmov.u16 r0, q6[3]
		; CHECK-NEXT: vmov.16 q0[2], r2
		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vmov.u16 r0, q6[4]
		; CHECK-NEXT: vmov q7, q0
		; CHECK-NEXT: vmov.f32 s25, s1
		; CHECK-NEXT: vmov.16 q7[4], r0
		; CHECK-NEXT: vmov.u16 r0, q1[5]
		; CHECK-NEXT: vrev32.16 q0, q5
		; CHECK-NEXT: vmov.16 q7[5], r0
		; CHECK-NEXT: vmov.u16 r0, q0[5]
		; CHECK-NEXT: vmov.u16 r2, q0[2]
		; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
		; CHECK-NEXT: vstrw.32 q4, [r1]
		; CHECK-NEXT: vmov.16 q4[2], r2
		; CHECK-NEXT: vmov.f32 s26, s30
		; CHECK-NEXT: vmov.f32 s13, s1
		; CHECK-NEXT: vldrw.u32 q0, [sp, #16] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s14, s10
		; CHECK-NEXT: vstrw.32 q6, [r1, #32]
		; CHECK-NEXT: vmov.f32 s15, s3
		; CHECK-NEXT: vmov.u16 r2, q3[3]
		; CHECK-NEXT: vmov.16 q4[3], r2
		; CHECK-NEXT: vmov.u16 r2, q3[4]
		; CHECK-NEXT: vmov q0, q4
		; CHECK-NEXT: vmov.f32 s13, s17
		; CHECK-NEXT: vmov.16 q0[4], r2
		; CHECK-NEXT: vmov.16 q0[5], r0
		; CHECK-NEXT: vmov.f32 s14, s2
		; CHECK-NEXT: vstrw.32 q3, [r1, #16]
		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0		%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0
%l1 = load <8 x i16>, <8 x i16>* %s1, align 4		%l1 = load <8 x i16>, <8 x i16>* %s1, align 4
%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1		%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1
%l2 = load <8 x i16>, <8 x i16>* %s2, align 4		%l2 = load <8 x i16>, <8 x i16>* %s2, align 4
%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2		%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2
%l3 = load <8 x i16>, <8 x i16>* %s3, align 4		%l3 = load <8 x i16>, <8 x i16>* %s3, align 4
%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x i16> %s, <24 x i16> *%dst		store <24 x i16> %s, <24 x i16> *%dst
ret void		ret void
}		}

define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {		define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {
; CHECK-LABEL: vst3_v16i16:		; CHECK-LABEL: vst3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #160		; CHECK-NEXT: .pad #240
; CHECK-NEXT: sub sp, #160		; CHECK-NEXT: sub sp, #240
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vldrw.u32 q1, [r0, #48]		; CHECK-NEXT: vldrw.u32 q2, [r0, #48]
; CHECK-NEXT: vmov.u16 r2, q0[0]		; CHECK-NEXT: vldrw.u32 q7, [r0, #64]
; CHECK-NEXT: vstrw.32 q0, [sp, #128] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q2[0], r2
; CHECK-NEXT: vmov.u16 r2, q1[0]		; CHECK-NEXT: vmov.u16 r2, q1[0]
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: vmov q3, q1
; CHECK-NEXT: vmov.u16 r2, q1[1]		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.16 q2[4], r2		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.16 q2[6], r2		; CHECK-NEXT: vmov.u16 r2, q2[1]
		; CHECK-NEXT: vmov q0, q4
		; CHECK-NEXT: vmov.f32 s17, s12
		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vmov.u16 r2, q1[2]		; CHECK-NEXT: vmov.u16 r2, q1[2]
; CHECK-NEXT: vmov.16 q2[7], r2		; CHECK-NEXT: vstrw.32 q1, [sp, #208] @ 16-byte Spill
; CHECK-NEXT: vmov q7, q1		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.f32 s9, s0		; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vldrw.u32 q0, [r0, #80]		; CHECK-NEXT: vldrw.u32 q0, [r0, #80]
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.16 q1[6], r2
; CHECK-NEXT: vmov q3, q2		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov q1, q0		; CHECK-NEXT: vmov.16 q1[7], r2
		; CHECK-NEXT: vstrw.32 q0, [sp, #224] @ 16-byte Spill
; CHECK-NEXT: vdup.32 q0, r3		; CHECK-NEXT: vdup.32 q0, r3
; CHECK-NEXT: vstrw.32 q2, [sp, #96] @ 16-byte Spill		; CHECK-NEXT: vmov.f32 s19, s7
; CHECK-NEXT: vmov.u16 r3, q0[2]		; CHECK-NEXT: vmov.u16 r3, q0[2]
; CHECK-NEXT: vstrw.32 q7, [sp, #32] @ 16-byte Spill		; CHECK-NEXT: vmov.u16 r2, q4[3]
; CHECK-NEXT: vmov.16 q2[2], r3		; CHECK-NEXT: vmov.16 q1[2], r3
; CHECK-NEXT: vmov.16 q2[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[4]		; CHECK-NEXT: vmov.u16 r2, q4[4]
; CHECK-NEXT: vldrw.u32 q3, [r0, #32]		; CHECK-NEXT: vldrw.u32 q3, [r0, #32]
; CHECK-NEXT: vmov.16 q2[4], r2		; CHECK-NEXT: vstrw.32 q1, [sp, #160] @ 16-byte Spill
		; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vmov.u16 r2, q0[5]		; CHECK-NEXT: vmov.u16 r2, q0[5]
; CHECK-NEXT: vldrw.u32 q0, [r0, #64]		; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vmov.16 q2[5], r2
; CHECK-NEXT: vmov.u16 r2, q3[5]		; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vmov.16 q5[0], r2		; CHECK-NEXT: vmov.16 q6[0], r2
; CHECK-NEXT: vmov.u16 r2, q0[5]		; CHECK-NEXT: vmov.u16 r2, q7[5]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov.16 q6[1], r2
; CHECK-NEXT: vmov.u16 r2, q3[6]		; CHECK-NEXT: vmov.u16 r2, q3[6]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov q0, q6
		; CHECK-NEXT: vstrw.32 q1, [sp, #144] @ 16-byte Spill
		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[7]		; CHECK-NEXT: vmov.u16 r2, q3[7]
; CHECK-NEXT: vmov.16 q5[6], r2		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.f32 s25, s1
; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vstrw.32 q0, [sp, #144] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s22, s3
; CHECK-NEXT: vldrw.u32 q0, [r0]		; CHECK-NEXT: vldrw.u32 q0, [r0]
; CHECK-NEXT: vstrw.32 q2, [sp, #112] @ 16-byte Spill		; CHECK-NEXT: vmov.16 q1[6], r2
; CHECK-NEXT: vmov.u16 r2, q5[3]		; CHECK-NEXT: vmov.u16 r2, q7[7]
		; CHECK-NEXT: vstrw.32 q4, [sp, #96] @ 16-byte Spill
; CHECK-NEXT: vmov r0, s3		; CHECK-NEXT: vmov r0, s3
; CHECK-NEXT: vmov q2, q0		; CHECK-NEXT: vmov.16 q1[7], r2
		; CHECK-NEXT: vmov.f32 s26, s31
		; CHECK-NEXT: vmov q4, q0
		; CHECK-NEXT: vstrw.32 q0, [sp, #176] @ 16-byte Spill
; CHECK-NEXT: vdup.32 q0, r0		; CHECK-NEXT: vdup.32 q0, r0
; CHECK-NEXT: vstrw.32 q2, [sp, #48] @ 16-byte Spill		; CHECK-NEXT: vmov.f32 s27, s7
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov.16 q4[2], r0		; CHECK-NEXT: vmov.16 q1[2], r0
; CHECK-NEXT: vmov.u16 r0, q5[4]		; CHECK-NEXT: vmov.u16 r2, q6[3]
; CHECK-NEXT: vmov.16 q4[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
; CHECK-NEXT: vmov.16 q4[4], r0		; CHECK-NEXT: vmov.u16 r2, q6[4]
		; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.16 q4[5], r0		; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vmov.u16 r0, q2[0]		; CHECK-NEXT: vstrw.32 q2, [sp, #192] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q6[0], r0		; CHECK-NEXT: vmov.16 q1[5], r0
		; CHECK-NEXT: vmov.u16 r0, q4[0]
		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
; CHECK-NEXT: vldrw.u32 q0, [sp, #144] @ 16-byte Reload		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.16 q6[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[1]		; CHECK-NEXT: vmov.u16 r0, q3[1]
; CHECK-NEXT: vstrw.32 q4, [sp, #80] @ 16-byte Spill		; CHECK-NEXT: vmov q0, q5
; CHECK-NEXT: vmov.16 q6[4], r0		; CHECK-NEXT: vstrw.32 q1, [sp, #112] @ 16-byte Spill
; CHECK-NEXT: vmov.u16 r0, q2[2]		; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov q1, q7
; CHECK-NEXT: vmov.16 q6[6], r0		; CHECK-NEXT: vmov.u16 r0, q4[2]
		; CHECK-NEXT: vmov q2, q0
		; CHECK-NEXT: vmov.f32 s21, s16
		; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov.u16 r0, q3[2]		; CHECK-NEXT: vmov.u16 r0, q3[2]
		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.f32 s22, s2
		; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vdup.32 q0, r2		; CHECK-NEXT: vdup.32 q0, r2
; CHECK-NEXT: vmov.16 q6[7], r0		; CHECK-NEXT: vmov.f32 s23, s11
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.f32 s25, s8		; CHECK-NEXT: vmov.u16 r0, q5[3]
; CHECK-NEXT: vmov.16 q2[2], r2		; CHECK-NEXT: vmov.16 q2[2], r2
; CHECK-NEXT: vmov.u16 r0, q6[3]		; CHECK-NEXT: vmov.u16 r2, q5[4]
; CHECK-NEXT: vmov q4, q1
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov.u16 r0, q6[4]		; CHECK-NEXT: vldrw.u32 q4, [sp, #192] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vstrw.32 q2, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
		; CHECK-NEXT: vmov.16 q2[4], r2
		; CHECK-NEXT: vldrw.u32 q7, [sp, #224] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov.16 q2[5], r0
; CHECK-NEXT: vmov.u16 r0, q7[5]		; CHECK-NEXT: vmov.u16 r0, q4[5]
; CHECK-NEXT: vmov.16 q0[0], r0		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q7[5]
; CHECK-NEXT: vmov.16 q0[1], r0		; CHECK-NEXT: vmov.16 q0[1], r0
; CHECK-NEXT: vmov.u16 r0, q7[6]
; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.u16 r0, q7[7]
; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vmov.f32 s2, s19
; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vmov r2, s7		; CHECK-NEXT: vmov.u16 r0, q4[6]
		; CHECK-NEXT: vmov q2, q0
		; CHECK-NEXT: vmov.16 q2[3], r0
		; CHECK-NEXT: vmov.u16 r0, q4[7]
		; CHECK-NEXT: vmov q4, q2
		; CHECK-NEXT: vmov.f32 s1, s9
		; CHECK-NEXT: vmov.16 q4[6], r0
		; CHECK-NEXT: vmov.u16 r0, q7[7]
		; CHECK-NEXT: vmov.f32 s2, s31
		; CHECK-NEXT: vldrw.u32 q7, [sp, #208] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q4[7], r0
		; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill
		; CHECK-NEXT: vmov r2, s31
		; CHECK-NEXT: vdup.32 q2, r2
		; CHECK-NEXT: vmov.f32 s3, s19
		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.u16 r0, q0[3]		; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vdup.32 q7, r2		; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vrev32.16 q3, q3		; CHECK-NEXT: vmov.u16 r2, q0[4]
; CHECK-NEXT: vmov.u16 r2, q7[2]		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vstrw.32 q3, [sp] @ 16-byte Spill		; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.16 q2[2], r2		; CHECK-NEXT: vldrw.u32 q2, [sp, #192] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q4, [sp, #16] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q4, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q4[4], r2
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vrev32.16 q2, q2
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q7[5]		; CHECK-NEXT: vstrw.32 q2, [sp, #192] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vrev32.16 q2, q3
; CHECK-NEXT: vmov.u16 r0, q4[2]		; CHECK-NEXT: vstrw.32 q2, [sp, #32] @ 16-byte Spill
		; CHECK-NEXT: vldrw.u32 q2, [sp, #224] @ 16-byte Reload
		; CHECK-NEXT: vmov.u16 r0, q2[2]
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[3]		; CHECK-NEXT: vmov.u16 r0, q7[3]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u16 r0, q4[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vldrw.u32 q7, [sp, #32] @ 16-byte Reload		; CHECK-NEXT: vmov q2, q3
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q7[5]
; CHECK-NEXT: vldrw.u32 q1, [sp, #144] @ 16-byte Reload		; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vldrw.u32 q4, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vrev32.16 q7, q7
; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmov.u16 r0, q1[2]		; CHECK-NEXT: vmov.u16 r0, q1[2]
; CHECK-NEXT: vstrw.32 q7, [sp, #32] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q2, [sp, #48] @ 16-byte Spill
		; CHECK-NEXT: vmov q2, q1
		; CHECK-NEXT: vldrw.u32 q1, [sp, #176] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q7[0], r0		; CHECK-NEXT: vmov.16 q7[0], r0
; CHECK-NEXT: vmov.u16 r0, q4[3]		; CHECK-NEXT: vmov.u16 r0, q1[3]
; CHECK-NEXT: vmov.f32 s1, s9
; CHECK-NEXT: vmov.16 q7[1], r0		; CHECK-NEXT: vmov.16 q7[1], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vldrw.u32 q1, [sp, #64] @ 16-byte Reload		; CHECK-NEXT: vmov q2, q7
; CHECK-NEXT: vmov.f32 s2, s10		; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vldrw.u32 q2, [sp, #96] @ 16-byte Reload		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.16 q7[6], r0		; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s25, s5		; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vmov.u16 r0, q4[5]		; CHECK-NEXT: vmov.f32 s1, s5
; CHECK-NEXT: vmov.f32 s26, s6
; CHECK-NEXT: vldrw.u32 q1, [sp, #80] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q1, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q0, [r1, #80]		; CHECK-NEXT: vmov.f32 s2, s18
; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q4, [sp, #128] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s21, s5		; CHECK-NEXT: vmov.f32 s21, s5
; CHECK-NEXT: vmov.16 q7[7], r0		; CHECK-NEXT: vldrw.u32 q1, [sp, #64] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s25, s17
		; CHECK-NEXT: vldrw.u32 q4, [sp, #112] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s22, s6		; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vldrw.u32 q1, [sp, #112] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q1, [sp, #96] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s26, s18
		; CHECK-NEXT: vldrw.u32 q4, [sp, #160] @ 16-byte Reload
		; CHECK-NEXT: vstrw.32 q0, [r1, #80]
		; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s5, s17
		; CHECK-NEXT: vldrw.u32 q4, [sp, #144] @ 16-byte Reload
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.f32 s9, s5		; CHECK-NEXT: vmov.f32 s6, s18
; CHECK-NEXT: vmov.16 q0[2], r2		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov.f32 s10, s6		; CHECK-NEXT: vstrw.32 q1, [r1, #48]
; CHECK-NEXT: vldrw.u32 q1, [sp, #144] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q5, [r1, #32]		; CHECK-NEXT: vstrw.32 q6, [r1, #32]
; CHECK-NEXT: vstrw.32 q2, [r1, #48]		; CHECK-NEXT: vstrw.32 q5, [r1]
; CHECK-NEXT: vmov.f32 s29, s5		; CHECK-NEXT: vmov.f32 s29, s5
; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q1, [sp, #176] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s30, s18		; CHECK-NEXT: vmov.f32 s30, s6
; CHECK-NEXT: vstrw.32 q6, [r1]		; CHECK-NEXT: vmov.f32 s31, s11
; CHECK-NEXT: vmov.u16 r2, q7[3]		; CHECK-NEXT: vmov.u16 r2, q7[3]
; CHECK-NEXT: vmov.f32 s13, s5
; CHECK-NEXT: vmov.16 q0[3], r2		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.u16 r2, q7[4]		; CHECK-NEXT: vmov.u16 r2, q7[4]
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vmov.f32 s29, s1		; CHECK-NEXT: vmov.f32 s29, s1
; CHECK-NEXT: vmov.f32 s30, s2		; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q0, [sp, #192] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s14, s6		; CHECK-NEXT: vmov.16 q1[5], r0
; CHECK-NEXT: vstrw.32 q7, [r1, #16]		; CHECK-NEXT: vmov.f32 s30, s6
		; CHECK-NEXT: vldrw.u32 q1, [sp, #224] @ 16-byte Reload
; CHECK-NEXT: vmov.u16 r2, q0[2]		; CHECK-NEXT: vmov.u16 r2, q0[2]
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
		; CHECK-NEXT: vmov.f32 s13, s5
		; CHECK-NEXT: vldrw.u32 q1, [sp, #208] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q0[2], r2		; CHECK-NEXT: vmov.16 q0[2], r2
		; CHECK-NEXT: vstrw.32 q7, [r1, #16]
		; CHECK-NEXT: vmov.f32 s14, s6
		; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s15, s7
; CHECK-NEXT: vmov.u16 r2, q3[3]		; CHECK-NEXT: vmov.u16 r2, q3[3]
; CHECK-NEXT: vmov.16 q0[3], r2		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[4]		; CHECK-NEXT: vmov.u16 r2, q3[4]
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vmov.f32 s13, s1		; CHECK-NEXT: vmov.f32 s13, s1
; CHECK-NEXT: vmov.f32 s14, s2		; CHECK-NEXT: vmov.16 q1[4], r2
		; CHECK-NEXT: vmov.16 q1[5], r0
		; CHECK-NEXT: vmov.f32 s14, s6
; CHECK-NEXT: vstrw.32 q3, [r1, #64]		; CHECK-NEXT: vstrw.32 q3, [r1, #64]
; CHECK-NEXT: add sp, #160		; CHECK-NEXT: add sp, #240
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0		%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0
%l1 = load <16 x i16>, <16 x i16>* %s1, align 4		%l1 = load <16 x i16>, <16 x i16>* %s1, align 4
%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1		%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1
%l2 = load <16 x i16>, <16 x i16>* %s2, align 4		%l2 = load <16 x i16>, <16 x i16>* %s2, align 4
%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2		%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2
%l3 = load <16 x i16>, <16 x i16>* %s3, align 4		%l3 = load <16 x i16>, <16 x i16>* %s3, align 4
%t1 = shufflevector <16 x i16> %l1, <16 x i16> %l2, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>		%t1 = shufflevector <16 x i16> %l1, <16 x i16> %l2, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
%t2 = shufflevector <16 x i16> %l3, <16 x i16> undef, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <16 x i16> %l3, <16 x i16> undef, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <32 x i16> %t1, <32 x i16> %t2, <48 x i32> <i32 0, i32 16, i32 32, i32 1, i32 17, i32 33, i32 2, i32 18, i32 34, i32 3, i32 19, i32 35, i32 4, i32 20, i32 36, i32 5, i32 21, i32 37, i32 6, i32 22, i32 38, i32 7, i32 23, i32 39, i32 8, i32 24, i32 40, i32 9, i32 25, i32 41, i32 10, i32 26, i32 42, i32 11, i32 27, i32 43, i32 12, i32 28, i32 44, i32 13, i32 29, i32 45, i32 14, i32 30, i32 46, i32 15, i32 31, i32 47>		%s = shufflevector <32 x i16> %t1, <32 x i16> %t2, <48 x i32> <i32 0, i32 16, i32 32, i32 1, i32 17, i32 33, i32 2, i32 18, i32 34, i32 3, i32 19, i32 35, i32 4, i32 20, i32 36, i32 5, i32 21, i32 37, i32 6, i32 22, i32 38, i32 7, i32 23, i32 39, i32 8, i32 24, i32 40, i32 9, i32 25, i32 41, i32 10, i32 26, i32 42, i32 11, i32 27, i32 43, i32 12, i32 28, i32 44, i32 13, i32 29, i32 45, i32 14, i32 30, i32 46, i32 15, i32 31, i32 47>
store <48 x i16> %s, <48 x i16> *%dst		store <48 x i16> %s, <48 x i16> *%dst
ret void		ret void
}		}

; i8		; i8

define void @vst3_v2i8(<2 x i8> %src, <6 x i8> %dst) {		define void @vst3_v2i8(<2 x i8> %src, <6 x i8> %dst) {
; CHECK-LABEL: vst3_v2i8:		; CHECK-LABEL: vst3_v2i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, lr}		; CHECK-NEXT: .save {r4, r5, r6, r7, lr}
; CHECK-NEXT: push {r4, r5, r6, lr}		; CHECK-NEXT: push {r4, r5, r6, r7, lr}
; CHECK-NEXT: .pad #16		; CHECK-NEXT: .pad #20
; CHECK-NEXT: sub sp, #16		; CHECK-NEXT: sub sp, #20
; CHECK-NEXT: ldrb r2, [r0]		; CHECK-NEXT: ldrb r3, [r0]
; CHECK-NEXT: movs r6, #0		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: ldrb r3, [r0, #1]		; CHECK-NEXT: ldrb r4, [r0, #2]
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: mov r7, sp
; CHECK-NEXT: ldrb.w r12, [r0, #2]		; CHECK-NEXT: vmov.16 q0[0], r3
; CHECK-NEXT: vmov.32 q0[2], r3		; CHECK-NEXT: ldrb r2, [r0, #1]
; CHECK-NEXT: ldrb.w lr, [r0, #3]		; CHECK-NEXT: ldrb r5, [r0, #3]
; CHECK-NEXT: vmov r4, s0		; CHECK-NEXT: vmov.16 q0[1], r4
; CHECK-NEXT: ldrb r5, [r0, #5]		; CHECK-NEXT: ldrb r6, [r0, #5]
; CHECK-NEXT: vmov.16 q0[0], r4
; CHECK-NEXT: ldrb r0, [r0, #4]		; CHECK-NEXT: ldrb r0, [r0, #4]
; CHECK-NEXT: vmov.16 q0[1], r12
; CHECK-NEXT: mov r2, sp
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: add r0, sp, #8		; CHECK-NEXT: add r0, sp, #8
; CHECK-NEXT: vmov.16 q0[3], r3		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.16 q0[4], lr		; CHECK-NEXT: vmov.16 q0[4], r5
; CHECK-NEXT: vmov.16 q0[5], r5		; CHECK-NEXT: vmov.16 q0[5], r6
; CHECK-NEXT: vmov.16 q0[6], r6		; CHECK-NEXT: vmov.16 q0[6], r12
; CHECK-NEXT: vmov.16 q0[7], r6		; CHECK-NEXT: vmov.16 q0[7], r12
; CHECK-NEXT: vstrb.16 q0, [r2]		; CHECK-NEXT: vstrb.16 q0, [r7]
; CHECK-NEXT: vstrb.16 q0, [r0]		; CHECK-NEXT: vstrb.16 q0, [r0]
; CHECK-NEXT: vldrh.u32 q0, [r0]		; CHECK-NEXT: vldrh.u32 q0, [r0]
; CHECK-NEXT: ldr r2, [sp]		; CHECK-NEXT: ldr r2, [sp]
; CHECK-NEXT: str r2, [r1]		; CHECK-NEXT: str r2, [r1]
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: strh r0, [r1, #4]		; CHECK-NEXT: strh r0, [r1, #4]
; CHECK-NEXT: add sp, #16		; CHECK-NEXT: add sp, #20
; CHECK-NEXT: pop {r4, r5, r6, pc}		; CHECK-NEXT: pop {r4, r5, r6, r7, pc}
entry:		entry:
%s1 = getelementptr <2 x i8>, <2 x i8>* %src, i32 0		%s1 = getelementptr <2 x i8>, <2 x i8>* %src, i32 0
%l1 = load <2 x i8>, <2 x i8>* %s1, align 4		%l1 = load <2 x i8>, <2 x i8>* %s1, align 4
%s2 = getelementptr <2 x i8>, <2 x i8>* %src, i32 1		%s2 = getelementptr <2 x i8>, <2 x i8>* %src, i32 1
%l2 = load <2 x i8>, <2 x i8>* %s2, align 4		%l2 = load <2 x i8>, <2 x i8>* %s2, align 4
%s3 = getelementptr <2 x i8>, <2 x i8>* %src, i32 2		%s3 = getelementptr <2 x i8>, <2 x i8>* %src, i32 2
%l3 = load <2 x i8>, <2 x i8>* %s3, align 4		%l3 = load <2 x i8>, <2 x i8>* %s3, align 4
%t1 = shufflevector <2 x i8> %l1, <2 x i8> %l2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%t1 = shufflevector <2 x i8> %l1, <2 x i8> %l2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <8 x i8> %t1, <8 x i8> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%s = shufflevector <8 x i8> %t1, <8 x i8> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x i8> %s, <12 x i8> *%dst		store <12 x i8> %s, <12 x i8> *%dst
ret void		ret void
}		}

define void @vst3_v8i8(<8 x i8> %src, <24 x i8> %dst) {		define void @vst3_v8i8(<8 x i8> %src, <24 x i8> %dst) {
; CHECK-LABEL: vst3_v8i8:		; CHECK-LABEL: vst3_v8i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vldrb.u16 q1, [r0, #8]		; CHECK-NEXT: vldrb.u16 q1, [r0, #8]
; CHECK-NEXT: vldrb.u16 q2, [r0, #16]		; CHECK-NEXT: vldrb.u16 q2, [r0, #16]
; CHECK-NEXT: vldrb.u16 q3, [r0]
; CHECK-NEXT: vmov.u16 r2, q1[5]		; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q0[0], r2		; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.u16 r2, q1[6]		; CHECK-NEXT: vmov.u16 r2, q1[6]
; CHECK-NEXT: vmov.16 q0[3], r2		; CHECK-NEXT: vmov q3, q0
		; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov.u16 r2, q1[7]		; CHECK-NEXT: vmov.u16 r2, q1[7]
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov q4, q3
		; CHECK-NEXT: vmov.f32 s1, s13
		; CHECK-NEXT: vldrb.u16 q3, [r0]
		; CHECK-NEXT: vmov.16 q4[6], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vmov.u16 r2, q2[7]
		; CHECK-NEXT: vmov.f32 s2, s11
		; CHECK-NEXT: vmov.16 q4[7], r2
; CHECK-NEXT: vmov r0, s15		; CHECK-NEXT: vmov r0, s15
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmov.f32 s3, s19
; CHECK-NEXT: vdup.32 q4, r0		; CHECK-NEXT: vdup.32 q4, r0
; CHECK-NEXT: vmov.f32 s2, s11
; CHECK-NEXT: vmov.u16 r0, q4[2]		; CHECK-NEXT: vmov.u16 r0, q4[2]
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmov.16 q5[2], r0		; CHECK-NEXT: vmov.16 q5[2], r0
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vmov.u16 r0, q0[4]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[3], r2
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov q6, q5
		; CHECK-NEXT: vmov.f32 s1, s21
		; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov.u16 r0, q4[5]		; CHECK-NEXT: vmov.u16 r0, q4[5]
; CHECK-NEXT: vmov.16 q5[5], r0		; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q1[0]		; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q2[0]		; CHECK-NEXT: vmov.u16 r0, q2[0]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q3[1]		; CHECK-NEXT: vmov.u16 r0, q3[1]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
Show All 13 Lines
; CHECK-NEXT: vmov.8 q4[10], r0		; CHECK-NEXT: vmov.8 q4[10], r0
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
; CHECK-NEXT: vmov.8 q4[11], r0		; CHECK-NEXT: vmov.8 q4[11], r0
; CHECK-NEXT: vmov.u16 r0, q3[4]		; CHECK-NEXT: vmov.u16 r0, q3[4]
; CHECK-NEXT: vmov.8 q4[12], r0		; CHECK-NEXT: vmov.8 q4[12], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.8 q4[13], r0		; CHECK-NEXT: vmov.8 q4[13], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.f32 s1, s21
; CHECK-NEXT: vmov.8 q4[14], r0		; CHECK-NEXT: vmov.8 q4[14], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.f32 s2, s22		; CHECK-NEXT: vmov.f32 s2, s26
; CHECK-NEXT: vmov.8 q4[15], r0		; CHECK-NEXT: vmov.8 q4[15], r0
; CHECK-NEXT: vstrb.16 q0, [r1, #16]		; CHECK-NEXT: vstrb.16 q0, [r1, #16]
; CHECK-NEXT: vstrw.32 q4, [r1]		; CHECK-NEXT: vstrw.32 q4, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x i8>, <8 x i8>* %src, i32 0		%s1 = getelementptr <8 x i8>, <8 x i8>* %src, i32 0
%l1 = load <8 x i8>, <8 x i8>* %s1, align 4		%l1 = load <8 x i8>, <8 x i8>* %s1, align 4
%s2 = getelementptr <8 x i8>, <8 x i8>* %src, i32 1		%s2 = getelementptr <8 x i8>, <8 x i8>* %src, i32 1
%l2 = load <8 x i8>, <8 x i8>* %s2, align 4		%l2 = load <8 x i8>, <8 x i8>* %s2, align 4
%s3 = getelementptr <8 x i8>, <8 x i8>* %src, i32 2		%s3 = getelementptr <8 x i8>, <8 x i8>* %src, i32 2
%l3 = load <8 x i8>, <8 x i8>* %s3, align 4		%l3 = load <8 x i8>, <8 x i8>* %s3, align 4
%t1 = shufflevector <8 x i8> %l1, <8 x i8> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x i8> %l1, <8 x i8> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x i8> %l3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x i8> %l3, <8 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x i8> %t1, <16 x i8> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x i8> %t1, <16 x i8> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x i8> %s, <24 x i8> *%dst		store <24 x i8> %s, <24 x i8> *%dst
ret void		ret void
}		}

define void @vst3_v16i8(<16 x i8> %src, <48 x i8> %dst) {		define void @vst3_v16i8(<16 x i8> %src, <48 x i8> %dst) {
; CHECK-LABEL: vst3_v16i8:		; CHECK-LABEL: vst3_v16i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
		; CHECK-NEXT: vldrw.u32 q3, [r0]
		; CHECK-NEXT: vmov.u8 r2, q1[0]
; CHECK-NEXT: vmov.u8 r3, q3[0]		; CHECK-NEXT: vmov.u8 r3, q3[0]
; CHECK-NEXT: vmov.u8 r0, q2[0]		; CHECK-NEXT: vmov.8 q4[2], r2
		; CHECK-NEXT: vmov.u8 r2, q1[2]
		; CHECK-NEXT: vmov q0, q4
		; CHECK-NEXT: vmov.f32 s17, s4
		; CHECK-NEXT: vmov.8 q0[8], r2
		; CHECK-NEXT: vmov.u8 r2, q1[3]
		; CHECK-NEXT: vmov.8 q0[11], r2
		; CHECK-NEXT: vmov.u8 r2, q1[4]
		; CHECK-NEXT: vmov q2, q0
		; CHECK-NEXT: vmov.f32 s18, s2
		; CHECK-NEXT: vmov.8 q2[14], r2
; CHECK-NEXT: vmov.8 q5[0], r3		; CHECK-NEXT: vmov.8 q5[0], r3
; CHECK-NEXT: vmov.u8 r2, q1[0]		; CHECK-NEXT: vmov.f32 s19, s11
		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
		; CHECK-NEXT: vmov.u8 r2, q4[2]
		; CHECK-NEXT: vmov.u8 r0, q2[0]
; CHECK-NEXT: vmov.8 q5[1], r0		; CHECK-NEXT: vmov.8 q5[1], r0
; CHECK-NEXT: vmov.u8 r0, q3[1]		; CHECK-NEXT: vmov.u8 r0, q3[1]
; CHECK-NEXT: vmov.8 q5[3], r0		; CHECK-NEXT: vmov.8 q5[3], r0
; CHECK-NEXT: vmov.u8 r0, q2[1]		; CHECK-NEXT: vmov.u8 r0, q2[1]
; CHECK-NEXT: vmov.8 q5[4], r0		; CHECK-NEXT: vmov.8 q5[4], r0
; CHECK-NEXT: vmov.u8 r0, q3[2]		; CHECK-NEXT: vmov.u8 r0, q3[2]
; CHECK-NEXT: vmov.8 q5[6], r0		; CHECK-NEXT: vmov.8 q5[6], r0
; CHECK-NEXT: vmov.u8 r0, q2[2]		; CHECK-NEXT: vmov.u8 r0, q2[2]
; CHECK-NEXT: vmov.8 q5[7], r0		; CHECK-NEXT: vmov.8 q5[7], r0
; CHECK-NEXT: vmov.u8 r0, q3[3]		; CHECK-NEXT: vmov.u8 r0, q3[3]
; CHECK-NEXT: vmov.8 q5[9], r0		; CHECK-NEXT: vmov.8 q5[9], r0
; CHECK-NEXT: vmov.u8 r0, q2[3]		; CHECK-NEXT: vmov.u8 r0, q2[3]
; CHECK-NEXT: vmov.8 q5[10], r0		; CHECK-NEXT: vmov.8 q5[10], r0
; CHECK-NEXT: vmov.u8 r0, q3[4]		; CHECK-NEXT: vmov.u8 r0, q3[4]
; CHECK-NEXT: vmov.8 q4[2], r2
; CHECK-NEXT: vmov.u8 r2, q1[2]
; CHECK-NEXT: vmov.8 q5[12], r0		; CHECK-NEXT: vmov.8 q5[12], r0
; CHECK-NEXT: vmov.u8 r0, q2[4]		; CHECK-NEXT: vmov.u8 r0, q2[4]
; CHECK-NEXT: vmov.8 q4[8], r2
; CHECK-NEXT: vmov.u8 r2, q1[3]
; CHECK-NEXT: vmov.8 q5[13], r0		; CHECK-NEXT: vmov.8 q5[13], r0
; CHECK-NEXT: vmov.u8 r0, q3[5]		; CHECK-NEXT: vmov.u8 r0, q3[5]
; CHECK-NEXT: vmov.8 q5[15], r0		; CHECK-NEXT: vmov.8 q5[15], r0
; CHECK-NEXT: vmov.8 q4[11], r2
; CHECK-NEXT: vmov.u8 r2, q1[4]
; CHECK-NEXT: vmov.u8 r0, q5[0]		; CHECK-NEXT: vmov.u8 r0, q5[0]
; CHECK-NEXT: vmov.8 q4[14], r2
; CHECK-NEXT: vmov.8 q0[0], r0		; CHECK-NEXT: vmov.8 q0[0], r0
; CHECK-NEXT: vmov.f32 s17, s4
; CHECK-NEXT: vmov.u8 r0, q5[1]		; CHECK-NEXT: vmov.u8 r0, q5[1]
; CHECK-NEXT: vmov.8 q0[1], r0		; CHECK-NEXT: vmov.8 q0[1], r0
; CHECK-NEXT: vmov.u8 r2, q4[2]
; CHECK-NEXT: vmov.8 q0[2], r2
; CHECK-NEXT: vmov.u8 r0, q5[3]		; CHECK-NEXT: vmov.u8 r0, q5[3]
		; CHECK-NEXT: vmov.8 q0[2], r2
; CHECK-NEXT: vmov.8 q0[3], r0		; CHECK-NEXT: vmov.8 q0[3], r0
; CHECK-NEXT: vmov.u8 r0, q5[4]		; CHECK-NEXT: vmov.u8 r0, q5[4]
; CHECK-NEXT: vmov.8 q0[4], r0		; CHECK-NEXT: vmov.8 q0[4], r0
; CHECK-NEXT: vmov.u8 r0, q4[5]		; CHECK-NEXT: vmov.u8 r0, q4[5]
; CHECK-NEXT: vmov.8 q0[5], r0		; CHECK-NEXT: vmov.8 q0[5], r0
; CHECK-NEXT: vmov.u8 r0, q5[6]		; CHECK-NEXT: vmov.u8 r0, q5[6]
; CHECK-NEXT: vmov.8 q0[6], r0		; CHECK-NEXT: vmov.8 q0[6], r0
; CHECK-NEXT: vmov.u8 r0, q5[7]		; CHECK-NEXT: vmov.u8 r0, q5[7]
Show All 39 Lines
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vmov.u8 r0, q5[0]		; CHECK-NEXT: vmov.u8 r0, q5[0]
; CHECK-NEXT: vmov.8 q4[0], r0		; CHECK-NEXT: vmov.8 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q5[1]		; CHECK-NEXT: vmov.u8 r0, q5[1]
; CHECK-NEXT: vmov.8 q4[1], r0		; CHECK-NEXT: vmov.8 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q3[7]		; CHECK-NEXT: vmov.u8 r0, q3[7]
; CHECK-NEXT: vmov.8 q6[5], r0		; CHECK-NEXT: vmov.8 q6[5], r0
; CHECK-NEXT: vmov.u8 r0, q3[8]		; CHECK-NEXT: vmov.u8 r0, q3[8]
; CHECK-NEXT: vmov.8 q6[8], r0		; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmov.u8 r0, q3[9]
; CHECK-NEXT: vmov.8 q6[11], r0
; CHECK-NEXT: vmov.f32 s24, s13		; CHECK-NEXT: vmov.f32 s24, s13
		; CHECK-NEXT: vmov.8 q7[8], r0
		; CHECK-NEXT: vmov.u8 r0, q3[9]
		; CHECK-NEXT: vmov.8 q7[11], r0
		; CHECK-NEXT: vmov.f32 s26, s30
; CHECK-NEXT: vmov.f32 s27, s14		; CHECK-NEXT: vmov.f32 s27, s14
; CHECK-NEXT: vmov.u8 r0, q6[2]		; CHECK-NEXT: vmov.u8 r0, q6[2]
; CHECK-NEXT: vmov.8 q4[2], r0		; CHECK-NEXT: vmov.8 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q5[3]		; CHECK-NEXT: vmov.u8 r0, q5[3]
; CHECK-NEXT: vmov.8 q4[3], r0		; CHECK-NEXT: vmov.8 q4[3], r0
; CHECK-NEXT: vmov.u8 r0, q5[4]		; CHECK-NEXT: vmov.u8 r0, q5[4]
; CHECK-NEXT: vmov.8 q4[4], r0		; CHECK-NEXT: vmov.8 q4[4], r0
; CHECK-NEXT: vmov.u8 r0, q6[5]		; CHECK-NEXT: vmov.u8 r0, q6[5]
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.8 q1[12], r0		; CHECK-NEXT: vmov.8 q1[12], r0
; CHECK-NEXT: vmov.u8 r0, q5[13]		; CHECK-NEXT: vmov.u8 r0, q5[13]
; CHECK-NEXT: vmov.8 q1[13], r0		; CHECK-NEXT: vmov.8 q1[13], r0
; CHECK-NEXT: vmov.u8 r0, q3[14]		; CHECK-NEXT: vmov.u8 r0, q3[14]
; CHECK-NEXT: vmov.8 q1[14], r0		; CHECK-NEXT: vmov.8 q1[14], r0
; CHECK-NEXT: vmov.u8 r0, q5[15]		; CHECK-NEXT: vmov.u8 r0, q5[15]
; CHECK-NEXT: vmov.8 q1[15], r0		; CHECK-NEXT: vmov.8 q1[15], r0
; CHECK-NEXT: vstrw.32 q1, [r1, #32]		; CHECK-NEXT: vstrw.32 q1, [r1, #32]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x i8>, <16 x i8>* %src, i32 0		%s1 = getelementptr <16 x i8>, <16 x i8>* %src, i32 0
%l1 = load <16 x i8>, <16 x i8>* %s1, align 4		%l1 = load <16 x i8>, <16 x i8>* %s1, align 4
%s2 = getelementptr <16 x i8>, <16 x i8>* %src, i32 1		%s2 = getelementptr <16 x i8>, <16 x i8>* %src, i32 1
%l2 = load <16 x i8>, <16 x i8>* %s2, align 4		%l2 = load <16 x i8>, <16 x i8>* %s2, align 4
%s3 = getelementptr <16 x i8>, <16 x i8>* %src, i32 2		%s3 = getelementptr <16 x i8>, <16 x i8>* %src, i32 2
%l3 = load <16 x i8>, <16 x i8>* %s3, align 4		%l3 = load <16 x i8>, <16 x i8>* %s3, align 4
▲ Show 20 Lines • Show All 352 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: ldr r0, [r0, #8]		; CHECK-NEXT: ldr r0, [r0, #8]
; CHECK-NEXT: vmov r3, s4		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmovx.f16 s12, s4		; CHECK-NEXT: vmovx.f16 s12, s4
; CHECK-NEXT: vmov.16 q0[0], r3		; CHECK-NEXT: vmov.16 q0[0], r3
; CHECK-NEXT: vmov.32 q2[0], r0		; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov r0, s8		; CHECK-NEXT: vmov r0, s8
		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmovx.f16 s4, s5		; CHECK-NEXT: vmovx.f16 s4, s5
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmovx.f16 s4, s8		; CHECK-NEXT: vmovx.f16 s4, s8
		; CHECK-NEXT: vmov r3, s1
; CHECK-NEXT: vmov.16 q0[4], r0		; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.16 q0[5], r0		; CHECK-NEXT: vmov.16 q0[5], r0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: strd r2, r3, [r1]
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: str r0, [r1, #8]
; CHECK-NEXT: stm r1!, {r0, r2, r3}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0		%s1 = getelementptr <2 x half>, <2 x half>* %src, i32 0
%l1 = load <2 x half>, <2 x half>* %s1, align 4		%l1 = load <2 x half>, <2 x half>* %s1, align 4
%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1		%s2 = getelementptr <2 x half>, <2 x half>* %src, i32 1
%l2 = load <2 x half>, <2 x half>* %s2, align 4		%l2 = load <2 x half>, <2 x half>* %s2, align 4
%s3 = getelementptr <2 x half>, <2 x half>* %src, i32 2		%s3 = getelementptr <2 x half>, <2 x half>* %src, i32 2
%l3 = load <2 x half>, <2 x half>* %s3, align 4		%l3 = load <2 x half>, <2 x half>* %s3, align 4
%t1 = shufflevector <2 x half> %l1, <2 x half> %l2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%t1 = shufflevector <2 x half> %l1, <2 x half> %l2, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
%t2 = shufflevector <2 x half> %l3, <2 x half> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%t2 = shufflevector <2 x half> %l3, <2 x half> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
%s = shufflevector <4 x half> %t1, <4 x half> %t2, <6 x i32> <i32 0, i32 2, i32 4, i32 1, i32 3, i32 5>		%s = shufflevector <4 x half> %t1, <4 x half> %t2, <6 x i32> <i32 0, i32 2, i32 4, i32 1, i32 3, i32 5>
store <6 x half> %s, <6 x half> *%dst		store <6 x half> %s, <6 x half> *%dst
ret void		ret void
}		}

define void @vst3_v4f16(<4 x half> %src, <12 x half> %dst) {		define void @vst3_v4f16(<4 x half> %src, <12 x half> %dst) {
; CHECK-LABEL: vst3_v4f16:		; CHECK-LABEL: vst3_v4f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}		; CHECK-NEXT: .vsave {d8, d9}
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vmov.32 q0[1], r3		; CHECK-NEXT: ldrd r3, r2, [r0]
; CHECK-NEXT: vmov.32 q0[2], r12		; CHECK-NEXT: ldrd lr, r12, [r0, #8]
; CHECK-NEXT: vmov.32 q0[3], lr		; CHECK-NEXT: vmov.32 q4[0], r3
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov q1, q4
; CHECK-NEXT: vmovx.f16 s12, s0		; CHECK-NEXT: vmov r3, s16
		; CHECK-NEXT: vmov.32 q1[1], r2
		; CHECK-NEXT: vmov.16 q3[0], r3
		; CHECK-NEXT: vmov q0, q1
		; CHECK-NEXT: vmovx.f16 s16, s16
		; CHECK-NEXT: vmov.32 q0[2], lr
		; CHECK-NEXT: vmovx.f16 s4, s5
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: vmov r2, s2
; CHECK-NEXT: vmov.16 q2[0], r3		; CHECK-NEXT: vmov.16 q3[1], r2
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: ldr r2, [r0, #16]
; CHECK-NEXT: ldrd r2, r0, [r0, #16]		; CHECK-NEXT: ldr r0, [r0, #20]
; CHECK-NEXT: vmovx.f16 s0, s3		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov.32 q1[1], r0		; CHECK-NEXT: vmov.16 q3[2], r2
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.16 q2[2], r0		; CHECK-NEXT: vmovx.f16 s16, s2
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmovx.f16 s12, s2		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmovx.f16 s16, s8
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.16 q3[4], r2
; CHECK-NEXT: vmovx.f16 s12, s4		; CHECK-NEXT: vmov r2, s16
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.32 q0[3], r12
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov.16 q3[5], r2
; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov r0, s3
; CHECK-NEXT: vmov.16 q2[7], r0
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov r2, s5
; CHECK-NEXT: vstrw.32 q2, [r1]		; CHECK-NEXT: vmov.16 q3[6], r2
; CHECK-NEXT: vmovx.f16 s8, s1		; CHECK-NEXT: vmov r2, s3
; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov.16 q2[0], r2
; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmovx.f16 s0, s5
; CHECK-NEXT: vmov.16 q2[2], r0
; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov r0, s9		; CHECK-NEXT: vmov r0, s9
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov.16 q3[7], r2
		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.16 q1[0], r0
		; CHECK-NEXT: vmov.16 q1[1], r2
		; CHECK-NEXT: vmovx.f16 s0, s3
		; CHECK-NEXT: vmovx.f16 s8, s9
		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov q0, q1
		; CHECK-NEXT: vmov r0, s8
		; CHECK-NEXT: vmov.16 q0[2], r2
		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vstrw.32 q3, [r1]
		; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: strd r2, r0, [r1, #16]		; CHECK-NEXT: strd r2, r0, [r1, #16]
		; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0		%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0
%l1 = load <4 x half>, <4 x half>* %s1, align 4		%l1 = load <4 x half>, <4 x half>* %s1, align 4
%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1		%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1
%l2 = load <4 x half>, <4 x half>* %s2, align 4		%l2 = load <4 x half>, <4 x half>* %s2, align 4
%s3 = getelementptr <4 x half>, <4 x half>* %src, i32 2		%s3 = getelementptr <4 x half>, <4 x half>* %src, i32 2
%l3 = load <4 x half>, <4 x half>* %s3, align 4		%l3 = load <4 x half>, <4 x half>* %s3, align 4
%t1 = shufflevector <4 x half> %l1, <4 x half> %l2, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%t1 = shufflevector <4 x half> %l1, <4 x half> %l2, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
%t2 = shufflevector <4 x half> %l3, <4 x half> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <4 x half> %l3, <4 x half> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <8 x half> %t1, <8 x half> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>		%s = shufflevector <8 x half> %t1, <8 x half> %t2, <12 x i32> <i32 0, i32 4, i32 8, i32 1, i32 5, i32 9, i32 2, i32 6, i32 10, i32 3, i32 7, i32 11>
store <12 x half> %s, <12 x half> *%dst		store <12 x half> %s, <12 x half> *%dst
ret void		ret void
}		}

define void @vst3_v8f16(<8 x half> %src, <24 x half> %dst) {		define void @vst3_v8f16(<8 x half> %src, <24 x half> %dst) {
; CHECK-LABEL: vst3_v8f16:		; CHECK-LABEL: vst3_v8f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #16		; CHECK-NEXT: .pad #64
; CHECK-NEXT: sub sp, #16		; CHECK-NEXT: sub sp, #64
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q4, [r0]
; CHECK-NEXT: vldrw.u32 q1, [r0, #16]		; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
; CHECK-NEXT: vldrw.u32 q5, [r0, #32]		; CHECK-NEXT: vldrw.u32 q6, [r0, #32]
		; CHECK-NEXT: vmov r3, s16
		; CHECK-NEXT: vmovx.f16 s8, s0
		; CHECK-NEXT: vmov.16 q1[0], r3
		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov r3, s8		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmovx.f16 s12, s4		; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmov r2, s17
; CHECK-NEXT: vmov.16 q0[0], r3		; CHECK-NEXT: vmov.16 q2[4], r3
; CHECK-NEXT: vmov.16 q0[1], r2		; CHECK-NEXT: vmov.f32 s5, s16
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov q3, q2
; CHECK-NEXT: vmov r0, s20		; CHECK-NEXT: vmov r12, s1
; CHECK-NEXT: vmov.16 q0[4], r2		; CHECK-NEXT: vmov.16 q3[6], r2
; CHECK-NEXT: vdup.32 q4, r0		; CHECK-NEXT: vmov.f32 s6, s10
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: vmov.16 q3[7], r12
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmov r2, s5		; CHECK-NEXT: vmov.f32 s7, s15
; CHECK-NEXT: vmovx.f16 s12, s8		; CHECK-NEXT: vmovx.f16 s8, s5
; CHECK-NEXT: vmov r0, s17		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vdup.32 q2, r0
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r0, s9
		; CHECK-NEXT: vmovx.f16 s8, s10
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.f32 s1, s8		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov.16 q3[3], r2		; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmovx.f16 s16, s18		; CHECK-NEXT: vmovx.f16 s8, s26
		; CHECK-NEXT: vstrw.32 q3, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmovx.f16 s16, s22		; CHECK-NEXT: vmovx.f16 s8, s2
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r2
; CHECK-NEXT: vmov r0, s16		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmovx.f16 s16, s6		; CHECK-NEXT: vmovx.f16 s8, s3
; CHECK-NEXT: vmovx.f16 s24, s7		; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov r2, s16		; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill		; CHECK-NEXT: vmov.16 q5[1], r0
; CHECK-NEXT: vmov.16 q4[0], r2		; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov r2, s11		; CHECK-NEXT: vmovx.f16 s8, s27
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vstrw.32 q3, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vmov r0, s7		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov.16 q4[3], r0		; CHECK-NEXT: vmov q2, q5
; CHECK-NEXT: vmov r0, s24		; CHECK-NEXT: vmov.16 q2[3], r3
; CHECK-NEXT: vmovx.f16 s24, s23		; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q4[6], r0		; CHECK-NEXT: vmov q3, q2
; CHECK-NEXT: vmov r0, s24		; CHECK-NEXT: vmov.f32 s21, s9
; CHECK-NEXT: vdup.32 q7, r2		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.16 q4[7], r0		; CHECK-NEXT: vmov.f32 s22, s27
; CHECK-NEXT: vmov r2, s29		; CHECK-NEXT: vmov.16 q3[7], r2
; CHECK-NEXT: vmov.f32 s18, s23		; CHECK-NEXT: vmov r2, s19
; CHECK-NEXT: vmovx.f16 s24, s17		; CHECK-NEXT: vmov.f32 s23, s15
; CHECK-NEXT: vmov r0, s24		; CHECK-NEXT: vmovx.f16 s8, s21
; CHECK-NEXT: vmov.16 q6[2], r2		; CHECK-NEXT: vmov r0, s8
; CHECK-NEXT: vmov.16 q6[3], r0		; CHECK-NEXT: vdup.32 q2, r2
; CHECK-NEXT: vmovx.f16 s28, s30
; CHECK-NEXT: vmovx.f16 s4, s10
; CHECK-NEXT: vmov.f32 s1, s13
; CHECK-NEXT: vmov.f32 s2, s14
; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: vmov.16 q6[4], r0
; CHECK-NEXT: vmov r0, s28
; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmovx.f16 s28, s9
; CHECK-NEXT: vmov r0, s21
; CHECK-NEXT: vmov r2, s28
; CHECK-NEXT: vmov.16 q7[0], r0
; CHECK-NEXT: vmov.16 q7[1], r2
; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: vmov.16 q7[6], r0
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.16 q7[7], r0
; CHECK-NEXT: vmov.f32 s17, s25
; CHECK-NEXT: vmov.f32 s29, s21
; CHECK-NEXT: vmov.f32 s30, s10
; CHECK-NEXT: vmovx.f16 s4, s29
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vrev32.16 q2, q1
; CHECK-NEXT: vstrw.32 q4, [r1, #32]
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: vmovx.f16 s8, s10		; CHECK-NEXT: vmovx.f16 s8, s10
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.16 q7[2], r2
; CHECK-NEXT: vmov.16 q1[3], r0		; CHECK-NEXT: vmov r2, s8
; CHECK-NEXT: vmov r0, s30		; CHECK-NEXT: vmov.16 q7[3], r0
; CHECK-NEXT: vmov.16 q1[4], r0		; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: vmov r0, s8		; CHECK-NEXT: vstrw.32 q7, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q1[5], r0		; CHECK-NEXT: vmov.16 q7[4], r0
; CHECK-NEXT: vmov.f32 s29, s5		; CHECK-NEXT: vmov r0, s25
; CHECK-NEXT: vmov.f32 s30, s6		; CHECK-NEXT: vmovx.f16 s8, s17
; CHECK-NEXT: vstrw.32 q7, [r1, #16]		; CHECK-NEXT: vmov.16 q7[5], r2
; CHECK-NEXT: add sp, #16		; CHECK-NEXT: vmov r2, s8
		; CHECK-NEXT: vmov.16 q2[0], r0
		; CHECK-NEXT: vmov r0, s26
		; CHECK-NEXT: vmov.16 q2[1], r2
		; CHECK-NEXT: vmovx.f16 s12, s18
		; CHECK-NEXT: vmov q0, q2
		; CHECK-NEXT: vmov.f32 s9, s25
		; CHECK-NEXT: vmov.16 q0[6], r0
		; CHECK-NEXT: vmov r0, s12
		; CHECK-NEXT: vmov.16 q0[7], r0
		; CHECK-NEXT: vmov.f32 s10, s18
		; CHECK-NEXT: vmov.f32 s11, s3
		; CHECK-NEXT: vmovx.f16 s0, s9
		; CHECK-NEXT: vmov r0, s0
		; CHECK-NEXT: vldrw.u32 q0, [sp, #16] @ 16-byte Reload
		; CHECK-NEXT: vrev32.16 q3, q0
		; CHECK-NEXT: vmov r2, s13
		; CHECK-NEXT: vmovx.f16 s12, s14
		; CHECK-NEXT: vmov.16 q0[2], r2
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: vldrw.u32 q3, [sp, #48] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vmov r0, s10
		; CHECK-NEXT: vmov q4, q0
		; CHECK-NEXT: vmov.f32 s5, s13
		; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q4[4], r0
		; CHECK-NEXT: vmov.f32 s9, s1
		; CHECK-NEXT: vmov.f32 s6, s14
		; CHECK-NEXT: vldrw.u32 q3, [sp] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q4[5], r2
		; CHECK-NEXT: vstrw.32 q1, [r1]
		; CHECK-NEXT: vmov.f32 s21, s13
		; CHECK-NEXT: vmov.f32 s22, s30
		; CHECK-NEXT: vmov.f32 s10, s18
		; CHECK-NEXT: vstrw.32 q5, [r1, #32]
		; CHECK-NEXT: vstrw.32 q2, [r1, #16]
		; CHECK-NEXT: add sp, #64
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <8 x half>, <8 x half>* %src, i32 0		%s1 = getelementptr <8 x half>, <8 x half>* %src, i32 0
%l1 = load <8 x half>, <8 x half>* %s1, align 4		%l1 = load <8 x half>, <8 x half>* %s1, align 4
%s2 = getelementptr <8 x half>, <8 x half>* %src, i32 1		%s2 = getelementptr <8 x half>, <8 x half>* %src, i32 1
%l2 = load <8 x half>, <8 x half>* %s2, align 4		%l2 = load <8 x half>, <8 x half>* %s2, align 4
%s3 = getelementptr <8 x half>, <8 x half>* %src, i32 2		%s3 = getelementptr <8 x half>, <8 x half>* %src, i32 2
%l3 = load <8 x half>, <8 x half>* %s3, align 4		%l3 = load <8 x half>, <8 x half>* %s3, align 4
%t1 = shufflevector <8 x half> %l1, <8 x half> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%t1 = shufflevector <8 x half> %l1, <8 x half> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
%t2 = shufflevector <8 x half> %l3, <8 x half> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%t2 = shufflevector <8 x half> %l3, <8 x half> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%s = shufflevector <16 x half> %t1, <16 x half> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>		%s = shufflevector <16 x half> %t1, <16 x half> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
store <24 x half> %s, <24 x half> *%dst		store <24 x half> %s, <24 x half> *%dst
ret void		ret void
}		}

define void @vst3_v16f16(<16 x half> %src, <48 x half> %dst) {		define void @vst3_v16f16(<16 x half> %src, <48 x half> %dst) {
; CHECK-LABEL: vst3_v16f16:		; CHECK-LABEL: vst3_v16f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #144		; CHECK-NEXT: .pad #240
; CHECK-NEXT: sub sp, #144		; CHECK-NEXT: sub sp, #240
; CHECK-NEXT: vldrw.u32 q0, [r0]		; CHECK-NEXT: vldrw.u32 q6, [r0, #80]
; CHECK-NEXT: vldrw.u32 q2, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #48]
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vldrw.u32 q7, [r0, #16]
; CHECK-NEXT: vmov q3, q0		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmovx.f16 s0, s26
; CHECK-NEXT: vmov.16 q1[0], r3		; CHECK-NEXT: vstrw.32 q1, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmovx.f16 s0, s8
; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s0, s12
; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vmov r2, s13
; CHECK-NEXT: vmov.16 q1[6], r2
; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: vmov.16 q1[7], r2
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vldrw.u32 q0, [r0, #64]		; CHECK-NEXT: vmovx.f16 s0, s6
; CHECK-NEXT: vmov.f32 s5, s12
; CHECK-NEXT: vmov q5, q3
; CHECK-NEXT: vstrw.32 q3, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov q4, q0		; CHECK-NEXT: vmovx.f16 s0, s7
; CHECK-NEXT: vdup.32 q0, r3		; CHECK-NEXT: vmov.16 q2[0], r3
; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill		; CHECK-NEXT: vmov r12, s0
; CHECK-NEXT: vmov r3, s1		; CHECK-NEXT: vmov.16 q2[1], r2
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmovx.f16 s0, s27
; CHECK-NEXT: vmov.16 q3[2], r3
; CHECK-NEXT: vstrw.32 q2, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov r2, s6
; CHECK-NEXT: vmov.16 q3[4], r2
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s0, s18
; CHECK-NEXT: vmov.16 q3[5], r2
; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s0, s10
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmovx.f16 s0, s11		; CHECK-NEXT: vmov q0, q2
; CHECK-NEXT: vmov.16 q1[0], r3		; CHECK-NEXT: vmov r2, s7
; CHECK-NEXT: vmov r3, s23		; CHECK-NEXT: vldrw.u32 q5, [r0, #64]
; CHECK-NEXT: vmov.16 q1[1], r2		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov r2, s11		; CHECK-NEXT: vstrw.32 q3, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov.f32 s9, s1
; CHECK-NEXT: vmovx.f16 s0, s19		; CHECK-NEXT: vmov.16 q1[6], r12
; CHECK-NEXT: vmov.16 q1[6], r2		; CHECK-NEXT: vmov.f32 s10, s27
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov.16 q1[7], r3
; CHECK-NEXT: vldrw.u32 q5, [r0, #16]		; CHECK-NEXT: vmov r3, s31
; CHECK-NEXT: vmov.16 q1[7], r2		; CHECK-NEXT: vmov.f32 s11, s7
; CHECK-NEXT: vstrw.32 q3, [sp, #112] @ 16-byte Spill		; CHECK-NEXT: vmovx.f16 s0, s9
; CHECK-NEXT: vmov.f32 s6, s19
; CHECK-NEXT: vmovx.f16 s0, s5
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vdup.32 q0, r3		; CHECK-NEXT: vdup.32 q0, r3
; CHECK-NEXT: vmov r3, s1		; CHECK-NEXT: vmov r3, s1
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov.16 q2[2], r3		; CHECK-NEXT: vmov.16 q1[2], r3
; CHECK-NEXT: vmov r3, s20		; CHECK-NEXT: vmov r3, s0
; CHECK-NEXT: vmov.16 q2[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
; CHECK-NEXT: vmov.16 q7[0], r3		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vldrw.u32 q3, [r0, #80]		; CHECK-NEXT: vstrw.32 q1, [sp, #208] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q1, [sp, #96] @ 16-byte Spill		; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vstrw.32 q4, [sp, #48] @ 16-byte Spill		; CHECK-NEXT: vmov.16 q1[5], r3
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov.16 q2[4], r2		; CHECK-NEXT: vstrw.32 q1, [sp, #192] @ 16-byte Spill
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vmov.16 q2[5], r2		; CHECK-NEXT: vstrw.32 q2, [sp, #224] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill		; CHECK-NEXT: vmov.16 q2[0], r2
; CHECK-NEXT: vldrw.u32 q2, [r0, #48]		; CHECK-NEXT: vmov r3, s4
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmovx.f16 s0, s4
; CHECK-NEXT: vmov r2, s8		; CHECK-NEXT: vmov.16 q2[1], r3
; CHECK-NEXT: vmovx.f16 s0, s8
; CHECK-NEXT: vmov.16 q7[1], r2
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q7[4], r2		; CHECK-NEXT: vmov q0, q2
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: vmov q4, q1
; CHECK-NEXT: vmov.16 q7[6], r2		; CHECK-NEXT: vmov.16 q0[4], r2
; CHECK-NEXT: vmov r2, s9		; CHECK-NEXT: vmov r3, s5
; CHECK-NEXT: vmovx.f16 s0, s20		; CHECK-NEXT: vmov r12, s13
; CHECK-NEXT: vmov.16 q7[7], r2		; CHECK-NEXT: vmov q1, q0
		; CHECK-NEXT: vmov.16 q1[6], r12
		; CHECK-NEXT: vmov.f32 s9, s12
		; CHECK-NEXT: vmov.16 q1[7], r3
		; CHECK-NEXT: vmov.f32 s10, s2
		; CHECK-NEXT: vmov.f32 s11, s7
		; CHECK-NEXT: vmovx.f16 s0, s9
		; CHECK-NEXT: vmov r0, s20
		; CHECK-NEXT: vstrw.32 q2, [sp, #176] @ 16-byte Spill
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vdup.32 q0, r0		; CHECK-NEXT: vdup.32 q0, r0
; CHECK-NEXT: vmov r0, s1		; CHECK-NEXT: vmov r0, s1
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov.16 q1[2], r0		; CHECK-NEXT: vmov.16 q1[2], r0
; CHECK-NEXT: vmov.f32 s29, s20		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
; CHECK-NEXT: vmov r0, s30		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vstrw.32 q1, [sp, #160] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q1[4], r0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vmov.16 q1[5], r0		; CHECK-NEXT: vmovx.f16 s0, s18
; CHECK-NEXT: vmovx.f16 s0, s14		; CHECK-NEXT: vstrw.32 q1, [sp, #144] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q1, [sp, #16] @ 16-byte Spill		; CHECK-NEXT: vmov q1, q5
; CHECK-NEXT: vmov q1, q2
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmovx.f16 s0, s6		; CHECK-NEXT: vmovx.f16 s0, s6
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov.16 q5[0], r0
; CHECK-NEXT: vmovx.f16 s0, s7		; CHECK-NEXT: vmovx.f16 s0, s7
; CHECK-NEXT: vmov.16 q2[0], r2		; CHECK-NEXT: vmov.16 q5[1], r2
; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov r0, s7
; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmovx.f16 s0, s15		; CHECK-NEXT: vmovx.f16 s0, s19
; CHECK-NEXT: vmov.16 q2[6], r0		; CHECK-NEXT: vmov r3, s0
		; CHECK-NEXT: vmov q0, q5
		; CHECK-NEXT: vmov r2, s19
		; CHECK-NEXT: vmov q2, q1
		; CHECK-NEXT: vmov.16 q0[3], r2
		; CHECK-NEXT: vstrw.32 q1, [sp, #32] @ 16-byte Spill
		; CHECK-NEXT: vmov q1, q0
		; CHECK-NEXT: vmov.f32 s21, s1
		; CHECK-NEXT: vmov.16 q1[6], r3
		; CHECK-NEXT: vmov.f32 s22, s11
		; CHECK-NEXT: vmov.16 q1[7], r0
		; CHECK-NEXT: vmov r2, s15
		; CHECK-NEXT: vmov.f32 s23, s7
		; CHECK-NEXT: vmovx.f16 s0, s21
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q2[7], r0		; CHECK-NEXT: vdup.32 q0, r2
; CHECK-NEXT: vmov.f32 s10, s15		; CHECK-NEXT: vmov r2, s1
		; CHECK-NEXT: vmovx.f16 s0, s2
		; CHECK-NEXT: vmov.16 q1[2], r2
		; CHECK-NEXT: vldrw.u32 q3, [sp, #80] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q1[3], r0
		; CHECK-NEXT: vmov r0, s22
		; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill
		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov.16 q1[4], r0
		; CHECK-NEXT: vmov r0, s28
		; CHECK-NEXT: vmov.16 q1[5], r2
		; CHECK-NEXT: vmov.16 q2[0], r0
		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: vmovx.f16 s0, s12
		; CHECK-NEXT: vmov.16 q2[1], r2
		; CHECK-NEXT: vmov r3, s0
		; CHECK-NEXT: vmov q0, q2
		; CHECK-NEXT: vstrw.32 q1, [sp, #112] @ 16-byte Spill
		; CHECK-NEXT: vmov.16 q0[4], r3
		; CHECK-NEXT: vmov r0, s29
		; CHECK-NEXT: vmov q1, q0
		; CHECK-NEXT: vmov.f32 s9, s28
		; CHECK-NEXT: vmov r2, s13
		; CHECK-NEXT: vmov.16 q1[6], r0
		; CHECK-NEXT: vmov.16 q1[7], r2
		; CHECK-NEXT: vmov.f32 s10, s2
		; CHECK-NEXT: vmov.f32 s11, s7
; CHECK-NEXT: vmovx.f16 s0, s9		; CHECK-NEXT: vmovx.f16 s0, s9
		; CHECK-NEXT: vmov r2, s24
		; CHECK-NEXT: vstrw.32 q4, [sp, #96] @ 16-byte Spill
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vdup.32 q0, r2		; CHECK-NEXT: vdup.32 q0, r2
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov.16 q6[2], r2		; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.16 q6[3], r0		; CHECK-NEXT: vmov r2, s0
		; CHECK-NEXT: vmov.16 q1[3], r0
; CHECK-NEXT: vmov r0, s10		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov.16 q6[4], r0		; CHECK-NEXT: vstrw.32 q1, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov.16 q6[5], r0		; CHECK-NEXT: vmov r0, s25
; CHECK-NEXT: vmov r0, s13		; CHECK-NEXT: vmovx.f16 s0, s29
; CHECK-NEXT: vmovx.f16 s0, s21		; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vmov.16 q4[0], r0		; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s0, s22		; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q4[1], r2		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov r0, s14		; CHECK-NEXT: vmov r0, s26
; CHECK-NEXT: vmov.16 q4[6], r0		; CHECK-NEXT: vmov q0, q4
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmovx.f16 s4, s30
; CHECK-NEXT: vmov.16 q4[7], r0		; CHECK-NEXT: vmov.f32 s17, s25
; CHECK-NEXT: vmov.f32 s9, s25		; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.f32 s17, s13		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q6, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s18, s22		; CHECK-NEXT: vmov.f32 s18, s30
		; CHECK-NEXT: vmov.16 q0[7], r0
		; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vmovx.f16 s0, s17		; CHECK-NEXT: vmovx.f16 s0, s17
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vrev32.16 q0, q1		; CHECK-NEXT: vrev32.16 q0, q3
; CHECK-NEXT: vmov r2, s1		; CHECK-NEXT: vmov r2, s1
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vldrw.u32 q7, [sp, #32] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.f32 s10, s26		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov.16 q1[3], r0		; CHECK-NEXT: vmov.16 q1[3], r0
; CHECK-NEXT: vldrw.u32 q6, [sp, #112] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q2, [r1, #80]
; CHECK-NEXT: vmov r0, s18		; CHECK-NEXT: vmov r0, s18
		; CHECK-NEXT: vstrw.32 q1, [sp, #80] @ 16-byte Spill
		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmov.16 q1[4], r0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s29
; CHECK-NEXT: vmov.16 q1[5], r0		; CHECK-NEXT: vmovx.f16 s0, s25
; CHECK-NEXT: vmovx.f16 s0, s13		; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov r2, s0
; CHECK-NEXT: vmovx.f16 s0, s14		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov r0, s5		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.16 q5[0], r0		; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov.f32 s1, s29
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmovx.f16 s12, s26
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov.f32 s2, s26
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vldrw.u32 q6, [sp, #208] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s21, s5		; CHECK-NEXT: vmov r0, s30
; CHECK-NEXT: vldrw.u32 q1, [sp, #64] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q7, [sp, #224] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s22, s14		; CHECK-NEXT: vmov.16 q1[6], r0
; CHECK-NEXT: vmovx.f16 s0, s21
; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vldrw.u32 q0, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vrev32.16 q3, q0
; CHECK-NEXT: vmov r2, s13
; CHECK-NEXT: vmovx.f16 s12, s14
; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: vmov.16 q0[4], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vldrw.u32 q3, [sp, #128] @ 16-byte Reload		; CHECK-NEXT: vmov.f32 s29, s25
; CHECK-NEXT: vmov.16 q0[5], r0		; CHECK-NEXT: vldrw.u32 q6, [sp, #192] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s13, s25		; CHECK-NEXT: vmov.16 q1[7], r0
; CHECK-NEXT: vmov.f32 s14, s26		; CHECK-NEXT: vmov.f32 s3, s7
; CHECK-NEXT: vldrw.u32 q6, [sp, #96] @ 16-byte Reload		; CHECK-NEXT: vmovx.f16 s4, s1
; CHECK-NEXT: vmov.f32 s25, s5		; CHECK-NEXT: vmov.f32 s30, s26
; CHECK-NEXT: vstrw.32 q3, [r1]		; CHECK-NEXT: vldrw.u32 q6, [sp, #176] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s21, s1		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.f32 s26, s6		; CHECK-NEXT: vldrw.u32 q1, [sp, #96] @ 16-byte Reload
; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vstrw.32 q7, [sp, #224] @ 16-byte Spill
; CHECK-NEXT: vmov.f32 s22, s2		; CHECK-NEXT: vldrw.u32 q7, [sp, #160] @ 16-byte Reload
; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload		; CHECK-NEXT: vrev32.16 q1, q1
; CHECK-NEXT: vmov.f32 s29, s5		; CHECK-NEXT: vmov.f32 s25, s29
; CHECK-NEXT: vstrw.32 q6, [r1, #32]		; CHECK-NEXT: vldrw.u32 q7, [sp, #144] @ 16-byte Reload
		; CHECK-NEXT: vmov r2, s5
		; CHECK-NEXT: vmovx.f16 s4, s6
		; CHECK-NEXT: vmov.16 q3[2], r2
		; CHECK-NEXT: vmov.f32 s26, s30
		; CHECK-NEXT: vldrw.u32 q7, [sp, #128] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q3[3], r0
		; CHECK-NEXT: vmov r0, s2
		; CHECK-NEXT: vstrw.32 q6, [r1]
		; CHECK-NEXT: vmov r2, s4
		; CHECK-NEXT: vmov q1, q3
		; CHECK-NEXT: vmov.f32 s21, s29
		; CHECK-NEXT: vldrw.u32 q7, [sp, #112] @ 16-byte Reload
		; CHECK-NEXT: vmov.16 q1[4], r0
		; CHECK-NEXT: vmov.f32 s1, s13
		; CHECK-NEXT: vmov.16 q1[5], r2
		; CHECK-NEXT: vmov.f32 s22, s30
		; CHECK-NEXT: vldrw.u32 q7, [sp, #64] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s2, s6
		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
		; CHECK-NEXT: vldrw.u32 q0, [sp, #80] @ 16-byte Reload
		; CHECK-NEXT: vmov.f32 s9, s29
		; CHECK-NEXT: vldrw.u32 q7, [sp, #48] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s17, s1		; CHECK-NEXT: vmov.f32 s17, s1
; CHECK-NEXT: vstrw.32 q5, [r1, #16]		; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s30, s6		; CHECK-NEXT: vmov.f32 s10, s30
		; CHECK-NEXT: vstrw.32 q5, [r1, #32]
		; CHECK-NEXT: vstrw.32 q2, [r1, #48]
		; CHECK-NEXT: vldrw.u32 q2, [sp, #224] @ 16-byte Reload
; CHECK-NEXT: vmov.f32 s18, s2		; CHECK-NEXT: vmov.f32 s18, s2
; CHECK-NEXT: vstrw.32 q7, [r1, #48]		; CHECK-NEXT: vstrw.32 q2, [r1, #80]
; CHECK-NEXT: vstrw.32 q4, [r1, #64]		; CHECK-NEXT: vstrw.32 q4, [r1, #64]
; CHECK-NEXT: add sp, #144		; CHECK-NEXT: add sp, #240
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%s1 = getelementptr <16 x half>, <16 x half>* %src, i32 0		%s1 = getelementptr <16 x half>, <16 x half>* %src, i32 0
%l1 = load <16 x half>, <16 x half>* %s1, align 4		%l1 = load <16 x half>, <16 x half>* %s1, align 4
%s2 = getelementptr <16 x half>, <16 x half>* %src, i32 1		%s2 = getelementptr <16 x half>, <16 x half>* %src, i32 1
%l2 = load <16 x half>, <16 x half>* %s2, align 4		%l2 = load <16 x half>, <16 x half>* %s2, align 4
%s3 = getelementptr <16 x half>, <16 x half>* %src, i32 2		%s3 = getelementptr <16 x half>, <16 x half>* %src, i32 2
▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst4.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -mve-max-interleave-factor=4 -verify-machineinstrs %s -o - \| FileCheck %s		; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -mve-max-interleave-factor=4 -verify-machineinstrs %s -o - \| FileCheck %s

; i32		; i32

define void @vst4_v2i32(<2 x i32> %src, <8 x i32> %dst) {		define void @vst4_v2i32(<2 x i32> %src, <8 x i32> %dst) {
; CHECK-LABEL: vst4_v2i32:		; CHECK-LABEL: vst4_v2i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}		; CHECK-NEXT: ldrd r3, r2, [r0]
		; CHECK-NEXT: ldrd lr, r12, [r0, #8]
; CHECK-NEXT: ldrd r4, r0, [r0, #16]		; CHECK-NEXT: ldrd r4, r0, [r0, #16]
; CHECK-NEXT: vmov.32 q1[0], r4		; CHECK-NEXT: vmov.32 q0[0], r4
		; CHECK-NEXT: vmov q1, q0
; CHECK-NEXT: vmov.32 q1[2], r0		; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: vmov.f64 d0, d2
; CHECK-NEXT: vmov.f32 s1, s6		; CHECK-NEXT: vmov.f32 s1, s6
; CHECK-NEXT: vmov.f32 s2, s4		; CHECK-NEXT: vmov.f32 s2, s0
; CHECK-NEXT: vmov.f32 s3, s6		; CHECK-NEXT: vmov.f32 s3, s6
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: vmov.32 q1[0], r3
; CHECK-NEXT: vmov.32 q1[1], r3		; CHECK-NEXT: vmov q2, q1
; CHECK-NEXT: vmov.32 q1[2], r12		; CHECK-NEXT: vmov.32 q2[1], r2
; CHECK-NEXT: vmov.32 q1[3], lr		; CHECK-NEXT: vmov q3, q2
; CHECK-NEXT: vmov.f64 d4, d2		; CHECK-NEXT: vmov.32 q3[2], lr
; CHECK-NEXT: vmov.f32 s9, s6		; CHECK-NEXT: vmov.f32 s5, s14
; CHECK-NEXT: vmov.f32 s10, s0		; CHECK-NEXT: vmov.32 q3[3], r12
; CHECK-NEXT: vmov.f32 s11, s2		; CHECK-NEXT: vmov.f32 s6, s0
; CHECK-NEXT: vstrw.32 q2, [r1]		; CHECK-NEXT: vmov.f32 s7, s2
; CHECK-NEXT: vmov.f32 s8, s5		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vmov.f32 s9, s7		; CHECK-NEXT: vmov.f32 s4, s9
; CHECK-NEXT: vmov.f32 s10, s1		; CHECK-NEXT: vmov.f32 s5, s15
; CHECK-NEXT: vmov.f32 s11, s3		; CHECK-NEXT: vmov.f32 s6, s1
; CHECK-NEXT: vstrw.32 q2, [r1, #16]		; CHECK-NEXT: vmov.f32 s7, s3
		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0		%s1 = getelementptr <2 x i32>, <2 x i32>* %src, i32 0
%l1 = load <2 x i32>, <2 x i32>* %s1, align 4		%l1 = load <2 x i32>, <2 x i32>* %s1, align 4
%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1		%s2 = getelementptr <2 x i32>, <2 x i32>* %src, i32 1
%l2 = load <2 x i32>, <2 x i32>* %s2, align 4		%l2 = load <2 x i32>, <2 x i32>* %s2, align 4
%s3 = getelementptr <2 x i32>, <2 x i32>* %src, i32 2		%s3 = getelementptr <2 x i32>, <2 x i32>* %src, i32 2
%l3 = load <2 x i32>, <2 x i32>* %s3, align 4		%l3 = load <2 x i32>, <2 x i32>* %s3, align 4
▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
; i16		; i16

define void @vst4_v2i16(<2 x i16> %src, <8 x i16> %dst) {		define void @vst4_v2i16(<2 x i16> %src, <8 x i16> %dst) {
; CHECK-LABEL: vst4_v2i16:		; CHECK-LABEL: vst4_v2i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: ldrh r4, [r0]		; CHECK-NEXT: ldrh r4, [r0]
; CHECK-NEXT: ldrh.w lr, [r0, #4]		; CHECK-NEXT: ldrh r2, [r0, #4]
; CHECK-NEXT: ldrh r3, [r0, #8]
; CHECK-NEXT: vmov.32 q0[0], r4
; CHECK-NEXT: ldrh.w r12, [r0, #6]
; CHECK-NEXT: ldrh r2, [r0, #10]
; CHECK-NEXT: ldrh r0, [r0, #2]
; CHECK-NEXT: vmov.32 q0[2], r0
; CHECK-NEXT: vmov r4, s0
; CHECK-NEXT: vmov.16 q0[0], r4		; CHECK-NEXT: vmov.16 q0[0], r4
; CHECK-NEXT: vmov.16 q0[1], lr		; CHECK-NEXT: ldrh.w lr, [r0, #2]
; CHECK-NEXT: vmov.16 q0[2], r3		; CHECK-NEXT: ldrh.w r12, [r0, #6]
; CHECK-NEXT: vmov.16 q0[3], r3		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.16 q0[4], r0		; CHECK-NEXT: ldrh r3, [r0, #10]
		; CHECK-NEXT: ldrh r0, [r0, #8]
		; CHECK-NEXT: vmov.16 q0[2], r0
		; CHECK-NEXT: vmov.16 q0[3], r0
		; CHECK-NEXT: vmov.16 q0[4], lr
; CHECK-NEXT: vmov.16 q0[5], r12		; CHECK-NEXT: vmov.16 q0[5], r12
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov.16 q0[6], r3
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmov.16 q0[7], r3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0		%s1 = getelementptr <2 x i16>, <2 x i16>* %src, i32 0
%l1 = load <2 x i16>, <2 x i16>* %s1, align 4		%l1 = load <2 x i16>, <2 x i16>* %s1, align 4
%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1		%s2 = getelementptr <2 x i16>, <2 x i16>* %src, i32 1
%l2 = load <2 x i16>, <2 x i16>* %s2, align 4		%l2 = load <2 x i16>, <2 x i16>* %s2, align 4
%s3 = getelementptr <2 x i16>, <2 x i16>* %src, i32 2		%s3 = getelementptr <2 x i16>, <2 x i16>* %src, i32 2
▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
; i8		; i8

define void @vst4_v2i8(<2 x i8> %src, <8 x i8> %dst) {		define void @vst4_v2i8(<2 x i8> %src, <8 x i8> %dst) {
; CHECK-LABEL: vst4_v2i8:		; CHECK-LABEL: vst4_v2i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, lr}		; CHECK-NEXT: .save {r4, lr}
; CHECK-NEXT: push {r4, lr}		; CHECK-NEXT: push {r4, lr}
; CHECK-NEXT: ldrb r2, [r0]		; CHECK-NEXT: ldrb r2, [r0]
; CHECK-NEXT: ldrb r3, [r0, #1]		; CHECK-NEXT: ldrb r3, [r0, #2]
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: ldrb.w r12, [r0, #2]		; CHECK-NEXT: ldrb.w r12, [r0, #1]
; CHECK-NEXT: vmov.32 q0[2], r3
; CHECK-NEXT: ldrb.w lr, [r0, #3]		; CHECK-NEXT: ldrb.w lr, [r0, #3]
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov.16 q0[1], r3
; CHECK-NEXT: ldrb r4, [r0, #5]		; CHECK-NEXT: ldrb r4, [r0, #5]
; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: ldrb r0, [r0, #4]		; CHECK-NEXT: ldrb r0, [r0, #4]
; CHECK-NEXT: vmov.16 q0[1], r12
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.16 q0[4], r3		; CHECK-NEXT: vmov.16 q0[4], r12
; CHECK-NEXT: vmov.16 q0[5], lr		; CHECK-NEXT: vmov.16 q0[5], lr
; CHECK-NEXT: vmov.16 q0[6], r4		; CHECK-NEXT: vmov.16 q0[6], r4
; CHECK-NEXT: vmov.16 q0[7], r4		; CHECK-NEXT: vmov.16 q0[7], r4
; CHECK-NEXT: vstrb.16 q0, [r1]		; CHECK-NEXT: vstrb.16 q0, [r1]
; CHECK-NEXT: pop {r4, pc}		; CHECK-NEXT: pop {r4, pc}
entry:		entry:
%s1 = getelementptr <2 x i8>, <2 x i8>* %src, i32 0		%s1 = getelementptr <2 x i8>, <2 x i8>* %src, i32 0
%l1 = load <2 x i8>, <2 x i8>* %s1, align 4		%l1 = load <2 x i8>, <2 x i8>* %s1, align 4
▲ Show 20 Lines • Show All 509 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

define void @vst4_v4f16(<4 x half> %src, <16 x half> %dst) {		define void @vst4_v4f16(<4 x half> %src, <16 x half> %dst) {
; CHECK-LABEL: vst4_v4f16:		; CHECK-LABEL: vst4_v4f16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
		; CHECK-NEXT: .pad #24
		; CHECK-NEXT: sub sp, #24
; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}		; CHECK-NEXT: ldm.w r0, {r2, r3, r12, lr}
; CHECK-NEXT: vmov.32 q0[0], r2		; CHECK-NEXT: vmov.32 q6[0], r2
; CHECK-NEXT: vmov.32 q0[1], r3		; CHECK-NEXT: vstrw.32 q6, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov.32 q0[2], r12		; CHECK-NEXT: vmov.32 q6[1], r3
; CHECK-NEXT: vmov.32 q0[3], lr		; CHECK-NEXT: vmov q1, q6
; CHECK-NEXT: vmov r3, s1		; CHECK-NEXT: vmov r3, s25
; CHECK-NEXT: vmovx.f16 s12, s1		; CHECK-NEXT: vmov.32 q1[2], r12
; CHECK-NEXT: vmov r2, s3		; CHECK-NEXT: vmov.16 q4[0], r3
; CHECK-NEXT: vmov.16 q2[0], r3		; CHECK-NEXT: vmov q5, q1
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: vmovx.f16 s24, s25
		; CHECK-NEXT: vmov.32 q5[3], lr
		; CHECK-NEXT: vmovx.f16 s4, s6
		; CHECK-NEXT: vmov r2, s23
		; CHECK-NEXT: vmovx.f16 s20, s23
		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: ldrd r2, r0, [r0, #16]		; CHECK-NEXT: ldrd r2, r0, [r0, #16]
; CHECK-NEXT: vmov.32 q1[0], r2		; CHECK-NEXT: vmov.32 q2[0], r2
; CHECK-NEXT: vmov.32 q1[1], r0		; CHECK-NEXT: vmov q7, q2
; CHECK-NEXT: vmov.32 q1[2], r2		; CHECK-NEXT: vmov.32 q7[1], r0
; CHECK-NEXT: vmov r2, s0		; CHECK-NEXT: vmov q0, q7
; CHECK-NEXT: vmov.32 q1[3], r0		; CHECK-NEXT: vmov r3, s29
; CHECK-NEXT: vmov r0, s5		; CHECK-NEXT: vmov.32 q0[2], r2
; CHECK-NEXT: vmov.16 q2[2], r0		; CHECK-NEXT: vmov.16 q4[2], r3
; CHECK-NEXT: vmov r0, s7		; CHECK-NEXT: vmov q3, q0
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmovx.f16 s0, s2
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vmovx.f16 s12, s3		; CHECK-NEXT: vmov r0, s15
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmovx.f16 s12, s15
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmovx.f16 s12, s5		; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmovx.f16 s12, s7		; CHECK-NEXT: vmovx.f16 s20, s29
; CHECK-NEXT: vmov.16 q2[6], r0		; CHECK-NEXT: vmov.16 q4[5], r0
		; CHECK-NEXT: vmov r0, s20
		; CHECK-NEXT: vmov.16 q4[6], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmovx.f16 s12, s0		; CHECK-NEXT: vldrw.u32 q3, [sp] @ 16-byte Reload
; CHECK-NEXT: vmov.16 q2[7], r0		; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vstrw.32 q4, [r1, #16]
; CHECK-NEXT: vstrw.32 q2, [r1, #16]
; CHECK-NEXT: vmov.16 q2[0], r2
; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov.16 q2[2], r0
; CHECK-NEXT: vmov r0, s6		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov r2, s12
		; CHECK-NEXT: vmovx.f16 s12, s12
		; CHECK-NEXT: vmov.16 q4[0], r2
		; CHECK-NEXT: vmov.16 q4[1], r0
		; CHECK-NEXT: vmov r0, s8
		; CHECK-NEXT: vmov.16 q4[2], r0
		; CHECK-NEXT: vmov r0, s2
		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov r0, s12		; CHECK-NEXT: vmov r0, s12
; CHECK-NEXT: vmovx.f16 s0, s2		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmovx.f16 s4, s8
; CHECK-NEXT: vmovx.f16 s0, s4		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.16 q2[5], r0		; CHECK-NEXT: vmov r0, s4
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov.16 q4[6], r0
; CHECK-NEXT: vmovx.f16 s0, s6
; CHECK-NEXT: vmov.16 q2[6], r0
; CHECK-NEXT: vmov r0, s0		; CHECK-NEXT: vmov r0, s0
; CHECK-NEXT: vmov.16 q2[7], r0		; CHECK-NEXT: vmov.16 q4[7], r0
; CHECK-NEXT: vstrw.32 q2, [r1]		; CHECK-NEXT: vstrw.32 q4, [r1]
		; CHECK-NEXT: add sp, #24
		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0		%s1 = getelementptr <4 x half>, <4 x half>* %src, i32 0
%l1 = load <4 x half>, <4 x half>* %s1, align 4		%l1 = load <4 x half>, <4 x half>* %s1, align 4
%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1		%s2 = getelementptr <4 x half>, <4 x half>* %src, i32 1
%l2 = load <4 x half>, <4 x half>* %s2, align 4		%l2 = load <4 x half>, <4 x half>* %s2, align 4
%s3 = getelementptr <4 x half>, <4 x half>* %src, i32 2		%s3 = getelementptr <4 x half>, <4 x half>* %src, i32 2
%l3 = load <4 x half>, <4 x half>* %s3, align 4		%l3 = load <4 x half>, <4 x half>* %s3, align 4
▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-zext-masked-load.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	entry:
%wide.masked.load = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %pSrc, i32 1, <4 x i1> %active.lane.mask, <4 x i8> undef)		%wide.masked.load = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %pSrc, i32 1, <4 x i1> %active.lane.mask, <4 x i8> undef)
%0 = uitofp <4 x i8> %wide.masked.load to <4 x float>		%0 = uitofp <4 x i8> %wide.masked.load to <4 x float>
ret <4 x float> %0		ret <4 x float> %0
}		}

define arm_aapcs_vfpcc <4 x double> @foo_v4i32(<4 x i32>* nocapture readonly %pSrc, i32 %blockSize, <4 x i32> %a) {		define arm_aapcs_vfpcc <4 x double> @foo_v4i32(<4 x i32>* nocapture readonly %pSrc, i32 %blockSize, <4 x i32> %a) {
; CHECK-LABEL: foo_v4i32:		; CHECK-LABEL: foo_v4i32:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, r7, lr}		; CHECK-NEXT: .save {r4, r5, r6, lr}
; CHECK-NEXT: push {r4, r5, r6, r7, lr}		; CHECK-NEXT: push {r4, r5, r6, lr}
; CHECK-NEXT: .pad #4		; CHECK-NEXT: .vsave {d8, d9, d10, d11}
; CHECK-NEXT: sub sp, #4		; CHECK-NEXT: vpush {d8, d9, d10, d11}
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vpt.s32 lt, q0, zr		; CHECK-NEXT: vpt.s32 lt, q0, zr
; CHECK-NEXT: vldrwt.u32 q4, [r0]		; CHECK-NEXT: vldrwt.u32 q4, [r0]
; CHECK-NEXT: vmov.f64 d0, d8		; CHECK-NEXT: vmov.f64 d10, d9
; CHECK-NEXT: vmov.i64 q5, #0xffffffff		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: vmov.f32 s2, s17		; CHECK-NEXT: vmov.f32 s22, s19
; CHECK-NEXT: vand q6, q0, q5		; CHECK-NEXT: vmov r0, s20
; CHECK-NEXT: vmov r0, s24
; CHECK-NEXT: vmov r1, s25
; CHECK-NEXT: bl __aeabi_ul2d		; CHECK-NEXT: bl __aeabi_ul2d
; CHECK-NEXT: mov r4, r0		; CHECK-NEXT: mov r4, r0
		; CHECK-NEXT: vmov r0, s22
; CHECK-NEXT: mov r5, r1		; CHECK-NEXT: mov r5, r1
; CHECK-NEXT: vmov r0, s26		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: vmov r1, s27
; CHECK-NEXT: bl __aeabi_ul2d		; CHECK-NEXT: bl __aeabi_ul2d
; CHECK-NEXT: vmov.f64 d0, d9		; CHECK-NEXT: vmov.f32 s18, s17
; CHECK-NEXT: vmov.f32 s2, s19		; CHECK-NEXT: vmov r6, s16
; CHECK-NEXT: vand q0, q0, q5		; CHECK-NEXT: vmov r2, s18
; CHECK-NEXT: vmov d9, r0, r1		; CHECK-NEXT: vmov d9, r0, r1
; CHECK-NEXT: vmov r2, s2		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: vmov r3, s3
; CHECK-NEXT: vmov r6, s0
; CHECK-NEXT: vmov r7, s1
; CHECK-NEXT: vmov d8, r4, r5		; CHECK-NEXT: vmov d8, r4, r5
; CHECK-NEXT: mov r0, r2		; CHECK-NEXT: mov r0, r2
; CHECK-NEXT: mov r1, r3
; CHECK-NEXT: bl __aeabi_ul2d		; CHECK-NEXT: bl __aeabi_ul2d
; CHECK-NEXT: vmov d11, r0, r1		; CHECK-NEXT: vmov d11, r0, r1
; CHECK-NEXT: mov r0, r6		; CHECK-NEXT: mov r0, r6
; CHECK-NEXT: mov r1, r7		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: bl __aeabi_ul2d		; CHECK-NEXT: bl __aeabi_ul2d
; CHECK-NEXT: vmov d10, r0, r1		; CHECK-NEXT: vmov d10, r0, r1
; CHECK-NEXT: vmov q0, q4		; CHECK-NEXT: vmov q1, q4
; CHECK-NEXT: vmov q1, q5		; CHECK-NEXT: vmov q0, q5
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}		; CHECK-NEXT: vpop {d8, d9, d10, d11}
; CHECK-NEXT: add sp, #4		; CHECK-NEXT: pop {r4, r5, r6, pc}
; CHECK-NEXT: pop {r4, r5, r6, r7, pc}
entry:		entry:
%active.lane.mask = icmp slt <4 x i32> %a, zeroinitializer		%active.lane.mask = icmp slt <4 x i32> %a, zeroinitializer
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %pSrc, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %pSrc, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
%0 = uitofp <4 x i32> %wide.masked.load to <4 x double>		%0 = uitofp <4 x i32> %wide.masked.load to <4 x double>
ret <4 x double> %0		ret <4 x double> %0
}		}

declare <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>*, i32 immarg, <4 x i1>, <4 x i16>)		declare <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>*, i32 immarg, <4 x i1>, <4 x i16>)

declare <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>*, i32 immarg, <8 x i1>, <8 x i8>)		declare <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>*, i32 immarg, <8 x i1>, <8 x i8>)

declare <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>*, i32 immarg, <4 x i1>, <4 x i8>)		declare <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>*, i32 immarg, <4 x i1>, <4 x i8>)

declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)

llvm/test/CodeGen/X86/2011-10-19-widen_vselect.ll

Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	entry:
%1 = select <2 x i1> %0, <2 x float> %a, <2 x float> %b		%1 = select <2 x i1> %0, <2 x float> %a, <2 x float> %b
store <2 x float> %1, <2 x float>* undef		store <2 x float> %1, <2 x float>* undef
ret void		ret void
}		}

define void @zero_test() {		define void @zero_test() {
; X32-LABEL: zero_test:		; X32-LABEL: zero_test:
; X32: # %bb.0: # %entry		; X32: # %bb.0: # %entry
; X32-NEXT: xorps %xmm0, %xmm0		; X32-NEXT: movl $0, (%eax)
; X32-NEXT: movlps %xmm0, (%eax)
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: zero_test:		; X64-LABEL: zero_test:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: xorps %xmm0, %xmm0		; X64-NEXT: movq $0, (%rax)
; X64-NEXT: movlps %xmm0, (%rax)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = select <2 x i1> undef, <2 x float> undef, <2 x float> zeroinitializer		%0 = select <2 x i1> undef, <2 x float> undef, <2 x float> zeroinitializer
store <2 x float> %0, <2 x float>* undef		store <2 x float> %0, <2 x float>* undef
ret void		ret void
}		}

define void @full_test() {		define void @full_test() {
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/2012-07-10-extload64.ll

Show All 23 Lines	entry:
ret void		ret void
}		}

; Make sure that we store a 64bit value, even on 32bit systems.		; Make sure that we store a 64bit value, even on 32bit systems.
define void @store_64(<2 x i32>* %ptr) {		define void @store_64(<2 x i32>* %ptr) {
; X86-LABEL: store_64:		; X86-LABEL: store_64:
; X86: # %bb.0: # %BB		; X86: # %bb.0: # %BB
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: xorps %xmm0, %xmm0		; X86-NEXT: movl $0, 4(%eax)
; X86-NEXT: movlps %xmm0, (%eax)		; X86-NEXT: movl $0, (%eax)
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: store_64:		; X64-LABEL: store_64:
; X64: # %bb.0: # %BB		; X64: # %bb.0: # %BB
; X64-NEXT: movq $0, (%rcx)		; X64-NEXT: movq $0, (%rcx)
; X64-NEXT: retq		; X64-NEXT: retq
BB:		BB:
store <2 x i32> zeroinitializer, <2 x i32>* %ptr		store <2 x i32> zeroinitializer, <2 x i32>* %ptr
Show All 18 Lines

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

	Show First 20 Lines • Show All 507 Lines • ▼ Show 20 Lines
	; SSE2-SSSE3-NEXT: pmovmskb %xmm1, %ecx			; SSE2-SSSE3-NEXT: pmovmskb %xmm1, %ecx
	; SSE2-SSSE3-NEXT: shll $16, %ecx			; SSE2-SSSE3-NEXT: shll $16, %ecx
	; SSE2-SSSE3-NEXT: orl %eax, %ecx			; SSE2-SSSE3-NEXT: orl %eax, %ecx
	; SSE2-SSSE3-NEXT: pmovmskb %xmm2, %eax			; SSE2-SSSE3-NEXT: pmovmskb %xmm2, %eax
	; SSE2-SSSE3-NEXT: pmovmskb %xmm3, %edx			; SSE2-SSSE3-NEXT: pmovmskb %xmm3, %edx
	; SSE2-SSSE3-NEXT: shll $16, %edx			; SSE2-SSSE3-NEXT: shll $16, %edx
	; SSE2-SSSE3-NEXT: orl %eax, %edx			; SSE2-SSSE3-NEXT: orl %eax, %edx
	; SSE2-SSSE3-NEXT: shlq $32, %rdx			; SSE2-SSSE3-NEXT: shlq $32, %rdx
	; SSE2-SSSE3-NEXT: orq %rcx, %rdx
	; SSE2-SSSE3-NEXT: movq %rdx, %xmm0			; SSE2-SSSE3-NEXT: movq %rdx, %xmm0
	; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]			; SSE2-SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; SSE2-SSSE3-NEXT: movd %xmm0, %eax			; SSE2-SSSE3-NEXT: movd %xmm0, %eax
	; SSE2-SSSE3-NEXT: addl %ecx, %eax			; SSE2-SSSE3-NEXT: addl %ecx, %eax
	; SSE2-SSSE3-NEXT: retq			; SSE2-SSSE3-NEXT: retq
	;			;
	; AVX1-LABEL: bitcast_v64i8_to_v2i32:			; AVX1-LABEL: bitcast_v64i8_to_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/buildvec-insertvec.ll

Show First 20 Lines • Show All 767 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
ret void		ret void
}		}

; OSS-Fuzz #5688		; OSS-Fuzz #5688
; https://bugs.chromium.org/p/oss-fuzz/issues/detail?id=5688		; https://bugs.chromium.org/p/oss-fuzz/issues/detail?id=5688
define <4 x i32> @ossfuzz5688(i32 %a0) {		define <4 x i32> @ossfuzz5688(i32 %a0) {
; CHECK-LABEL: ossfuzz5688:		; CHECK-LABEL: ossfuzz5688:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
		; CHECK-NEXT: movl $0, (%rax)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%1 = insertelement <4 x i32> zeroinitializer, i32 -2147483648, i32 %a0		%1 = insertelement <4 x i32> zeroinitializer, i32 -2147483648, i32 %a0
%2 = extractelement <4 x i32> %1, i32 %a0		%2 = extractelement <4 x i32> %1, i32 %a0
%3 = extractelement <4 x i32> <i32 30, i32 53, i32 42, i32 12>, i32 %2		%3 = extractelement <4 x i32> <i32 30, i32 53, i32 42, i32 12>, i32 %2
%4 = extractelement <4 x i32> zeroinitializer, i32 %2		%4 = extractelement <4 x i32> zeroinitializer, i32 %2
%5 = insertelement <4 x i32> undef, i32 %3, i32 undef		%5 = insertelement <4 x i32> undef, i32 %3, i32 undef
store i32 %4, i32* undef		store i32 %4, i32* undef
		RKSimonUnsubmitted Not Done Reply Inline Actions this should simplify to "store i32 undef, store i32* undef" and be removed - can you check why it isn't please? RKSimon: this should simplify to "store i32 undef, store i32* undef" and be removed - can you check why…
		foadAuthorUnsubmitted Done Reply Inline Actions The value being stored is not undef, it's either -2147483648 or poison, depending on the value of %a0. Anyway -simplifycfg would change the store into a trap + unreachable, but nothing in llc's codegen pipeline does that. foad: The value being stored is not undef, it's either -2147483648 or poison, depending on the value…
		foadAuthorUnsubmitted Done Reply Inline Actions I've looked into this more carefully now. Hopefully this answer makes more sense. With my patch `%4 = extractelement <4 x i32> zeroinitializer, i32 %2` is simplified into `i32 0` based on the known bits of all elements. This happens before we simplify %2, because of the weird way that the DAG combiner runs top-down. When we visit %2 we simplify it to -2147483648. After that, if we visited the original %4 again, we would simplify it to undef; but with my patch we have already simplified %4 to 0 so it's too late. I'm not sure what to do about this -- other than change DAGCombine to run bottom-up ;-) foad: I've looked into this more carefully now. Hopefully this answer makes more sense. With my…
		RKSimonUnsubmitted Not Done Reply Inline Actions Do we need to tweak the out-of-range handling to ISD::EXTRACT_VECTOR_ELT indices? Either just for constant indices or we use computeKnownBits to work out if the minimum value always the exceeds the vector element count? RKSimon: Do we need to tweak the out-of-range handling to ISD::EXTRACT_VECTOR_ELT indices? Either just…
ret <4 x i32> %5		ret <4 x i32> %5
}		}

; If we do not define all bytes that are extracted, this is a miscompile.		; If we do not define all bytes that are extracted, this is a miscompile.

define i32 @PR46586(i8* %p, <4 x i32> %v) {		define i32 @PR46586(i8* %p, <4 x i32> %v) {
; SSE2-LABEL: PR46586:		; SSE2-LABEL: PR46586:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fold-load-vec.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=corei7 -mattr=+sse4.1 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mcpu=corei7 -mattr=+sse4.1 \| FileCheck %s

	; rdar://12721174			; rdar://12721174
	; We should not fold movss into pshufd since pshufd expects m128 while movss			; We should not fold movss into pshufd since pshufd expects m128 while movss
	; loads from m32.			; loads from m32.
	define void @sample_test(<4 x float>* %source, <2 x float>* %dest) nounwind {			define void @sample_test(<4 x float>* %source, <2 x float>* %dest) nounwind {
	; CHECK-LABEL: sample_test:			; CHECK-LABEL: sample_test:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: subq $24, %rsp			; CHECK-NEXT: subq $24, %rsp
	; CHECK-NEXT: movq %rdi, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rdi, {{[0-9]+}}(%rsp)
	; CHECK-NEXT: movq %rsi, {{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rsi, {{[0-9]+}}(%rsp)
				; CHECK-NEXT: movq $0, (%rsp)
	; CHECK-NEXT: xorps %xmm0, %xmm0			; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: movlps %xmm0, (%rsp)
	; CHECK-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movlps %xmm0, (%rsp)			; CHECK-NEXT: movlps %xmm0, (%rsp)
	; CHECK-NEXT: movlps %xmm0, (%rsi)			; CHECK-NEXT: movlps %xmm0, (%rsi)
	; CHECK-NEXT: movq {{[0-9]+}}(%rsp), %rax			; CHECK-NEXT: movq {{[0-9]+}}(%rsp), %rax
	; CHECK-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; CHECK-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; CHECK-NEXT: callq ext			; CHECK-NEXT: callq ext
	; CHECK-NEXT: addq $24, %rsp			; CHECK-NEXT: addq $24, %rsp
	Show All 31 Lines

llvm/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 2,048 Lines • ▼ Show 20 Lines
	}			}

	; Do not select if constant is too large			; Do not select if constant is too large
	define <4 x i32> @pmaddwd_negative2(<8 x i16> %A) {			define <4 x i32> @pmaddwd_negative2(<8 x i16> %A) {
	; SSE2-LABEL: pmaddwd_negative2:			; SSE2-LABEL: pmaddwd_negative2:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
	; SSE2-NEXT: psrad $16, %xmm1			; SSE2-NEXT: psrad $16, %xmm1
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: psrad $16, %xmm0			; SSE2-NEXT: psrad $16, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,7,42,32]			; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,7,42,32]
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; SSE2-NEXT: pmuludq %xmm2, %xmm4			; SSE2-NEXT: pmuludq %xmm0, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE2-NEXT: movdqa {{.*#+}} xmm5 = [32768,4294934528,0,0]			; SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm4[0,2]
	; SSE2-NEXT: pmuludq %xmm2, %xmm6			; SSE2-NEXT: pmuludq %xmm3, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm4[0,2]			; SSE2-NEXT: pmuludq {{.*}}(%rip), %xmm1
	; SSE2-NEXT: pmuludq %xmm3, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
	; SSE2-NEXT: pmuludq %xmm5, %xmm1			; SSE2-NEXT: movaps {{.*#+}} xmm2 = [4294967295,0,4294967295,4294967295]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[0,2]			; SSE2-NEXT: andps %xmm2, %xmm1
	; SSE2-NEXT: paddd %xmm6, %xmm1			; SSE2-NEXT: andps %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: pmaddwd_negative2:			; AVX1-LABEL: pmaddwd_negative2:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1			; AVX1-NEXT: vpmovsxwd %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0			; AVX1-NEXT: vpmovsxwd %xmm0, %xmm0
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 968 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/nontemporal-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4a \| FileCheck %s --check-prefixes=SSE,SSE4A			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4a \| FileCheck %s --check-prefixes=SSE,SSE4A
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512DQ			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512DQ
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512BW
				RKSimonUnsubmitted Not Done Reply Inline Actions Please can you add a common CHECK prefix: ; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s --check-prefixes=CHECK,SSE ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4a \| FileCheck %s --check-prefixes=CHECK,SSE ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=CHECK,SSE ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=CHECK,AVX ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=CHECK,AVX ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq,+avx512vl \| FileCheck %s --check-prefixes=CHECK,AVX512 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=CHECK,AVX512 RKSimon: Please can you add a common CHECK prefix: ``` ; RUN: llc < %s -mtriple=x86_64-unknown-unknown \|…

	; Test codegen for under aligned nontemporal vector stores			; Test codegen for under aligned nontemporal vector stores

	; XMM versions.			; XMM versions.

	define void @test_zero_v2f64_align1(<2 x double>* %dst) nounwind {			define void @test_zero_v2f64_align1(<2 x double>* %dst) nounwind {
	; SSE-LABEL: test_zero_v2f64_align1:			; SSE-LABEL: test_zero_v2f64_align1:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: movntiq %rax, 24(%rdi)			; AVX512-NEXT: movntiq %rax, 24(%rdi)
	; AVX512-NEXT: movntiq %rax, 16(%rdi)			; AVX512-NEXT: movntiq %rax, 16(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <4 x double> zeroinitializer, <4 x double>* %dst, align 1, !nontemporal !1			store <4 x double> zeroinitializer, <4 x double>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v8f32_align1(<8 x float>* %dst) nounwind {			define void @test_zero_v8f32_align1(<8 x float>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v8f32_align1:			; SSE-LABEL: test_zero_v8f32_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v8f32_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorl %eax, %eax
	; SSE4A-NEXT: movntiq %rax, 8(%rdi)
	; SSE4A-NEXT: movntiq %rax, 24(%rdi)
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v8f32_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v8f32_align1:			; AVX-LABEL: test_zero_v8f32_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_zero_v8f32_align1:			; AVX512-LABEL: test_zero_v8f32_align1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: xorl %eax, %eax			; AVX512-NEXT: xorl %eax, %eax
	; AVX512-NEXT: movntiq %rax, 8(%rdi)			; AVX512-NEXT: movntiq %rax, 8(%rdi)
	; AVX512-NEXT: movntiq %rax, (%rdi)			; AVX512-NEXT: movntiq %rax, (%rdi)
	; AVX512-NEXT: movntiq %rax, 24(%rdi)			; AVX512-NEXT: movntiq %rax, 24(%rdi)
	; AVX512-NEXT: movntiq %rax, 16(%rdi)			; AVX512-NEXT: movntiq %rax, 16(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <8 x float> zeroinitializer, <8 x float>* %dst, align 1, !nontemporal !1			store <8 x float> zeroinitializer, <8 x float>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v4i64_align1(<4 x i64>* %dst) nounwind {			define void @test_zero_v4i64_align1(<4 x i64>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v4i64_align1:			; SSE-LABEL: test_zero_v4i64_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v4i64_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v4i64_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v4i64_align1:			; AVX-LABEL: test_zero_v4i64_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_zero_v4i64_align1:			; AVX512-LABEL: test_zero_v4i64_align1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: xorl %eax, %eax			; AVX512-NEXT: xorl %eax, %eax
	; AVX512-NEXT: movntiq %rax, 8(%rdi)			; AVX512-NEXT: movntiq %rax, 8(%rdi)
	; AVX512-NEXT: movntiq %rax, (%rdi)			; AVX512-NEXT: movntiq %rax, (%rdi)
	; AVX512-NEXT: movntiq %rax, 24(%rdi)			; AVX512-NEXT: movntiq %rax, 24(%rdi)
	; AVX512-NEXT: movntiq %rax, 16(%rdi)			; AVX512-NEXT: movntiq %rax, 16(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <4 x i64> zeroinitializer, <4 x i64>* %dst, align 1, !nontemporal !1			store <4 x i64> zeroinitializer, <4 x i64>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v8i32_align1(<8 x i32>* %dst) nounwind {			define void @test_zero_v8i32_align1(<8 x i32>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v8i32_align1:			; SSE-LABEL: test_zero_v8i32_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v8i32_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v8i32_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v8i32_align1:			; AVX-LABEL: test_zero_v8i32_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_zero_v8i32_align1:			; AVX512-LABEL: test_zero_v8i32_align1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: xorl %eax, %eax			; AVX512-NEXT: xorl %eax, %eax
	; AVX512-NEXT: movntiq %rax, 8(%rdi)			; AVX512-NEXT: movntiq %rax, 8(%rdi)
	; AVX512-NEXT: movntiq %rax, (%rdi)			; AVX512-NEXT: movntiq %rax, (%rdi)
	; AVX512-NEXT: movntiq %rax, 24(%rdi)			; AVX512-NEXT: movntiq %rax, 24(%rdi)
	; AVX512-NEXT: movntiq %rax, 16(%rdi)			; AVX512-NEXT: movntiq %rax, 16(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <8 x i32> zeroinitializer, <8 x i32>* %dst, align 1, !nontemporal !1			store <8 x i32> zeroinitializer, <8 x i32>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v16i16_align1(<16 x i16>* %dst) nounwind {			define void @test_zero_v16i16_align1(<16 x i16>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v16i16_align1:			; SSE-LABEL: test_zero_v16i16_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v16i16_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v16i16_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v16i16_align1:			; AVX-LABEL: test_zero_v16i16_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_zero_v16i16_align1:			; AVX512-LABEL: test_zero_v16i16_align1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: xorl %eax, %eax			; AVX512-NEXT: xorl %eax, %eax
	; AVX512-NEXT: movntiq %rax, 8(%rdi)			; AVX512-NEXT: movntiq %rax, 8(%rdi)
	; AVX512-NEXT: movntiq %rax, (%rdi)			; AVX512-NEXT: movntiq %rax, (%rdi)
	; AVX512-NEXT: movntiq %rax, 24(%rdi)			; AVX512-NEXT: movntiq %rax, 24(%rdi)
	; AVX512-NEXT: movntiq %rax, 16(%rdi)			; AVX512-NEXT: movntiq %rax, 16(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <16 x i16> zeroinitializer, <16 x i16>* %dst, align 1, !nontemporal !1			store <16 x i16> zeroinitializer, <16 x i16>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v32i8_align1(<32 x i8>* %dst) nounwind {			define void @test_zero_v32i8_align1(<32 x i8>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v32i8_align1:			; SSE-LABEL: test_zero_v32i8_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v32i8_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v32i8_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v32i8_align1:			; AVX-LABEL: test_zero_v32i8_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: movntiq %rax, 40(%rdi)			; AVX512-NEXT: movntiq %rax, 40(%rdi)
	; AVX512-NEXT: movntiq %rax, 32(%rdi)			; AVX512-NEXT: movntiq %rax, 32(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <8 x double> zeroinitializer, <8 x double>* %dst, align 1, !nontemporal !1			store <8 x double> zeroinitializer, <8 x double>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v16f32_align1(<16 x float>* %dst) nounwind {			define void @test_zero_v16f32_align1(<16 x float>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v16f32_align1:			; SSE-LABEL: test_zero_v16f32_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 56(%rdi)			; SSE-NEXT: movntiq %rax, 56(%rdi)
	; SSE2-NEXT: movntiq %rax, 48(%rdi)			; SSE-NEXT: movntiq %rax, 48(%rdi)
	; SSE2-NEXT: movntiq %rax, 40(%rdi)			; SSE-NEXT: movntiq %rax, 40(%rdi)
	; SSE2-NEXT: movntiq %rax, 32(%rdi)			; SSE-NEXT: movntiq %rax, 32(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v16f32_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorl %eax, %eax
	; SSE4A-NEXT: movntiq %rax, 24(%rdi)
	; SSE4A-NEXT: movntiq %rax, 8(%rdi)
	; SSE4A-NEXT: movntiq %rax, 56(%rdi)
	; SSE4A-NEXT: movntiq %rax, 40(%rdi)
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 48(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 32(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v16f32_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 56(%rdi)
	; SSE41-NEXT: movntiq %rax, 48(%rdi)
	; SSE41-NEXT: movntiq %rax, 40(%rdi)
	; SSE41-NEXT: movntiq %rax, 32(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v16f32_align1:			; AVX-LABEL: test_zero_v16f32_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	Show All 15 Lines
	; AVX512-NEXT: movntiq %rax, 40(%rdi)			; AVX512-NEXT: movntiq %rax, 40(%rdi)
	; AVX512-NEXT: movntiq %rax, 32(%rdi)			; AVX512-NEXT: movntiq %rax, 32(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <16 x float> zeroinitializer, <16 x float>* %dst, align 1, !nontemporal !1			store <16 x float> zeroinitializer, <16 x float>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v8i64_align1(<8 x i64>* %dst) nounwind {			define void @test_zero_v8i64_align1(<8 x i64>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v8i64_align1:			; SSE-LABEL: test_zero_v8i64_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 56(%rdi)			; SSE-NEXT: movntiq %rax, 56(%rdi)
	; SSE2-NEXT: movntiq %rax, 48(%rdi)			; SSE-NEXT: movntiq %rax, 48(%rdi)
	; SSE2-NEXT: movntiq %rax, 40(%rdi)			; SSE-NEXT: movntiq %rax, 40(%rdi)
	; SSE2-NEXT: movntiq %rax, 32(%rdi)			; SSE-NEXT: movntiq %rax, 32(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v8i64_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 56(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 48(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 40(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 32(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v8i64_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 56(%rdi)
	; SSE41-NEXT: movntiq %rax, 48(%rdi)
	; SSE41-NEXT: movntiq %rax, 40(%rdi)
	; SSE41-NEXT: movntiq %rax, 32(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v8i64_align1:			; AVX-LABEL: test_zero_v8i64_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	Show All 15 Lines
	; AVX512-NEXT: movntiq %rax, 40(%rdi)			; AVX512-NEXT: movntiq %rax, 40(%rdi)
	; AVX512-NEXT: movntiq %rax, 32(%rdi)			; AVX512-NEXT: movntiq %rax, 32(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <8 x i64> zeroinitializer, <8 x i64>* %dst, align 1, !nontemporal !1			store <8 x i64> zeroinitializer, <8 x i64>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v16i32_align1(<16 x i32>* %dst) nounwind {			define void @test_zero_v16i32_align1(<16 x i32>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v16i32_align1:			; SSE-LABEL: test_zero_v16i32_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 56(%rdi)			; SSE-NEXT: movntiq %rax, 56(%rdi)
	; SSE2-NEXT: movntiq %rax, 48(%rdi)			; SSE-NEXT: movntiq %rax, 48(%rdi)
	; SSE2-NEXT: movntiq %rax, 40(%rdi)			; SSE-NEXT: movntiq %rax, 40(%rdi)
	; SSE2-NEXT: movntiq %rax, 32(%rdi)			; SSE-NEXT: movntiq %rax, 32(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v16i32_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 56(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 48(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 40(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 32(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v16i32_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 56(%rdi)
	; SSE41-NEXT: movntiq %rax, 48(%rdi)
	; SSE41-NEXT: movntiq %rax, 40(%rdi)
	; SSE41-NEXT: movntiq %rax, 32(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v16i32_align1:			; AVX-LABEL: test_zero_v16i32_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	Show All 15 Lines
	; AVX512-NEXT: movntiq %rax, 40(%rdi)			; AVX512-NEXT: movntiq %rax, 40(%rdi)
	; AVX512-NEXT: movntiq %rax, 32(%rdi)			; AVX512-NEXT: movntiq %rax, 32(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <16 x i32> zeroinitializer, <16 x i32>* %dst, align 1, !nontemporal !1			store <16 x i32> zeroinitializer, <16 x i32>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v32i16_align1(<32 x i16>* %dst) nounwind {			define void @test_zero_v32i16_align1(<32 x i16>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v32i16_align1:			; SSE-LABEL: test_zero_v32i16_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 56(%rdi)			; SSE-NEXT: movntiq %rax, 56(%rdi)
	; SSE2-NEXT: movntiq %rax, 48(%rdi)			; SSE-NEXT: movntiq %rax, 48(%rdi)
	; SSE2-NEXT: movntiq %rax, 40(%rdi)			; SSE-NEXT: movntiq %rax, 40(%rdi)
	; SSE2-NEXT: movntiq %rax, 32(%rdi)			; SSE-NEXT: movntiq %rax, 32(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v32i16_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 56(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 48(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 40(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 32(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v32i16_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 56(%rdi)
	; SSE41-NEXT: movntiq %rax, 48(%rdi)
	; SSE41-NEXT: movntiq %rax, 40(%rdi)
	; SSE41-NEXT: movntiq %rax, 32(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v32i16_align1:			; AVX-LABEL: test_zero_v32i16_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	Show All 15 Lines
	; AVX512-NEXT: movntiq %rax, 40(%rdi)			; AVX512-NEXT: movntiq %rax, 40(%rdi)
	; AVX512-NEXT: movntiq %rax, 32(%rdi)			; AVX512-NEXT: movntiq %rax, 32(%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	store <32 x i16> zeroinitializer, <32 x i16>* %dst, align 1, !nontemporal !1			store <32 x i16> zeroinitializer, <32 x i16>* %dst, align 1, !nontemporal !1
	ret void			ret void
	}			}

	define void @test_zero_v64i8_align1(<64 x i8>* %dst) nounwind {			define void @test_zero_v64i8_align1(<64 x i8>* %dst) nounwind {
	; SSE2-LABEL: test_zero_v64i8_align1:			; SSE-LABEL: test_zero_v64i8_align1:
	; SSE2: # %bb.0:			; SSE: # %bb.0:
	; SSE2-NEXT: xorl %eax, %eax			; SSE-NEXT: xorl %eax, %eax
	; SSE2-NEXT: movntiq %rax, 24(%rdi)			; SSE-NEXT: movntiq %rax, 24(%rdi)
	; SSE2-NEXT: movntiq %rax, 16(%rdi)			; SSE-NEXT: movntiq %rax, 16(%rdi)
	; SSE2-NEXT: movntiq %rax, 8(%rdi)			; SSE-NEXT: movntiq %rax, 8(%rdi)
	; SSE2-NEXT: movntiq %rax, (%rdi)			; SSE-NEXT: movntiq %rax, (%rdi)
	; SSE2-NEXT: movntiq %rax, 56(%rdi)			; SSE-NEXT: movntiq %rax, 56(%rdi)
	; SSE2-NEXT: movntiq %rax, 48(%rdi)			; SSE-NEXT: movntiq %rax, 48(%rdi)
	; SSE2-NEXT: movntiq %rax, 40(%rdi)			; SSE-NEXT: movntiq %rax, 40(%rdi)
	; SSE2-NEXT: movntiq %rax, 32(%rdi)			; SSE-NEXT: movntiq %rax, 32(%rdi)
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSE4A-LABEL: test_zero_v64i8_align1:
	; SSE4A: # %bb.0:
	; SSE4A-NEXT: xorps %xmm0, %xmm0
	; SSE4A-NEXT: movntsd %xmm0, 24(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 16(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 8(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, (%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 56(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 48(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 40(%rdi)
	; SSE4A-NEXT: movntsd %xmm0, 32(%rdi)
	; SSE4A-NEXT: retq
	;
	; SSE41-LABEL: test_zero_v64i8_align1:
	; SSE41: # %bb.0:
	; SSE41-NEXT: xorl %eax, %eax
	; SSE41-NEXT: movntiq %rax, 24(%rdi)
	; SSE41-NEXT: movntiq %rax, 16(%rdi)
	; SSE41-NEXT: movntiq %rax, 8(%rdi)
	; SSE41-NEXT: movntiq %rax, (%rdi)
	; SSE41-NEXT: movntiq %rax, 56(%rdi)
	; SSE41-NEXT: movntiq %rax, 48(%rdi)
	; SSE41-NEXT: movntiq %rax, 40(%rdi)
	; SSE41-NEXT: movntiq %rax, 32(%rdi)
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_zero_v64i8_align1:			; AVX-LABEL: test_zero_v64i8_align1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: xorl %eax, %eax			; AVX-NEXT: xorl %eax, %eax
	; AVX-NEXT: movntiq %rax, 24(%rdi)			; AVX-NEXT: movntiq %rax, 24(%rdi)
	; AVX-NEXT: movntiq %rax, 16(%rdi)			; AVX-NEXT: movntiq %rax, 16(%rdi)
	; AVX-NEXT: movntiq %rax, 8(%rdi)			; AVX-NEXT: movntiq %rax, 8(%rdi)
	; AVX-NEXT: movntiq %rax, (%rdi)			; AVX-NEXT: movntiq %rax, (%rdi)
	▲ Show 20 Lines • Show All 383 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr41619.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx2 \| FileCheck %s --check-prefixes=CHECK,AVX			; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx2 \| FileCheck %s --check-prefixes=CHECK,AVX
	; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx512bw \| FileCheck %s --check-prefixes=CHECK,AVX512			; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx512bw \| FileCheck %s --check-prefixes=CHECK,AVX512

	define void @foo(double %arg) {			define void @foo(double %arg) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: ## %bb.0: ## %bb			; CHECK: ## %bb.0: ## %bb
	; CHECK-NEXT: vmovq %xmm0, %rax			; CHECK-NEXT: vmovq %xmm0, %rax
	; CHECK-NEXT: vmovd %eax, %xmm0			; CHECK-NEXT: vmovd %eax, %xmm0
	; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vmovq %xmm0, %rax			; CHECK-NEXT: vmovq %xmm0, %rax
	; CHECK-NEXT: movl %eax, (%rax)			; CHECK-NEXT: movl %eax, (%rax)
	; CHECK-NEXT: vmovlps %xmm1, (%rax)			; CHECK-NEXT: movq $0, (%rax)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	%tmp = bitcast double %arg to i64			%tmp = bitcast double %arg to i64
	%tmp1 = trunc i64 %tmp to i32			%tmp1 = trunc i64 %tmp to i32
	%tmp2 = bitcast i32 %tmp1 to float			%tmp2 = bitcast i32 %tmp1 to float
	%tmp3 = insertelement <4 x float> zeroinitializer, float %tmp2, i32 2			%tmp3 = insertelement <4 x float> zeroinitializer, float %tmp2, i32 2
	%tmp4 = bitcast <4 x float> %tmp3 to <2 x double>			%tmp4 = bitcast <4 x float> %tmp3 to <2 x double>
	%tmp5 = extractelement <2 x double> %tmp4, i32 0			%tmp5 = extractelement <2 x double> %tmp4, i32 0
	Show All 35 Lines

llvm/test/CodeGen/X86/promote-cmp.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE,SSE4			; RUN: llc < %s -mtriple=x86_64-- -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE,SSE4
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=CHECK,AVX,AVX1			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx \| FileCheck %s --check-prefixes=CHECK,AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=CHECK,AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=CHECK,AVX,AVX2

	define <4 x i64> @PR45808(<4 x i64> %0, <4 x i64> %1) {			define <4 x i64> @PR45808(<4 x i64> %0, <4 x i64> %1) {
	; SSE2-LABEL: PR45808:			; SSE2-LABEL: PR45808:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]			; SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648]
	; SSE2-NEXT: movdqa %xmm3, %xmm5			; SSE2-NEXT: movdqa %xmm3, %xmm5
	; SSE2-NEXT: pxor %xmm4, %xmm5			; SSE2-NEXT: pxor %xmm4, %xmm5
	; SSE2-NEXT: movdqa %xmm1, %xmm6			; SSE2-NEXT: movdqa %xmm1, %xmm6
	; SSE2-NEXT: pxor %xmm4, %xmm6			; SSE2-NEXT: pxor %xmm4, %xmm6
	; SSE2-NEXT: movdqa %xmm6, %xmm7			; SSE2-NEXT: movdqa %xmm6, %xmm7
	; SSE2-NEXT: pcmpgtd %xmm5, %xmm7			; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
				; SSE2-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]
	; SSE2-NEXT: pcmpeqd %xmm5, %xmm6			; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]
	; SSE2-NEXT: pand %xmm7, %xmm5			; SSE2-NEXT: pand %xmm8, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]
	; SSE2-NEXT: por %xmm5, %xmm6			; SSE2-NEXT: por %xmm5, %xmm6
	; SSE2-NEXT: movdqa %xmm2, %xmm5			; SSE2-NEXT: movdqa %xmm2, %xmm5
	; SSE2-NEXT: pxor %xmm4, %xmm5			; SSE2-NEXT: pxor %xmm4, %xmm5
	; SSE2-NEXT: pxor %xmm0, %xmm4			; SSE2-NEXT: pxor %xmm0, %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm7			; SSE2-NEXT: movdqa %xmm4, %xmm7
	; SSE2-NEXT: pcmpgtd %xmm5, %xmm7			; SSE2-NEXT: pcmpgtd %xmm5, %xmm7
	; SSE2-NEXT: pcmpeqd %xmm5, %xmm4			; SSE2-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
	; SSE2-NEXT: pand %xmm7, %xmm4			; SSE2-NEXT: pand %xmm7, %xmm4
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]
	; SSE2-NEXT: por %xmm4, %xmm5			; SSE2-NEXT: por %xmm4, %xmm5
	; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,2,2,3]
	; SSE2-NEXT: pxor {{.*}}(%rip), %xmm4			; SSE2-NEXT: pxor {{.*}}(%rip), %xmm4
	; SSE2-NEXT: psllq $63, %xmm6			; SSE2-NEXT: pand %xmm6, %xmm1
	; SSE2-NEXT: psrad $31, %xmm6			; SSE2-NEXT: pandn %xmm3, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm6[1,1,3,3]			; SSE2-NEXT: por %xmm6, %xmm1
	; SSE2-NEXT: pand %xmm5, %xmm1
	; SSE2-NEXT: pandn %xmm3, %xmm5
	; SSE2-NEXT: por %xmm5, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,1,1,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,1,1,3]
	; SSE2-NEXT: psllq $63, %xmm3			; SSE2-NEXT: psllq $63, %xmm3
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm2, %xmm3			; SSE2-NEXT: pandn %xmm2, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE4-LABEL: PR45808:			; SSE4-LABEL: PR45808:
	; SSE4: # %bb.0:			; SSE4: # %bb.0:
	; SSE4-NEXT: movdqa %xmm0, %xmm4			; SSE4-NEXT: movdqa %xmm0, %xmm4
	; SSE4-NEXT: movdqa %xmm1, %xmm0			; SSE4-NEXT: movdqa %xmm1, %xmm0
	; SSE4-NEXT: pcmpgtq %xmm3, %xmm0			; SSE4-NEXT: pcmpgtq %xmm3, %xmm0
	; SSE4-NEXT: movdqa %xmm4, %xmm5			; SSE4-NEXT: movdqa %xmm4, %xmm5
	; SSE4-NEXT: pcmpgtq %xmm2, %xmm5			; SSE4-NEXT: pcmpgtq %xmm2, %xmm5
	; SSE4-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]			; SSE4-NEXT: pshufd {{.*#+}} xmm5 = xmm5[0,2,2,3]
	; SSE4-NEXT: pcmpeqd %xmm6, %xmm6			; SSE4-NEXT: pcmpeqd %xmm6, %xmm6
	; SSE4-NEXT: pxor %xmm5, %xmm6			; SSE4-NEXT: pxor %xmm5, %xmm6
	; SSE4-NEXT: psllq $63, %xmm0
	; SSE4-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE4-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE4-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm6[0],zero,xmm6[1],zero			; SSE4-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm6[0],zero,xmm6[1],zero
	; SSE4-NEXT: psllq $63, %xmm0			; SSE4-NEXT: psllq $63, %xmm0
	; SSE4-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE4-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE4-NEXT: movapd %xmm2, %xmm0			; SSE4-NEXT: movapd %xmm2, %xmm0
	; SSE4-NEXT: movapd %xmm3, %xmm1			; SSE4-NEXT: movapd %xmm3, %xmm1
	; SSE4-NEXT: retq			; SSE4-NEXT: retq
	;			;
	Show All 22 Lines

llvm/test/CodeGen/X86/vec_setcc.ll

	Show First 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
	; This asserted in type legalization for v3i1 setcc after v3i16 was made			; This asserted in type legalization for v3i1 setcc after v3i16 was made
	; a simple value type.			; a simple value type.
	define <3 x i1> @test_setcc_v3i1_v3i16(<3 x i16>* %a) nounwind {			define <3 x i1> @test_setcc_v3i1_v3i16(<3 x i16>* %a) nounwind {
	; SSE2-LABEL: test_setcc_v3i1_v3i16:			; SSE2-LABEL: test_setcc_v3i1_v3i16:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE2-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE2-NEXT: pxor %xmm1, %xmm1			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: pcmpeqw %xmm0, %xmm1			; SSE2-NEXT: pcmpeqw %xmm0, %xmm1
				; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3]
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %dl			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %dl
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: # kill: def $al killed $al killed $eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_setcc_v3i1_v3i16:			; SSE41-LABEL: test_setcc_v3i1_v3i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; SSE41-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: pcmpeqw %xmm0, %xmm1			; SSE41-NEXT: pcmpeqw %xmm0, %xmm1
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pmovsxwd %xmm1, %xmm0
	; SSE41-NEXT: pextrb $2, %xmm1, %edx			; SSE41-NEXT: movd %xmm1, %eax
				RKSimonUnsubmitted Not Done Reply Inline Actions why didn't this simplify? RKSimon: why didn't this simplify?
				foadAuthorUnsubmitted Done Reply Inline Actions What simplification are you expecting? foad: What simplification are you expecting?
				RKSimonUnsubmitted Not Done Reply Inline Actions The 0'th index should be able to extract from the source of the _EXTEND_VECTOR_INREG using SimplifyMultipleUseDemandedBits RKSimon: The 0'th index should be able to extract from the source of the _EXTEND_VECTOR_INREG using…
				foadAuthorUnsubmitted Done Reply Inline Actions Well %eax is extracted directly from the result of the pcmpeqw, which is the source of the sign_extend_vector_inreg. foad: Well %eax is extracted directly from the result of the pcmpeqw, which is the source of the…
	; SSE41-NEXT: pextrb $4, %xmm1, %ecx			; SSE41-NEXT: pextrb $4, %xmm0, %edx
				; SSE41-NEXT: pextrb $8, %xmm0, %ecx
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: # kill: def $dl killed $dl killed $edx			; SSE41-NEXT: # kill: def $dl killed $dl killed $edx
	; SSE41-NEXT: # kill: def $cl killed $cl killed $ecx			; SSE41-NEXT: # kill: def $cl killed $cl killed $ecx
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_setcc_v3i1_v3i16:			; AVX-LABEL: test_setcc_v3i1_v3i16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero			; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
	; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpextrb $0, %xmm0, %eax			; AVX-NEXT: vpmovsxwd %xmm0, %xmm1
	; AVX-NEXT: vpextrb $2, %xmm0, %edx			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: vpextrb $4, %xmm0, %ecx			; AVX-NEXT: vpextrb $4, %xmm1, %edx
				; AVX-NEXT: vpextrb $8, %xmm1, %ecx
	; AVX-NEXT: # kill: def $al killed $al killed $eax			; AVX-NEXT: # kill: def $al killed $al killed $eax
	; AVX-NEXT: # kill: def $dl killed $dl killed $edx			; AVX-NEXT: # kill: def $dl killed $dl killed $edx
	; AVX-NEXT: # kill: def $cl killed $cl killed $ecx			; AVX-NEXT: # kill: def $cl killed $cl killed $ecx
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%b = load <3 x i16>, <3 x i16>* %a			%b = load <3 x i16>, <3 x i16>* %a
	%cmp = icmp eq <3 x i16> %b, <i16 0, i16 0, i16 0>			%cmp = icmp eq <3 x i16> %b, <i16 0, i16 0, i16 0>
	ret <3 x i1> %cmp			ret <3 x i1> %cmp
	}			}

llvm/test/CodeGen/X86/vec_zero_cse.ll

	Show All 9 Lines
	@S1 = external global <2 x i64>			@S1 = external global <2 x i64>
	@S2 = external global <4 x i32>			@S2 = external global <4 x i32>

	define void @test1() {			define void @test1() {
	; X32-LABEL: test1:			; X32-LABEL: test1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movl $0, M1+4			; X32-NEXT: movl $0, M1+4
	; X32-NEXT: movl $0, M1			; X32-NEXT: movl $0, M1
	; X32-NEXT: xorps %xmm0, %xmm0			; X32-NEXT: movl $0, M2+4
	; X32-NEXT: movlps %xmm0, M2			; X32-NEXT: movl $0, M2
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq $0, {{.*}}(%rip)			; X64-NEXT: movq $0, {{.*}}(%rip)
	; X64-NEXT: movq $0, {{.*}}(%rip)			; X64-NEXT: movq $0, {{.*}}(%rip)
	; X64-NEXT: retq			; X64-NEXT: retq
	store <1 x i64> zeroinitializer, <1 x i64>* @M1			store <1 x i64> zeroinitializer, <1 x i64>* @M1
	store <2 x i32> zeroinitializer, <2 x i32>* @M2			store <2 x i32> zeroinitializer, <2 x i32>* @M2
	ret void			ret void
	}			}

	define void @test2() {			define void @test2() {
	; X32-LABEL: test2:			; X32-LABEL: test2:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movl $-1, M1+4			; X32-NEXT: movl $-1, M1+4
	; X32-NEXT: movl $-1, M1			; X32-NEXT: movl $-1, M1
	; X32-NEXT: pcmpeqd %xmm0, %xmm0			; X32-NEXT: movl $-1, M2+4
	; X32-NEXT: movq %xmm0, M2			; X32-NEXT: movl $-1, M2
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test2:			; X64-LABEL: test2:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq $-1, {{.*}}(%rip)			; X64-NEXT: movq $-1, {{.*}}(%rip)
	; X64-NEXT: movq $-1, {{.*}}(%rip)			; X64-NEXT: movq $-1, {{.*}}(%rip)
	; X64-NEXT: retq			; X64-NEXT: retq
	store <1 x i64> < i64 -1 >, <1 x i64>* @M1			store <1 x i64> < i64 -1 >, <1 x i64>* @M1
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshl-128.ll

	Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	; X32-SSE-LABEL: var_funnnel_v2i64:			; X32-SSE-LABEL: var_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm4			; X32-SSE-NEXT: movdqa %xmm2, %xmm4
	; X32-SSE-NEXT: pandn %xmm3, %xmm4			; X32-SSE-NEXT: pandn %xmm3, %xmm4
	; X32-SSE-NEXT: psrlq $1, %xmm1			; X32-SSE-NEXT: psrlq $1, %xmm1
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm6, %xmm6
				; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm6[2],xmm4[3],xmm6[3]
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1			; X32-SSE-NEXT: psrlq %xmm4, %xmm1
				foadAuthorUnsubmitted Done Reply Inline Actions Regression. Quite a few tests are now using pxor+punpckhdq instead of pshufd. I wonder if some kind of combine could spot this case and turn it back into pshufd. foad: Regression. Quite a few tests are now using pxor+punpckhdq instead of pshufd. I wonder if some…
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pand %xmm3, %xmm2			; X32-SSE-NEXT: pand %xmm3, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psllq %xmm2, %xmm3			; X32-SSE-NEXT: psllq %xmm2, %xmm3
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %amt)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %amt)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	▲ Show 20 Lines • Show All 1,032 Lines • ▼ Show 20 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm4			; X32-SSE-NEXT: movdqa %xmm2, %xmm4
	; X32-SSE-NEXT: pandn %xmm3, %xmm4			; X32-SSE-NEXT: pandn %xmm3, %xmm4
	; X32-SSE-NEXT: psrlq $1, %xmm1			; X32-SSE-NEXT: psrlq $1, %xmm1
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm6, %xmm6
				; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm6[2],xmm4[3],xmm6[3]
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1			; X32-SSE-NEXT: psrlq %xmm4, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pand %xmm3, %xmm2			; X32-SSE-NEXT: pand %xmm3, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psllq %xmm2, %xmm3			; X32-SSE-NEXT: psllq %xmm2, %xmm3
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %splat)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %splat)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}
	▲ Show 20 Lines • Show All 1,242 Lines • ▼ Show 20 Lines
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	;			;
	; X32-SSE-LABEL: constant_funnnel_v2i64:			; X32-SSE-LABEL: constant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = <4,u,14,u>			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = <4,u,14,u>
	; X32-SSE-NEXT: movdqa %xmm3, %xmm4			; X32-SSE-NEXT: movdqa %xmm3, %xmm4
	; X32-SSE-NEXT: pandn %xmm2, %xmm4			; X32-SSE-NEXT: pandn %xmm2, %xmm4
	; X32-SSE-NEXT: psrlq $1, %xmm1
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
				; X32-SSE-NEXT: psrlq $1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: psrlq $50, %xmm1
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: pand %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: movdqa %xmm0, %xmm2
	; X32-SSE-NEXT: psllq %xmm3, %xmm2			; X32-SSE-NEXT: psllq %xmm3, %xmm2
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,2,3]			; X32-SSE-NEXT: psllq $14, %xmm0
	; X32-SSE-NEXT: psllq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 4, i64 14>)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 4, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
	▲ Show 20 Lines • Show All 500 Lines • ▼ Show 20 Lines
	; XOP-NEXT: vpsrlq $50, %xmm1, %xmm1			; XOP-NEXT: vpsrlq $50, %xmm1, %xmm1
	; XOP-NEXT: vpsllq $14, %xmm0, %xmm0			; XOP-NEXT: vpsllq $14, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpor %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_funnnel_v2i64:			; X32-SSE-LABEL: splatconstant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: psrlq $50, %xmm1			; X32-SSE-NEXT: psrlq $50, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm1[0,1]
	; X32-SSE-NEXT: psllq $14, %xmm0			; X32-SSE-NEXT: psllq $14, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]			; X32-SSE-NEXT: por %xmm1, %xmm0
	; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 14, i64 14>)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 14, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
	; SSE-LABEL: splatconstant_funnnel_v4i32:			; SSE-LABEL: splatconstant_funnnel_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 226 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshl-rot-128.ll

	Show First 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; X32-SSE-LABEL: var_funnnel_v2i64:			; X32-SSE-LABEL: var_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm1, %xmm3			; X32-SSE-NEXT: psubq %xmm1, %xmm3
	; X32-SSE-NEXT: pand %xmm2, %xmm1			; X32-SSE-NEXT: pand %xmm2, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psllq %xmm1, %xmm4			; X32-SSE-NEXT: psllq %xmm1, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm5, %xmm5
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
	; X32-SSE-NEXT: psllq %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm0, %xmm6
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]			; X32-SSE-NEXT: psllq %xmm1, %xmm6
				; X32-SSE-NEXT: movsd {{.*#+}} xmm6 = xmm4[0],xmm6[1]
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: pand %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psrlq %xmm3, %xmm1			; X32-SSE-NEXT: psrlq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
	; X32-SSE-NEXT: psrlq %xmm2, %xmm0			; X32-SSE-NEXT: psrlq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm6, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %amt)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %amt)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @var_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {			define <4 x i32> @var_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {
	; SSE2-LABEL: var_funnnel_v4i32:			; SSE2-LABEL: var_funnnel_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 582 Lines • ▼ Show 20 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm1, %xmm3			; X32-SSE-NEXT: psubq %xmm1, %xmm3
	; X32-SSE-NEXT: pand %xmm2, %xmm1			; X32-SSE-NEXT: pand %xmm2, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psllq %xmm1, %xmm4			; X32-SSE-NEXT: psllq %xmm1, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm5, %xmm5
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
	; X32-SSE-NEXT: psllq %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm0, %xmm6
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]			; X32-SSE-NEXT: psllq %xmm1, %xmm6
				; X32-SSE-NEXT: movsd {{.*#+}} xmm6 = xmm4[0],xmm6[1]
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: pand %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psrlq %xmm3, %xmm1			; X32-SSE-NEXT: psrlq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
	; X32-SSE-NEXT: psrlq %xmm2, %xmm0			; X32-SSE-NEXT: psrlq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm6, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %splat)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %splat)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatvar_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {			define <4 x i32> @splatvar_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {
	; SSE2-LABEL: splatvar_funnnel_v4i32:			; SSE2-LABEL: splatvar_funnnel_v4i32:
	▲ Show 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = <4,u,14,u>			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = <4,u,14,u>
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm2, %xmm3			; X32-SSE-NEXT: psubq %xmm2, %xmm3
	; X32-SSE-NEXT: pand %xmm1, %xmm2			; X32-SSE-NEXT: pand %xmm1, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psllq %xmm2, %xmm4			; X32-SSE-NEXT: psllq %xmm2, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: movdqa %xmm0, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: psllq $14, %xmm2
	; X32-SSE-NEXT: psllq %xmm2, %xmm5			; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm4[0],xmm2[1]
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]
	; X32-SSE-NEXT: pand %xmm1, %xmm3			; X32-SSE-NEXT: pand %xmm1, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psrlq %xmm3, %xmm1			; X32-SSE-NEXT: psrlq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: psrlq $50, %xmm0
	; X32-SSE-NEXT: psrlq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm2, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 4, i64 14>)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 4, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x) nounwind {			define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x) nounwind {
	; SSE2-LABEL: constant_funnnel_v4i32:			; SSE2-LABEL: constant_funnnel_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotq $14, %xmm0, %xmm0			; XOP-NEXT: vprotq $14, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_funnnel_v2i64:			; X32-SSE-LABEL: splatconstant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psrlq $50, %xmm1			; X32-SSE-NEXT: psrlq $50, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm1[0,1]
	; X32-SSE-NEXT: psllq $14, %xmm0			; X32-SSE-NEXT: psllq $14, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]			; X32-SSE-NEXT: por %xmm1, %xmm0
	; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 14, i64 14>)			%res = call <2 x i64> @llvm.fshl.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 14, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x) nounwind {			define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x) nounwind {
	; SSE-LABEL: splatconstant_funnnel_v4i32:			; SSE-LABEL: splatconstant_funnnel_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 163 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshr-128.ll

	Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	;			;
	; X32-SSE-LABEL: var_funnnel_v2i64:			; X32-SSE-LABEL: var_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm4			; X32-SSE-NEXT: movdqa %xmm2, %xmm4
	; X32-SSE-NEXT: pand %xmm3, %xmm4			; X32-SSE-NEXT: pand %xmm3, %xmm4
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm6, %xmm6
				; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm6[2],xmm4[3],xmm6[3]
				yubingUnsubmitted Not Done Reply Inline Actions Hi, during combination before legalizeDAG. there are the following Nodes: t63: i32 = extract_vector_elt t62, Constant:i32<2> t64: i32 = extract_vector_elt t62, Constant:i32<3> t66: v4i32 = BUILD_VECTOR t63, t64, undef:i32, undef:i32 SimplifyDemandedBits deduce that t64 is a zero, so t66 will transformed into a pxor and a punpckhqd instead of a single pshufd. Maybe in such a case where a buildvector have elts which are extracted from the same vector, you shouldn't SimplifyDemandedBits for extract_vector_elt. yubing: Hi, during combination before legalizeDAG. there are the following Nodes: t63…
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1			; X32-SSE-NEXT: psrlq %xmm4, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pandn %xmm3, %xmm2			; X32-SSE-NEXT: pandn %xmm3, %xmm2
	; X32-SSE-NEXT: psllq $1, %xmm0			; X32-SSE-NEXT: psllq $1, %xmm0
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psllq %xmm2, %xmm3			; X32-SSE-NEXT: psllq %xmm2, %xmm3
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %amt)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %amt)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	▲ Show 20 Lines • Show All 1,016 Lines • ▼ Show 20 Lines
	; X32-SSE-LABEL: splatvar_funnnel_v2i64:			; X32-SSE-LABEL: splatvar_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,1,0,1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm4			; X32-SSE-NEXT: movdqa %xmm2, %xmm4
	; X32-SSE-NEXT: pand %xmm3, %xmm4			; X32-SSE-NEXT: pand %xmm3, %xmm4
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm6, %xmm6
				; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm4 = xmm4[2],xmm6[2],xmm4[3],xmm6[3]
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1			; X32-SSE-NEXT: psrlq %xmm4, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pandn %xmm3, %xmm2			; X32-SSE-NEXT: pandn %xmm3, %xmm2
	; X32-SSE-NEXT: psllq $1, %xmm0			; X32-SSE-NEXT: psllq $1, %xmm0
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psllq %xmm2, %xmm3			; X32-SSE-NEXT: psllq %xmm2, %xmm3
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %splat)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> %splat)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}
	▲ Show 20 Lines • Show All 875 Lines • ▼ Show 20 Lines
	; X32-SSE-LABEL: constant_funnnel_v2i64:			; X32-SSE-LABEL: constant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = <4,u,14,u>			; X32-SSE-NEXT: movdqa {{.*#+}} xmm3 = <4,u,14,u>
	; X32-SSE-NEXT: movdqa %xmm3, %xmm4			; X32-SSE-NEXT: movdqa %xmm3, %xmm4
	; X32-SSE-NEXT: pand %xmm2, %xmm4			; X32-SSE-NEXT: pand %xmm2, %xmm4
	; X32-SSE-NEXT: movdqa %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm1, %xmm5
	; X32-SSE-NEXT: psrlq %xmm4, %xmm5			; X32-SSE-NEXT: psrlq %xmm4, %xmm5
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm4[2,3,2,3]			; X32-SSE-NEXT: psrlq $14, %xmm1
	; X32-SSE-NEXT: psrlq %xmm4, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; X32-SSE-NEXT: pandn %xmm2, %xmm3			; X32-SSE-NEXT: pandn %xmm2, %xmm3
	; X32-SSE-NEXT: psllq $1, %xmm0
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: movdqa %xmm0, %xmm2
				; X32-SSE-NEXT: psllq $1, %xmm2
	; X32-SSE-NEXT: psllq %xmm3, %xmm2			; X32-SSE-NEXT: psllq %xmm3, %xmm2
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm3 = xmm3[2,3,2,3]			; X32-SSE-NEXT: psllq $50, %xmm0
	; X32-SSE-NEXT: psllq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm1, %xmm0			; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 4, i64 14>)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 4, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
	▲ Show 20 Lines • Show All 513 Lines • ▼ Show 20 Lines
	; XOP-NEXT: vpsrlq $14, %xmm1, %xmm1			; XOP-NEXT: vpsrlq $14, %xmm1, %xmm1
	; XOP-NEXT: vpsllq $50, %xmm0, %xmm0			; XOP-NEXT: vpsllq $50, %xmm0, %xmm0
	; XOP-NEXT: vpor %xmm1, %xmm0, %xmm0			; XOP-NEXT: vpor %xmm1, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_funnnel_v2i64:			; X32-SSE-LABEL: splatconstant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: psrlq $14, %xmm1			; X32-SSE-NEXT: psrlq $14, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm1[0,1]
	; X32-SSE-NEXT: psllq $50, %xmm0			; X32-SSE-NEXT: psllq $50, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]			; X32-SSE-NEXT: por %xmm1, %xmm0
	; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 14, i64 14>)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %y, <2 x i64> <i64 14, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {			define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
	; SSE-LABEL: splatconstant_funnnel_v4i32:			; SSE-LABEL: splatconstant_funnnel_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 226 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshr-rot-128.ll

	Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; X32-SSE-LABEL: var_funnnel_v2i64:			; X32-SSE-LABEL: var_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm1, %xmm3			; X32-SSE-NEXT: psubq %xmm1, %xmm3
	; X32-SSE-NEXT: pand %xmm2, %xmm1			; X32-SSE-NEXT: pand %xmm2, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psrlq %xmm1, %xmm4			; X32-SSE-NEXT: psrlq %xmm1, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm5, %xmm5
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
	; X32-SSE-NEXT: psrlq %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm0, %xmm6
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]			; X32-SSE-NEXT: psrlq %xmm1, %xmm6
				; X32-SSE-NEXT: movsd {{.*#+}} xmm6 = xmm4[0],xmm6[1]
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: pand %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq %xmm3, %xmm1			; X32-SSE-NEXT: psllq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm6, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %amt)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %amt)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @var_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {			define <4 x i32> @var_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {
	; SSE2-LABEL: var_funnnel_v4i32:			; SSE2-LABEL: var_funnnel_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 624 Lines • ▼ Show 20 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [63,0,63,0]
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm1, %xmm3			; X32-SSE-NEXT: psubq %xmm1, %xmm3
	; X32-SSE-NEXT: pand %xmm2, %xmm1			; X32-SSE-NEXT: pand %xmm2, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psrlq %xmm1, %xmm4			; X32-SSE-NEXT: psrlq %xmm1, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]			; X32-SSE-NEXT: pxor %xmm5, %xmm5
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm1 = xmm1[2],xmm5[2],xmm1[3],xmm5[3]
	; X32-SSE-NEXT: psrlq %xmm1, %xmm5			; X32-SSE-NEXT: movdqa %xmm0, %xmm6
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]			; X32-SSE-NEXT: psrlq %xmm1, %xmm6
				; X32-SSE-NEXT: movsd {{.*#+}} xmm6 = xmm4[0],xmm6[1]
	; X32-SSE-NEXT: pand %xmm2, %xmm3			; X32-SSE-NEXT: pand %xmm2, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq %xmm3, %xmm1			; X32-SSE-NEXT: psllq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: punpckhdq {{.*#+}} xmm3 = xmm3[2],xmm5[2],xmm3[3],xmm5[3]
	; X32-SSE-NEXT: psllq %xmm2, %xmm0			; X32-SSE-NEXT: psllq %xmm3, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm6, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer			%splat = shufflevector <2 x i64> %amt, <2 x i64> undef, <2 x i32> zeroinitializer
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %splat)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> %splat)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatvar_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {			define <4 x i32> @splatvar_funnnel_v4i32(<4 x i32> %x, <4 x i32> %amt) nounwind {
	; SSE2-LABEL: splatvar_funnnel_v4i32:			; SSE2-LABEL: splatvar_funnnel_v4i32:
	▲ Show 20 Lines • Show All 527 Lines • ▼ Show 20 Lines
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [63,0,63,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [63,0,63,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = <4,u,14,u>			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = <4,u,14,u>
	; X32-SSE-NEXT: pxor %xmm3, %xmm3			; X32-SSE-NEXT: pxor %xmm3, %xmm3
	; X32-SSE-NEXT: psubq %xmm2, %xmm3			; X32-SSE-NEXT: psubq %xmm2, %xmm3
	; X32-SSE-NEXT: pand %xmm1, %xmm2			; X32-SSE-NEXT: pand %xmm1, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm4			; X32-SSE-NEXT: movdqa %xmm0, %xmm4
	; X32-SSE-NEXT: psrlq %xmm2, %xmm4			; X32-SSE-NEXT: psrlq %xmm2, %xmm4
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; X32-SSE-NEXT: movdqa %xmm0, %xmm2
	; X32-SSE-NEXT: movdqa %xmm0, %xmm5			; X32-SSE-NEXT: psrlq $14, %xmm2
	; X32-SSE-NEXT: psrlq %xmm2, %xmm5			; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm4[0],xmm2[1]
	; X32-SSE-NEXT: movsd {{.*#+}} xmm5 = xmm4[0],xmm5[1]
	; X32-SSE-NEXT: pand %xmm1, %xmm3			; X32-SSE-NEXT: pand %xmm1, %xmm3
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq %xmm3, %xmm1			; X32-SSE-NEXT: psllq %xmm3, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm2 = xmm3[2,3,2,3]			; X32-SSE-NEXT: psllq $50, %xmm0
	; X32-SSE-NEXT: psllq %xmm2, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: orpd %xmm5, %xmm0			; X32-SSE-NEXT: orpd %xmm2, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 4, i64 14>)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 4, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x) nounwind {			define <4 x i32> @constant_funnnel_v4i32(<4 x i32> %x) nounwind {
	; SSE2-LABEL: constant_funnnel_v4i32:			; SSE2-LABEL: constant_funnnel_v4i32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	▲ Show 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotq $50, %xmm0, %xmm0			; XOP-NEXT: vprotq $50, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_funnnel_v2i64:			; X32-SSE-LABEL: splatconstant_funnnel_v2i64:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psllq $50, %xmm1			; X32-SSE-NEXT: psllq $50, %xmm1
	; X32-SSE-NEXT: movsd {{.*#+}} xmm1 = xmm1[0,1]
	; X32-SSE-NEXT: psrlq $14, %xmm0			; X32-SSE-NEXT: psrlq $14, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]			; X32-SSE-NEXT: por %xmm1, %xmm0
	; X32-SSE-NEXT: orpd %xmm1, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 14, i64 14>)			%res = call <2 x i64> @llvm.fshr.v2i64(<2 x i64> %x, <2 x i64> %x, <2 x i64> <i64 14, i64 14>)
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x) nounwind {			define <4 x i32> @splatconstant_funnnel_v4i32(<4 x i32> %x) nounwind {
	; SSE-LABEL: splatconstant_funnnel_v4i32:			; SSE-LABEL: splatconstant_funnnel_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 163 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-mul.ll

	Show First 20 Lines • Show All 1,922 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX2-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX2-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX2-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX2-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX2-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX2-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm1			; AVX2-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i8:			; AVX512BW-LABEL: test_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i8:			; AVX512DQ-LABEL: test_v32i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512DQ-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX512DQ-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX512DQ-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512DQ-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX512DQ-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512DQ-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512DQ-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512DQ-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512DQ-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX512DQ-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrlq $32, %xmm0, %xmm1			; AVX512DQ-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX512DQ-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQ-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i8:			; AVX512DQVL-LABEL: test_v32i8:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm2 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512DQVL-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX512DQVL-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX512DQVL-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX512DQVL-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512DQVL-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX512DQVL-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512DQVL-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512DQVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512DQVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512DQVL-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrlq $32, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm0 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm0 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3			; AVX2-NEXT: vpmullw %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX2-NEXT: vpmullw %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX2-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i8:			; AVX512BW-LABEL: test_v64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpand %ymm3, %ymm2, %ymm4			; AVX512BW-NEXT: vpand %ymm3, %ymm2, %ymm4
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpand %ymm3, %ymm0, %ymm1			; AVX512BW-NEXT: vpand %ymm3, %ymm0, %ymm1
	; AVX512BW-NEXT: vpackuswb %ymm4, %ymm1, %ymm1			; AVX512BW-NEXT: vpackuswb %ymm4, %ymm1, %ymm1
	; AVX512BW-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm2, %xmm1			; AVX512BW-NEXT: vpmullw %xmm1, %xmm2, %xmm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm3, %zmm1			; AVX512BW-NEXT: vpmullw %zmm1, %zmm3, %zmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm1
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm1			; AVX512BW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v64i8:			; AVX512BWVL-LABEL: test_v64i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	Show All 16 Lines
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm3, %zmm1			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm3, %zmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpmovwb %zmm0, %ymm1			; AVX512BWVL-NEXT: vpmovwb %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]
	; AVX512BWVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512BWVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpmovwb %ymm0, %xmm0			; AVX512BWVL-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i8:			; AVX512DQ-LABEL: test_v64i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX2-NEXT: vpmullw %xmm1, %xmm4, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vpmullw %xmm1, %xmm2, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm3, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,2,3]
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlq $32, %xmm0, %xmm1			; AVX2-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v128i8:			; AVX512BW-LABEL: test_v128i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	Show All 10 Lines
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm2, %ymm4			; AVX512BW-NEXT: vextracti64x4 $1, %zmm2, %ymm4
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX512BW-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX512BW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1			; AVX512BW-NEXT: vpackuswb %ymm3, %ymm1, %ymm1
	; AVX512BW-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm1, %xmm1
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm3, %zmm0			; AVX512BW-NEXT: vpmullw %zmm0, %zmm3, %zmm0
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm2			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm1
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,1,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512BW-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX512BW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v128i8:			; AVX512BWVL-LABEL: test_v128i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	Show All 19 Lines
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm3, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm3, %zmm0
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0
	; AVX512BWVL-NEXT: vpmovwb %zmm0, %ymm1			; AVX512BWVL-NEXT: vpmovwb %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,1,1]
	; AVX512BWVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512BWVL-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero			; AVX512BWVL-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[4],zero,xmm0[6],zero,zero,zero,zero,zero,xmm0[12],zero,xmm0[14],zero,zero,zero,zero,zero
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpmovwb %ymm0, %xmm0			; AVX512BWVL-NEXT: vpsrld $8, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v128i8:			; AVX512DQ-LABEL: test_v128i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 112 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

Show First 20 Lines • Show All 3,059 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <8 x i16> %tmp13		ret <8 x i16> %tmp13
}		}

define void @PR43024() {		define void @PR43024() {
; SSE-LABEL: PR43024:		; SSE-LABEL: PR43024:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movaps {{.*#+}} xmm0 = [NaN,NaN,0.0E+0,0.0E+0]		; SSE-NEXT: movaps {{.*#+}} xmm0 = [NaN,NaN,0.0E+0,0.0E+0]
; SSE-NEXT: movaps %xmm0, (%rax)		; SSE-NEXT: movaps %xmm0, (%rax)
; SSE-NEXT: addss {{.*}}(%rip), %xmm0		; SSE-NEXT: movl $2143289344, (%rax) # imm = 0x7FC00000
; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: addss %xmm1, %xmm0
; SSE-NEXT: addss %xmm1, %xmm0
; SSE-NEXT: movss %xmm0, (%rax)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: PR43024:		; AVX-LABEL: PR43024:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovaps {{.*#+}} xmm0 = [NaN,NaN,0.0E+0,0.0E+0]		; AVX-NEXT: vmovaps {{.*#+}} xmm0 = [NaN,NaN,0.0E+0,0.0E+0]
; AVX-NEXT: vmovaps %xmm0, (%rax)		; AVX-NEXT: vmovaps %xmm0, (%rax)
; AVX-NEXT: vaddss {{\.LCPI.}}+{{.}}(%rip), %xmm0, %xmm0		; AVX-NEXT: movl $2143289344, (%rax) # imm = 0x7FC00000
; AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
; AVX-NEXT: vaddss {{\.LCPI.}}+{{.}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vmovss %xmm0, (%rax)
; AVX-NEXT: retq		; AVX-NEXT: retq
store <4 x float> <float 0x7FF8000000000000, float 0x7FF8000000000000, float 0x0, float 0x0>, <4 x float>* undef, align 16		store <4 x float> <float 0x7FF8000000000000, float 0x7FF8000000000000, float 0x0, float 0x0>, <4 x float>* undef, align 16
%1 = load <4 x float>, <4 x float>* undef, align 16		%1 = load <4 x float>, <4 x float>* undef, align 16
%2 = fmul <4 x float> %1, <float 0x0, float 0x0, float 0x0, float 0x0>		%2 = fmul <4 x float> %1, <float 0x0, float 0x0, float 0x0, float 0x0>
%3 = shufflevector <4 x float> %2, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>		%3 = shufflevector <4 x float> %2, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
%4 = fadd <4 x float> %2, %3		%4 = fadd <4 x float> %2, %3
%5 = fadd <4 x float> zeroinitializer, %4		%5 = fadd <4 x float> zeroinitializer, %4
%6 = shufflevector <4 x float> %2, <4 x float> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>		%6 = shufflevector <4 x float> %2, <4 x float> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>
▲ Show 20 Lines • Show All 154 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 2,307 Lines • ▼ Show 20 Lines

	;			;
	; mul to constant			; mul to constant
	;			;

	define <4 x i32> @trunc_mul_const_v4i64_v4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_mul_const_v4i64_v4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_mul_const_v4i64_v4i32:			; SSE-LABEL: trunc_mul_const_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorps %xmm2, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: pmuludq {{.*}}(%rip), %xmm1			; SSE-NEXT: pmuludq {{.*}}(%rip), %xmm1
	; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: movaps %xmm2, %xmm0			; SSE-NEXT: andps {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_const_v4i64_v4i32:			; AVX1-LABEL: trunc_mul_const_v4i64_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 2,806 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vselect.ll

	Show First 20 Lines • Show All 563 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: simplify_select:			; SSE2-LABEL: simplify_select:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE2-NEXT: pslld $31, %xmm0			; SSE2-NEXT: pslld $31, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: movd %edi, %xmm1			; SSE2-NEXT: movd %edi, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; SSE2-NEXT: por %xmm1, %xmm2			; SSE2-NEXT: por %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[1,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[1,1]
	; SSE2-NEXT: pand %xmm0, %xmm2			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: pandn %xmm1, %xmm0			; SSE2-NEXT: pandn %xmm1, %xmm0
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: simplify_select:			; SSE41-LABEL: simplify_select:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE41-NEXT: pslld $31, %xmm0			; SSE41-NEXT: pslld $31, %xmm0
	; SSE41-NEXT: movd %edi, %xmm1			; SSE41-NEXT: movd %edi, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; SSE41-NEXT: por %xmm1, %xmm2			; SSE41-NEXT: por %xmm1, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm2[1,1,1,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; SSE41-NEXT: pinsrd $1, %edi, %xmm1
	; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: simplify_select:			; AVX1-LABEL: simplify_select:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-NEXT: vpslld $31, %xmm0, %xmm0			; AVX1-NEXT: vpslld $31, %xmm0, %xmm0
	; AVX-NEXT: vmovd %edi, %xmm1			; AVX1-NEXT: vmovd %edi, %xmm1
	; AVX-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
	; AVX-NEXT: vpor %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpor %xmm1, %xmm2, %xmm2
	; AVX-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,1,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; AVX-NEXT: vpinsrd $1, %edi, %xmm2, %xmm2			; AVX1-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
	; AVX-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0			; AVX1-NEXT: retq
	; AVX-NEXT: retq			;
				; AVX2-LABEL: simplify_select:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; AVX2-NEXT: vpslld $31, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %edi, %xmm1
				; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,0,1,1]
				; AVX2-NEXT: vpor %xmm1, %xmm2, %xmm2
				; AVX2-NEXT: vpbroadcastd %xmm1, %xmm1
				; AVX2-NEXT: vblendvps %xmm0, %xmm2, %xmm1, %xmm0
				; AVX2-NEXT: retq
	%a = insertelement <2 x i32> <i32 0, i32 undef>, i32 %x, i32 1			%a = insertelement <2 x i32> <i32 0, i32 undef>, i32 %x, i32 1
	%b = insertelement <2 x i32> <i32 undef, i32 0>, i32 %x, i32 0			%b = insertelement <2 x i32> <i32 undef, i32 0>, i32 %x, i32 0
	%y = or <2 x i32> %a, %b			%y = or <2 x i32> %a, %b
	%p16 = extractelement <2 x i32> %y, i32 1			%p16 = extractelement <2 x i32> %y, i32 1
	%p17 = insertelement <2 x i32> undef, i32 %p16, i32 0			%p17 = insertelement <2 x i32> undef, i32 %p16, i32 0
	%p18 = insertelement <2 x i32> %p17, i32 %x, i32 1			%p18 = insertelement <2 x i32> %p17, i32 %x, i32 1
	%r = select <2 x i1> %z, <2 x i32> %y, <2 x i32> %p18			%r = select <2 x i1> %z, <2 x i32> %y, <2 x i32> %p18
	ret <2 x i32> %r			ret <2 x i32> %r
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/widen_shuffle-1.ll

Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <8 x i8> %vshuf		ret <8 x i8> %vshuf
}		}

; PR11389: another CONCAT_VECTORS case		; PR11389: another CONCAT_VECTORS case
define void @shuf5(<8 x i8>* %p) nounwind {		define void @shuf5(<8 x i8>* %p) nounwind {
; X86-LABEL: shuf5:		; X86-LABEL: shuf5:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; X86-NEXT: movl $555819297, 4(%eax) # imm = 0x21212121
; X86-NEXT: movsd %xmm0, (%eax)		; X86-NEXT: movl $555819297, (%eax) # imm = 0x21212121
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: shuf5:		; X64-LABEL: shuf5:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movabsq $2387225703656530209, %rax # imm = 0x2121212121212121		; X64-NEXT: movabsq $2387225703656530209, %rax # imm = 0x2121212121212121
; X64-NEXT: movq %rax, (%rdi)		; X64-NEXT: movq %rax, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
%v = shufflevector <2 x i8> <i8 4, i8 33>, <2 x i8> undef, <8 x i32> <i32 1, i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%v = shufflevector <2 x i8> <i8 4, i8 33>, <2 x i8> undef, <8 x i32> <i32 1, i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
store <8 x i8> %v, <8 x i8>* %p, align 8		store <8 x i8> %v, <8 x i8>* %p, align 8
ret void		ret void
}		}

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] Call SimplifyDemandedBits to simplify EXTRACT_VECTOR_ELTChanges PlannedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 296629

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/test/CodeGen/AArch64/arm64-build-vector.ll

llvm/test/CodeGen/AArch64/arm64-nvcast.ll

llvm/test/CodeGen/AArch64/arm64-promote-const-complex-initializers.ll

llvm/test/CodeGen/AArch64/dag-numsignbits.ll

llvm/test/CodeGen/AArch64/popcount.ll

llvm/test/CodeGen/AArch64/sadd_sat_vec.ll

llvm/test/CodeGen/AArch64/ssub_sat_vec.ll

llvm/test/CodeGen/AArch64/uadd_sat_vec.ll

llvm/test/CodeGen/AArch64/usub_sat_vec.ll

llvm/test/CodeGen/AArch64/vecreduce-and-legalization.ll

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

llvm/test/CodeGen/AMDGPU/fptoui.f16.ll

llvm/test/CodeGen/AMDGPU/saddsat.ll

llvm/test/CodeGen/AMDGPU/sdiv64.ll

llvm/test/CodeGen/AMDGPU/shift-i128.ll

llvm/test/CodeGen/AMDGPU/srem64.ll

llvm/test/CodeGen/AMDGPU/ssubsat.ll

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

llvm/test/CodeGen/AMDGPU/uaddsat.ll

llvm/test/CodeGen/AMDGPU/usubsat.ll

llvm/test/CodeGen/ARM/dagcombine-anyexttozeroext.ll

llvm/test/CodeGen/ARM/fp16-insert-extract.ll

llvm/test/CodeGen/ARM/func-argpassing-endian.ll

llvm/test/CodeGen/ARM/vdup.ll

llvm/test/CodeGen/ARM/vecreduce-fadd-legalization-strict.ll

llvm/test/CodeGen/ARM/vecreduce-fmul-legalization-strict.ll

llvm/test/CodeGen/ARM/vldlane.ll

llvm/test/CodeGen/ARM/vzip.ll

llvm/test/CodeGen/Mips/cconv/vector.ll

llvm/test/CodeGen/PowerPC/pr45709.ll

llvm/test/CodeGen/Thumb2/active_lane_mask.ll

llvm/test/CodeGen/Thumb2/mve-satmul-loops.ll

llvm/test/CodeGen/Thumb2/mve-sext-masked-load.ll

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

llvm/test/CodeGen/Thumb2/mve-soft-float-abi.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-add.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-addpred.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-mla.ll

llvm/test/CodeGen/Thumb2/mve-vld2-post.ll

llvm/test/CodeGen/Thumb2/mve-vld2.ll

llvm/test/CodeGen/Thumb2/mve-vld3.ll

llvm/test/CodeGen/Thumb2/mve-vld4-post.ll

llvm/test/CodeGen/Thumb2/mve-vld4.ll

llvm/test/CodeGen/Thumb2/mve-vldst4.ll

llvm/test/CodeGen/Thumb2/mve-vmulh.ll

llvm/test/CodeGen/Thumb2/mve-vmull-loop.ll

llvm/test/CodeGen/Thumb2/mve-vqmovn.ll

llvm/test/CodeGen/Thumb2/mve-vqshrn.ll

llvm/test/CodeGen/Thumb2/mve-vst2.ll

llvm/test/CodeGen/Thumb2/mve-vst3.ll

llvm/test/CodeGen/Thumb2/mve-vst4.ll

llvm/test/CodeGen/Thumb2/mve-zext-masked-load.ll

llvm/test/CodeGen/X86/2011-10-19-widen_vselect.ll

llvm/test/CodeGen/X86/2012-07-10-extload64.ll

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

llvm/test/CodeGen/X86/buildvec-insertvec.ll

llvm/test/CodeGen/X86/fold-load-vec.ll

llvm/test/CodeGen/X86/madd.ll

llvm/test/CodeGen/X86/nontemporal-3.ll

llvm/test/CodeGen/X86/pr41619.ll

llvm/test/CodeGen/X86/promote-cmp.ll

llvm/test/CodeGen/X86/vec_setcc.ll

llvm/test/CodeGen/X86/vec_zero_cse.ll

llvm/test/CodeGen/X86/vector-fshl-128.ll

llvm/test/CodeGen/X86/vector-fshl-rot-128.ll

llvm/test/CodeGen/X86/vector-fshr-128.ll

llvm/test/CodeGen/X86/vector-fshr-rot-128.ll

llvm/test/CodeGen/X86/vector-reduce-mul.ll

llvm/test/CodeGen/X86/vector-shuffle-combining.ll

llvm/test/CodeGen/X86/vector-trunc-math.ll

llvm/test/CodeGen/X86/vselect.ll

llvm/test/CodeGen/X86/widen_shuffle-1.ll

[DAGCombiner] Call SimplifyDemandedBits to simplify EXTRACT_VECTOR_ELT
Changes PlannedPublic