This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AArch64/
-
Target/
-
AArch64/
-
AArch64Subtarget.h
-
test/Transforms/
-
Transforms/
-
LoopVectorize/AArch64/
-
AArch64/
-
intrinsiccost.ll
-
sve-epilog-vect-inloop-reductions.ll
-
sve-gather-scatter.ll
-
sve-illegal-type.ll
-
PhaseOrdering/AArch64/
-
AArch64/
-
hoisting-sinking-required-for-vectorization.ll
-
peel-multiple-unreachable-exits-for-vectorization.ll

Differential D121788

[AArch64] Increase MaxInterleaveFactor to 4
Needs ReviewPublic

Authored by jaykang10 on Mar 16 2022, 3:58 AM.

Download Raw Diff

Details

Reviewers

dmgreen
sdesmalen
paulwalker-arm
fhahn
efriedma

Summary

I have seen cases in which the MaxInterleaveFactor 4 makes better performance against MaxInterleaveFactor 2.
Let's see a simple example.

void test(char *dstPtr, const char *srcPtr, char *dstEnd) {
  do { 
    memcpy(dstPtr, srcPtr, 8);  
    dstPtr += 8;
    srcPtr += 8;
  } while (dstPtr < dstEnd);
}

InstCombine pass converts the memcpy into load and store because the length is 8.
The vecotrized assembly output from MaxInterleaveFactor 2 and 4 are as below.

MaxInterleaveFactor 2
.LBB0_7:                                // %vector.body
                                        // =>This Inner Loop Header: Depth=1
        ldp     q0, q1, [x13, #-16]
        add     x13, x13, #32  
        subs    x14, x14, #4
        stp     q0, q1, [x12, #-16]
        add     x12, x12, #32  
        b.ne    .LBB0_7

MaxInterleaveFactor 4
.LBB0_7:                                // %vector.body
                                        // =>This Inner Loop Header: Depth=1
        ldp     q0, q1, [x12, #-32]
        subs    x14, x14, #8
        ldp     q2, q3, [x12], #64  
        stp     q0, q1, [x13, #-32]
        stp     q2, q3, [x13], #64  
        b.ne    .LBB0_7

Given the number of instructions, the output of MaxInterleaveFactor 4 could handle 2 times more data ideally than MaxInterleaveFactor 2 one per iteration.

Diff Detail

Event Timeline

jaykang10 created this revision.Mar 16 2022, 3:58 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 16 2022, 3:58 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

jaykang10 requested review of this revision.Mar 16 2022, 3:58 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 16 2022, 3:58 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Harbormaster completed remote builds in B154565: Diff 415772.Mar 16 2022, 3:59 AM

Ping

Do you have any performance results for changing this? I've not had much luck with trying it in the past, and it obviously can change quite a lot. It can certainly help in places, but I've found that if you turn it up too high you just end up over-unrolling loops, not getting into the fast loop body as much. It can obviously depend on the input code and loop counts tough. Perhaps it needs some better costmodelling?

I was still hoping to get D118979 in because it should help quite a bit - and it on it's own increases the number of items processed per vector element, and this will increase it further. We have cleaned up quite a few of the places it doesn't do as well, there are just a few that have been stuck in review a while. Perhaps it makes sense to try and push that through, then re-evaluate this on top?

Thanks for comment! @dmgreen

Do you have any performance results for changing this? I've not had much luck with trying it in the past, and it obviously can change quite a lot. It can certainly help in places, but I've found that if you turn it up too high you just end up over-unrolling loops, not getting into the fast loop body as much. It can obviously depend on the input code and loop counts tough. Perhaps it needs some better costmodelling?

I was able to see the overall performance number slightly up for an internal benchmark on neoverse-n1 but we would need to tune something like cost model according to micro architectures.

I was still hoping to get D118979 in because it should help quite a bit - and it on it's own increases the number of items processed per vector element, and this will increase it further. We have cleaned up quite a few of the places it doesn't do as well, there are just a few that have been stuck in review a while. Perhaps it makes sense to try and push that through, then re-evaluate this on top?

I agree with you. Let's visit this patch later.

Matt added a subscriber: Matt.May 23 2022, 8:40 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64Subtarget.h

2 lines

test/

Transforms/

LoopVectorize/

AArch64/

intrinsiccost.ll

176 lines

sve-epilog-vect-inloop-reductions.ll

122 lines

sve-gather-scatter.ll

106 lines

sve-illegal-type.ll

16 lines

PhaseOrdering/

AArch64/

hoisting-sinking-required-for-vectorization.ll

62 lines

peel-multiple-unreachable-exits-for-vectorization.ll

158 lines

Diff 415772

llvm/lib/Target/AArch64/AArch64Subtarget.h

Show First 20 Lines • Show All 266 Lines • ▼ Show 20 Lines	protected:
bool Force32BitJumpTables = false;		bool Force32BitJumpTables = false;
bool UseEL1ForTP = false;		bool UseEL1ForTP = false;
bool UseEL2ForTP = false;		bool UseEL2ForTP = false;
bool UseEL3ForTP = false;		bool UseEL3ForTP = false;
bool AllowTaggedGlobals = false;		bool AllowTaggedGlobals = false;
bool HardenSlsRetBr = false;		bool HardenSlsRetBr = false;
bool HardenSlsBlr = false;		bool HardenSlsBlr = false;
bool HardenSlsNoComdat = false;		bool HardenSlsNoComdat = false;
uint8_t MaxInterleaveFactor = 2;		uint8_t MaxInterleaveFactor = 4;
uint8_t VectorInsertExtractBaseCost = 3;		uint8_t VectorInsertExtractBaseCost = 3;
uint16_t CacheLineSize = 0;		uint16_t CacheLineSize = 0;
uint16_t PrefetchDistance = 0;		uint16_t PrefetchDistance = 0;
uint16_t MinPrefetchStride = 1;		uint16_t MinPrefetchStride = 1;
unsigned MaxPrefetchIterationsAhead = UINT_MAX;		unsigned MaxPrefetchIterationsAhead = UINT_MAX;
unsigned PrefFunctionLogAlignment = 0;		unsigned PrefFunctionLogAlignment = 0;
unsigned PrefLoopLogAlignment = 0;		unsigned PrefLoopLogAlignment = 0;
unsigned MaxBytesForLoopAlignment = 0;		unsigned MaxBytesForLoopAlignment = 0;
▲ Show 20 Lines • Show All 408 Lines • Show Last 20 Lines

llvm/test/Transforms/LoopVectorize/AArch64/intrinsiccost.ll

	Show All 15 Lines
	; CHECK-LABEL: @saddsat(			; CHECK-LABEL: @saddsat(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[CMP_NOT6:%.]] = icmp eq i32 [[BLOCKSIZE:%.]], 0			; CHECK-NEXT: [[CMP_NOT6:%.]] = icmp eq i32 [[BLOCKSIZE:%.]], 0
	; CHECK-NEXT: br i1 [[CMP_NOT6]], label [[WHILE_END:%.]], label [[WHILE_BODY_PREHEADER:%.]]			; CHECK-NEXT: br i1 [[CMP_NOT6]], label [[WHILE_END:%.]], label [[WHILE_BODY_PREHEADER:%.]]
	; CHECK: while.body.preheader:			; CHECK: while.body.preheader:
	; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[BLOCKSIZE]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[BLOCKSIZE]], -1
	; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64			; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64
	; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1			; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i32 [[TMP0]], 15			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i32 [[TMP0]], 31
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[N_VEC:%.*]] = and i64 [[TMP2]], 8589934576			; CHECK-NEXT: [[N_VEC:%.*]] = and i64 [[TMP2]], 8589934560
	; CHECK-NEXT: [[CAST_CRD:%.*]] = trunc i64 [[N_VEC]] to i32			; CHECK-NEXT: [[CAST_CRD:%.*]] = trunc i64 [[N_VEC]] to i32
	; CHECK-NEXT: [[IND_END:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD]]			; CHECK-NEXT: [[IND_END:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD]]
	; CHECK-NEXT: [[IND_END2:%.]] = getelementptr i16, i16 [[PSRC:%.*]], i64 [[N_VEC]]			; CHECK-NEXT: [[IND_END2:%.]] = getelementptr i16, i16 [[PSRC:%.*]], i64 [[N_VEC]]
	; CHECK-NEXT: [[IND_END4:%.]] = getelementptr i16, i16 [[PDST:%.*]], i64 [[N_VEC]]			; CHECK-NEXT: [[IND_END4:%.]] = getelementptr i16, i16 [[PDST:%.*]], i64 [[N_VEC]]
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT:%.]] = insertelement <8 x i16> poison, i16 [[OFFSET:%.]], i64 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT:%.]] = insertelement <8 x i16> poison, i16 [[OFFSET:%.]], i64 0
	; CHECK-NEXT: [[BROADCAST_SPLAT:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT]], <8 x i16> poison, <8 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT]], <8 x i16> poison, <8 x i32> zeroinitializer
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT9:%.*]] = insertelement <8 x i16> poison, i16 [[OFFSET]], i64 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT15:%.*]] = insertelement <8 x i16> poison, i16 [[OFFSET]], i64 0
	; CHECK-NEXT: [[BROADCAST_SPLAT10:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT9]], <8 x i16> poison, <8 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT16:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT15]], <8 x i16> poison, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[BROADCAST_SPLATINSERT17:%.*]] = insertelement <8 x i16> poison, i16 [[OFFSET]], i64 0
				; CHECK-NEXT: [[BROADCAST_SPLAT18:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT17]], <8 x i16> poison, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[BROADCAST_SPLATINSERT19:%.*]] = insertelement <8 x i16> poison, i16 [[OFFSET]], i64 0
				; CHECK-NEXT: [[BROADCAST_SPLAT20:%.*]] = shufflevector <8 x i16> [[BROADCAST_SPLATINSERT19]], <8 x i16> poison, <8 x i32> zeroinitializer
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[NEXT_GEP:%.]] = getelementptr i16, i16 [[PSRC]], i64 [[INDEX]]			; CHECK-NEXT: [[NEXT_GEP:%.]] = getelementptr i16, i16 [[PSRC]], i64 [[INDEX]]
	; CHECK-NEXT: [[NEXT_GEP6:%.]] = getelementptr i16, i16 [[PDST]], i64 [[INDEX]]			; CHECK-NEXT: [[NEXT_GEP8:%.]] = getelementptr i16, i16 [[PDST]], i64 [[INDEX]]
	; CHECK-NEXT: [[TMP3:%.]] = bitcast i16 [[NEXT_GEP]] to <8 x i16>*			; CHECK-NEXT: [[TMP3:%.]] = bitcast i16 [[NEXT_GEP]] to <8 x i16>*
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <8 x i16>, <8 x i16> [[TMP3]], align 2			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <8 x i16>, <8 x i16> [[TMP3]], align 2
	; CHECK-NEXT: [[TMP4:%.]] = getelementptr i16, i16 [[NEXT_GEP]], i64 8			; CHECK-NEXT: [[TMP4:%.]] = getelementptr i16, i16 [[NEXT_GEP]], i64 8
	; CHECK-NEXT: [[TMP5:%.]] = bitcast i16 [[TMP4]] to <8 x i16>*			; CHECK-NEXT: [[TMP5:%.]] = bitcast i16 [[TMP4]] to <8 x i16>*
	; CHECK-NEXT: [[WIDE_LOAD8:%.]] = load <8 x i16>, <8 x i16> [[TMP5]], align 2			; CHECK-NEXT: [[WIDE_LOAD12:%.]] = load <8 x i16>, <8 x i16> [[TMP5]], align 2
	; CHECK-NEXT: [[TMP6:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD]], <8 x i16> [[BROADCAST_SPLAT]])			; CHECK-NEXT: [[TMP6:%.]] = getelementptr i16, i16 [[NEXT_GEP]], i64 16
	; CHECK-NEXT: [[TMP7:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD8]], <8 x i16> [[BROADCAST_SPLAT10]])			; CHECK-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP6]] to <8 x i16>*
	; CHECK-NEXT: [[TMP8:%.]] = bitcast i16 [[NEXT_GEP6]] to <8 x i16>*			; CHECK-NEXT: [[WIDE_LOAD13:%.]] = load <8 x i16>, <8 x i16> [[TMP7]], align 2
	; CHECK-NEXT: store <8 x i16> [[TMP6]], <8 x i16>* [[TMP8]], align 2			; CHECK-NEXT: [[TMP8:%.]] = getelementptr i16, i16 [[NEXT_GEP]], i64 24
	; CHECK-NEXT: [[TMP9:%.]] = getelementptr i16, i16 [[NEXT_GEP6]], i64 8			; CHECK-NEXT: [[TMP9:%.]] = bitcast i16 [[TMP8]] to <8 x i16>*
	; CHECK-NEXT: [[TMP10:%.]] = bitcast i16 [[TMP9]] to <8 x i16>*			; CHECK-NEXT: [[WIDE_LOAD14:%.]] = load <8 x i16>, <8 x i16> [[TMP9]], align 2
	; CHECK-NEXT: store <8 x i16> [[TMP7]], <8 x i16>* [[TMP10]], align 2			; CHECK-NEXT: [[TMP10:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD]], <8 x i16> [[BROADCAST_SPLAT]])
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 16			; CHECK-NEXT: [[TMP11:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD12]], <8 x i16> [[BROADCAST_SPLAT16]])
	; CHECK-NEXT: [[TMP11:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP12:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD13]], <8 x i16> [[BROADCAST_SPLAT18]])
	; CHECK-NEXT: br i1 [[TMP11]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]			; CHECK-NEXT: [[TMP13:%.*]] = call <8 x i16> @llvm.sadd.sat.v8i16(<8 x i16> [[WIDE_LOAD14]], <8 x i16> [[BROADCAST_SPLAT20]])
				; CHECK-NEXT: [[TMP14:%.]] = bitcast i16 [[NEXT_GEP8]] to <8 x i16>*
				; CHECK-NEXT: store <8 x i16> [[TMP10]], <8 x i16>* [[TMP14]], align 2
				; CHECK-NEXT: [[TMP15:%.]] = getelementptr i16, i16 [[NEXT_GEP8]], i64 8
				; CHECK-NEXT: [[TMP16:%.]] = bitcast i16 [[TMP15]] to <8 x i16>*
				; CHECK-NEXT: store <8 x i16> [[TMP11]], <8 x i16>* [[TMP16]], align 2
				; CHECK-NEXT: [[TMP17:%.]] = getelementptr i16, i16 [[NEXT_GEP8]], i64 16
				; CHECK-NEXT: [[TMP18:%.]] = bitcast i16 [[TMP17]] to <8 x i16>*
				; CHECK-NEXT: store <8 x i16> [[TMP12]], <8 x i16>* [[TMP18]], align 2
				; CHECK-NEXT: [[TMP19:%.]] = getelementptr i16, i16 [[NEXT_GEP8]], i64 24
				; CHECK-NEXT: [[TMP20:%.]] = bitcast i16 [[TMP19]] to <8 x i16>*
				; CHECK-NEXT: store <8 x i16> [[TMP13]], <8 x i16>* [[TMP20]], align 2
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 32
				; CHECK-NEXT: [[TMP21:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP21]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[WHILE_END]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[WHILE_END]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i32 [ [[IND_END]], [[MIDDLE_BLOCK]] ], [ [[BLOCKSIZE]], [[WHILE_BODY_PREHEADER]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i32 [ [[IND_END]], [[MIDDLE_BLOCK]] ], [ [[BLOCKSIZE]], [[WHILE_BODY_PREHEADER]] ]
	; CHECK-NEXT: [[BC_RESUME_VAL1:%.]] = phi i16 [ [[IND_END2]], [[MIDDLE_BLOCK]] ], [ [[PSRC]], [[WHILE_BODY_PREHEADER]] ]			; CHECK-NEXT: [[BC_RESUME_VAL1:%.]] = phi i16 [ [[IND_END2]], [[MIDDLE_BLOCK]] ], [ [[PSRC]], [[WHILE_BODY_PREHEADER]] ]
	; CHECK-NEXT: [[BC_RESUME_VAL3:%.]] = phi i16 [ [[IND_END4]], [[MIDDLE_BLOCK]] ], [ [[PDST]], [[WHILE_BODY_PREHEADER]] ]			; CHECK-NEXT: [[BC_RESUME_VAL3:%.]] = phi i16 [ [[IND_END4]], [[MIDDLE_BLOCK]] ], [ [[PDST]], [[WHILE_BODY_PREHEADER]] ]
	; CHECK-NEXT: br label [[WHILE_BODY:%.*]]			; CHECK-NEXT: br label [[WHILE_BODY:%.*]]
	; CHECK: while.body:			; CHECK: while.body:
	; CHECK-NEXT: [[BLKCNT_09:%.]] = phi i32 [ [[DEC:%.]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[BLKCNT_09:%.]] = phi i32 [ [[DEC:%.]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[PSRC_ADDR_08:%.]] = phi i16 [ [[INCDEC_PTR:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL1]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[PSRC_ADDR_08:%.]] = phi i16 [ [[INCDEC_PTR:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL1]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[PDST_ADDR_07:%.]] = phi i16 [ [[INCDEC_PTR3:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL3]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[PDST_ADDR_07:%.]] = phi i16 [ [[INCDEC_PTR3:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL3]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[INCDEC_PTR]] = getelementptr inbounds i16, i16* [[PSRC_ADDR_08]], i64 1			; CHECK-NEXT: [[INCDEC_PTR]] = getelementptr inbounds i16, i16* [[PSRC_ADDR_08]], i64 1
	; CHECK-NEXT: [[TMP12:%.]] = load i16, i16 [[PSRC_ADDR_08]], align 2			; CHECK-NEXT: [[TMP22:%.]] = load i16, i16 [[PSRC_ADDR_08]], align 2
	; CHECK-NEXT: [[TMP13:%.*]] = tail call i16 @llvm.sadd.sat.i16(i16 [[TMP12]], i16 [[OFFSET]])			; CHECK-NEXT: [[TMP23:%.*]] = tail call i16 @llvm.sadd.sat.i16(i16 [[TMP22]], i16 [[OFFSET]])
	; CHECK-NEXT: [[INCDEC_PTR3]] = getelementptr inbounds i16, i16* [[PDST_ADDR_07]], i64 1			; CHECK-NEXT: [[INCDEC_PTR3]] = getelementptr inbounds i16, i16* [[PDST_ADDR_07]], i64 1
	; CHECK-NEXT: store i16 [[TMP13]], i16* [[PDST_ADDR_07]], align 2			; CHECK-NEXT: store i16 [[TMP23]], i16* [[PDST_ADDR_07]], align 2
	; CHECK-NEXT: [[DEC]] = add i32 [[BLKCNT_09]], -1			; CHECK-NEXT: [[DEC]] = add i32 [[BLKCNT_09]], -1
	; CHECK-NEXT: [[CMP_NOT:%.*]] = icmp eq i32 [[DEC]], 0			; CHECK-NEXT: [[CMP_NOT:%.*]] = icmp eq i32 [[DEC]], 0
	; CHECK-NEXT: br i1 [[CMP_NOT]], label [[WHILE_END]], label [[WHILE_BODY]], !llvm.loop [[LOOP2:![0-9]+]]			; CHECK-NEXT: br i1 [[CMP_NOT]], label [[WHILE_END]], label [[WHILE_BODY]], !llvm.loop [[LOOP2:![0-9]+]]
	; CHECK: while.end:			; CHECK: while.end:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	%cmp.not6 = icmp eq i32 %blockSize, 0			%cmp.not6 = icmp eq i32 %blockSize, 0
	Show All 30 Lines
	; CHECK-NEXT: br i1 [[CMP_NOT6]], label [[WHILE_END:%.]], label [[ITER_CHECK:%.]]			; CHECK-NEXT: br i1 [[CMP_NOT6]], label [[WHILE_END:%.]], label [[ITER_CHECK:%.]]
	; CHECK: iter.check:			; CHECK: iter.check:
	; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[BLOCKSIZE]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[BLOCKSIZE]], -1
	; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64			; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64
	; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1			; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i32 [[TMP0]], 7			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i32 [[TMP0]], 7
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]
	; CHECK: vector.main.loop.iter.check:			; CHECK: vector.main.loop.iter.check:
	; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i32 [[TMP0]], 31			; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i32 [[TMP0]], 63
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[N_VEC:%.*]] = and i64 [[TMP2]], 8589934560			; CHECK-NEXT: [[N_VEC:%.*]] = and i64 [[TMP2]], 8589934528
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT:%.]] = insertelement <16 x i8> poison, i8 [[OFFSET:%.]], i64 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT:%.]] = insertelement <16 x i8> poison, i8 [[OFFSET:%.]], i64 0
	; CHECK-NEXT: [[BROADCAST_SPLAT:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT]], <16 x i8> poison, <16 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT]], <16 x i8> poison, <16 x i32> zeroinitializer
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT6:%.*]] = insertelement <16 x i8> poison, i8 [[OFFSET]], i64 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT12:%.*]] = insertelement <16 x i8> poison, i8 [[OFFSET]], i64 0
	; CHECK-NEXT: [[BROADCAST_SPLAT7:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT6]], <16 x i8> poison, <16 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT13:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT12]], <16 x i8> poison, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[BROADCAST_SPLATINSERT14:%.*]] = insertelement <16 x i8> poison, i8 [[OFFSET]], i64 0
				; CHECK-NEXT: [[BROADCAST_SPLAT15:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT14]], <16 x i8> poison, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[BROADCAST_SPLATINSERT16:%.*]] = insertelement <16 x i8> poison, i8 [[OFFSET]], i64 0
				; CHECK-NEXT: [[BROADCAST_SPLAT17:%.*]] = shufflevector <16 x i8> [[BROADCAST_SPLATINSERT16]], <16 x i8> poison, <16 x i32> zeroinitializer
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[NEXT_GEP:%.]] = getelementptr i8, i8 [[PSRC:%.*]], i64 [[INDEX]]			; CHECK-NEXT: [[NEXT_GEP:%.]] = getelementptr i8, i8 [[PSRC:%.*]], i64 [[INDEX]]
	; CHECK-NEXT: [[NEXT_GEP3:%.]] = getelementptr i8, i8 [[PDST:%.*]], i64 [[INDEX]]			; CHECK-NEXT: [[NEXT_GEP5:%.]] = getelementptr i8, i8 [[PDST:%.*]], i64 [[INDEX]]
	; CHECK-NEXT: [[TMP3:%.]] = bitcast i8 [[NEXT_GEP]] to <16 x i8>*			; CHECK-NEXT: [[TMP3:%.]] = bitcast i8 [[NEXT_GEP]] to <16 x i8>*
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <16 x i8>, <16 x i8> [[TMP3]], align 2			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <16 x i8>, <16 x i8> [[TMP3]], align 2
	; CHECK-NEXT: [[TMP4:%.]] = getelementptr i8, i8 [[NEXT_GEP]], i64 16			; CHECK-NEXT: [[TMP4:%.]] = getelementptr i8, i8 [[NEXT_GEP]], i64 16
	; CHECK-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP4]] to <16 x i8>*			; CHECK-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP4]] to <16 x i8>*
	; CHECK-NEXT: [[WIDE_LOAD5:%.]] = load <16 x i8>, <16 x i8> [[TMP5]], align 2			; CHECK-NEXT: [[WIDE_LOAD9:%.]] = load <16 x i8>, <16 x i8> [[TMP5]], align 2
	; CHECK-NEXT: [[TMP6:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD]], <16 x i8> [[BROADCAST_SPLAT]])			; CHECK-NEXT: [[TMP6:%.]] = getelementptr i8, i8 [[NEXT_GEP]], i64 32
	; CHECK-NEXT: [[TMP7:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD5]], <16 x i8> [[BROADCAST_SPLAT7]])			; CHECK-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to <16 x i8>*
	; CHECK-NEXT: [[TMP8:%.]] = bitcast i8 [[NEXT_GEP3]] to <16 x i8>*			; CHECK-NEXT: [[WIDE_LOAD10:%.]] = load <16 x i8>, <16 x i8> [[TMP7]], align 2
	; CHECK-NEXT: store <16 x i8> [[TMP6]], <16 x i8>* [[TMP8]], align 2			; CHECK-NEXT: [[TMP8:%.]] = getelementptr i8, i8 [[NEXT_GEP]], i64 48
	; CHECK-NEXT: [[TMP9:%.]] = getelementptr i8, i8 [[NEXT_GEP3]], i64 16			; CHECK-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to <16 x i8>*
	; CHECK-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to <16 x i8>*			; CHECK-NEXT: [[WIDE_LOAD11:%.]] = load <16 x i8>, <16 x i8> [[TMP9]], align 2
	; CHECK-NEXT: store <16 x i8> [[TMP7]], <16 x i8>* [[TMP10]], align 2			; CHECK-NEXT: [[TMP10:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD]], <16 x i8> [[BROADCAST_SPLAT]])
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 32			; CHECK-NEXT: [[TMP11:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD9]], <16 x i8> [[BROADCAST_SPLAT13]])
	; CHECK-NEXT: [[TMP11:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP12:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD10]], <16 x i8> [[BROADCAST_SPLAT15]])
	; CHECK-NEXT: br i1 [[TMP11]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]			; CHECK-NEXT: [[TMP13:%.*]] = call <16 x i8> @llvm.umin.v16i8(<16 x i8> [[WIDE_LOAD11]], <16 x i8> [[BROADCAST_SPLAT17]])
				; CHECK-NEXT: [[TMP14:%.]] = bitcast i8 [[NEXT_GEP5]] to <16 x i8>*
				; CHECK-NEXT: store <16 x i8> [[TMP10]], <16 x i8>* [[TMP14]], align 2
				; CHECK-NEXT: [[TMP15:%.]] = getelementptr i8, i8 [[NEXT_GEP5]], i64 16
				; CHECK-NEXT: [[TMP16:%.]] = bitcast i8 [[TMP15]] to <16 x i8>*
				; CHECK-NEXT: store <16 x i8> [[TMP11]], <16 x i8>* [[TMP16]], align 2
				; CHECK-NEXT: [[TMP17:%.]] = getelementptr i8, i8 [[NEXT_GEP5]], i64 32
				; CHECK-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to <16 x i8>*
				; CHECK-NEXT: store <16 x i8> [[TMP12]], <16 x i8>* [[TMP18]], align 2
				; CHECK-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[NEXT_GEP5]], i64 48
				; CHECK-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to <16 x i8>*
				; CHECK-NEXT: store <16 x i8> [[TMP13]], <16 x i8>* [[TMP20]], align 2
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 64
				; CHECK-NEXT: [[TMP21:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP21]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[WHILE_END]], label [[VEC_EPILOG_ITER_CHECK:%.*]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[WHILE_END]], label [[VEC_EPILOG_ITER_CHECK:%.*]]
	; CHECK: vec.epilog.iter.check:			; CHECK: vec.epilog.iter.check:
	; CHECK-NEXT: [[IND_END19:%.]] = getelementptr i8, i8 [[PDST]], i64 [[N_VEC]]			; CHECK-NEXT: [[IND_END27:%.]] = getelementptr i8, i8 [[PDST]], i64 [[N_VEC]]
	; CHECK-NEXT: [[IND_END16:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[N_VEC]]			; CHECK-NEXT: [[IND_END24:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[N_VEC]]
	; CHECK-NEXT: [[CAST_CRD12:%.*]] = trunc i64 [[N_VEC]] to i32			; CHECK-NEXT: [[CAST_CRD20:%.*]] = trunc i64 [[N_VEC]] to i32
	; CHECK-NEXT: [[IND_END13:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD12]]			; CHECK-NEXT: [[IND_END21:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD20]]
	; CHECK-NEXT: [[N_VEC_REMAINING:%.*]] = and i64 [[TMP2]], 24			; CHECK-NEXT: [[N_VEC_REMAINING:%.*]] = and i64 [[TMP2]], 56
	; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp eq i64 [[N_VEC_REMAINING]], 0			; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp eq i64 [[N_VEC_REMAINING]], 0
	; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]			; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]
	; CHECK: vec.epilog.ph:			; CHECK: vec.epilog.ph:
	; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]			; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]
	; CHECK-NEXT: [[TMP12:%.*]] = add i32 [[BLOCKSIZE]], -1			; CHECK-NEXT: [[TMP22:%.*]] = add i32 [[BLOCKSIZE]], -1
	; CHECK-NEXT: [[TMP13:%.*]] = zext i32 [[TMP12]] to i64			; CHECK-NEXT: [[TMP23:%.*]] = zext i32 [[TMP22]] to i64
	; CHECK-NEXT: [[TMP14:%.*]] = add nuw nsw i64 [[TMP13]], 1			; CHECK-NEXT: [[TMP24:%.*]] = add nuw nsw i64 [[TMP23]], 1
	; CHECK-NEXT: [[N_VEC9:%.*]] = and i64 [[TMP14]], 8589934584			; CHECK-NEXT: [[N_VEC19:%.*]] = and i64 [[TMP24]], 8589934584
	; CHECK-NEXT: [[CAST_CRD:%.*]] = trunc i64 [[N_VEC9]] to i32			; CHECK-NEXT: [[CAST_CRD:%.*]] = trunc i64 [[N_VEC19]] to i32
	; CHECK-NEXT: [[IND_END:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD]]			; CHECK-NEXT: [[IND_END:%.*]] = sub i32 [[BLOCKSIZE]], [[CAST_CRD]]
	; CHECK-NEXT: [[IND_END15:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[N_VEC9]]			; CHECK-NEXT: [[IND_END23:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[N_VEC19]]
	; CHECK-NEXT: [[IND_END18:%.]] = getelementptr i8, i8 [[PDST]], i64 [[N_VEC9]]			; CHECK-NEXT: [[IND_END26:%.]] = getelementptr i8, i8 [[PDST]], i64 [[N_VEC19]]
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT25:%.*]] = insertelement <8 x i8> poison, i8 [[OFFSET]], i64 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT34:%.*]] = insertelement <8 x i8> poison, i8 [[OFFSET]], i64 0
	; CHECK-NEXT: [[BROADCAST_SPLAT26:%.*]] = shufflevector <8 x i8> [[BROADCAST_SPLATINSERT25]], <8 x i8> poison, <8 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT35:%.*]] = shufflevector <8 x i8> [[BROADCAST_SPLATINSERT34]], <8 x i8> poison, <8 x i32> zeroinitializer
	; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]
	; CHECK: vec.epilog.vector.body:			; CHECK: vec.epilog.vector.body:
	; CHECK-NEXT: [[INDEX10:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT11:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX29:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT36:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
	; CHECK-NEXT: [[NEXT_GEP22:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[INDEX10]]			; CHECK-NEXT: [[NEXT_GEP31:%.]] = getelementptr i8, i8 [[PSRC]], i64 [[INDEX29]]
	; CHECK-NEXT: [[NEXT_GEP23:%.]] = getelementptr i8, i8 [[PDST]], i64 [[INDEX10]]			; CHECK-NEXT: [[NEXT_GEP32:%.]] = getelementptr i8, i8 [[PDST]], i64 [[INDEX29]]
	; CHECK-NEXT: [[TMP15:%.]] = bitcast i8 [[NEXT_GEP22]] to <8 x i8>*			; CHECK-NEXT: [[TMP25:%.]] = bitcast i8 [[NEXT_GEP31]] to <8 x i8>*
	; CHECK-NEXT: [[WIDE_LOAD24:%.]] = load <8 x i8>, <8 x i8> [[TMP15]], align 2			; CHECK-NEXT: [[WIDE_LOAD33:%.]] = load <8 x i8>, <8 x i8> [[TMP25]], align 2
	; CHECK-NEXT: [[TMP16:%.*]] = call <8 x i8> @llvm.umin.v8i8(<8 x i8> [[WIDE_LOAD24]], <8 x i8> [[BROADCAST_SPLAT26]])			; CHECK-NEXT: [[TMP26:%.*]] = call <8 x i8> @llvm.umin.v8i8(<8 x i8> [[WIDE_LOAD33]], <8 x i8> [[BROADCAST_SPLAT35]])
	; CHECK-NEXT: [[TMP17:%.]] = bitcast i8 [[NEXT_GEP23]] to <8 x i8>*			; CHECK-NEXT: [[TMP27:%.]] = bitcast i8 [[NEXT_GEP32]] to <8 x i8>*
	; CHECK-NEXT: store <8 x i8> [[TMP16]], <8 x i8>* [[TMP17]], align 2			; CHECK-NEXT: store <8 x i8> [[TMP26]], <8 x i8>* [[TMP27]], align 2
	; CHECK-NEXT: [[INDEX_NEXT11]] = add nuw i64 [[INDEX10]], 8			; CHECK-NEXT: [[INDEX_NEXT36]] = add nuw i64 [[INDEX29]], 8
	; CHECK-NEXT: [[TMP18:%.*]] = icmp eq i64 [[INDEX_NEXT11]], [[N_VEC9]]			; CHECK-NEXT: [[TMP28:%.*]] = icmp eq i64 [[INDEX_NEXT36]], [[N_VEC19]]
	; CHECK-NEXT: br i1 [[TMP18]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]			; CHECK-NEXT: br i1 [[TMP28]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]
	; CHECK: vec.epilog.middle.block:			; CHECK: vec.epilog.middle.block:
	; CHECK-NEXT: [[CMP_N20:%.*]] = icmp eq i64 [[TMP14]], [[N_VEC9]]			; CHECK-NEXT: [[CMP_N28:%.*]] = icmp eq i64 [[TMP24]], [[N_VEC19]]
	; CHECK-NEXT: br i1 [[CMP_N20]], label [[WHILE_END]], label [[VEC_EPILOG_SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N28]], label [[WHILE_END]], label [[VEC_EPILOG_SCALAR_PH]]
	; CHECK: vec.epilog.scalar.ph:			; CHECK: vec.epilog.scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i32 [ [[IND_END]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END13]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[BLOCKSIZE]], [[ITER_CHECK]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i32 [ [[IND_END]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END21]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[BLOCKSIZE]], [[ITER_CHECK]] ]
	; CHECK-NEXT: [[BC_RESUME_VAL14:%.]] = phi i8 [ [[IND_END15]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END16]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[PSRC]], [[ITER_CHECK]] ]			; CHECK-NEXT: [[BC_RESUME_VAL22:%.]] = phi i8 [ [[IND_END23]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END24]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[PSRC]], [[ITER_CHECK]] ]
	; CHECK-NEXT: [[BC_RESUME_VAL17:%.]] = phi i8 [ [[IND_END18]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END19]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[PDST]], [[ITER_CHECK]] ]			; CHECK-NEXT: [[BC_RESUME_VAL25:%.]] = phi i8 [ [[IND_END26]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[IND_END27]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[PDST]], [[ITER_CHECK]] ]
	; CHECK-NEXT: br label [[WHILE_BODY:%.*]]			; CHECK-NEXT: br label [[WHILE_BODY:%.*]]
	; CHECK: while.body:			; CHECK: while.body:
	; CHECK-NEXT: [[BLKCNT_09:%.]] = phi i32 [ [[DEC:%.]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]			; CHECK-NEXT: [[BLKCNT_09:%.]] = phi i32 [ [[DEC:%.]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[PSRC_ADDR_08:%.]] = phi i8 [ [[INCDEC_PTR:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL14]], [[VEC_EPILOG_SCALAR_PH]] ]			; CHECK-NEXT: [[PSRC_ADDR_08:%.]] = phi i8 [ [[INCDEC_PTR:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL22]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[PDST_ADDR_07:%.]] = phi i8 [ [[INCDEC_PTR3:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL17]], [[VEC_EPILOG_SCALAR_PH]] ]			; CHECK-NEXT: [[PDST_ADDR_07:%.]] = phi i8 [ [[INCDEC_PTR3:%.*]], [[WHILE_BODY]] ], [ [[BC_RESUME_VAL25]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[INCDEC_PTR]] = getelementptr inbounds i8, i8* [[PSRC_ADDR_08]], i64 1			; CHECK-NEXT: [[INCDEC_PTR]] = getelementptr inbounds i8, i8* [[PSRC_ADDR_08]], i64 1
	; CHECK-NEXT: [[TMP19:%.]] = load i8, i8 [[PSRC_ADDR_08]], align 2			; CHECK-NEXT: [[TMP29:%.]] = load i8, i8 [[PSRC_ADDR_08]], align 2
	; CHECK-NEXT: [[TMP20:%.*]] = tail call i8 @llvm.umin.i8(i8 [[TMP19]], i8 [[OFFSET]])			; CHECK-NEXT: [[TMP30:%.*]] = tail call i8 @llvm.umin.i8(i8 [[TMP29]], i8 [[OFFSET]])
	; CHECK-NEXT: [[INCDEC_PTR3]] = getelementptr inbounds i8, i8* [[PDST_ADDR_07]], i64 1			; CHECK-NEXT: [[INCDEC_PTR3]] = getelementptr inbounds i8, i8* [[PDST_ADDR_07]], i64 1
	; CHECK-NEXT: store i8 [[TMP20]], i8* [[PDST_ADDR_07]], align 2			; CHECK-NEXT: store i8 [[TMP30]], i8* [[PDST_ADDR_07]], align 2
	; CHECK-NEXT: [[DEC]] = add i32 [[BLKCNT_09]], -1			; CHECK-NEXT: [[DEC]] = add i32 [[BLKCNT_09]], -1
	; CHECK-NEXT: [[CMP_NOT:%.*]] = icmp eq i32 [[DEC]], 0			; CHECK-NEXT: [[CMP_NOT:%.*]] = icmp eq i32 [[DEC]], 0
	; CHECK-NEXT: br i1 [[CMP_NOT]], label [[WHILE_END]], label [[WHILE_BODY]], !llvm.loop [[LOOP6:![0-9]+]]			; CHECK-NEXT: br i1 [[CMP_NOT]], label [[WHILE_END]], label [[WHILE_BODY]], !llvm.loop [[LOOP6:![0-9]+]]
	; CHECK: while.end:			; CHECK: while.end:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	%cmp.not6 = icmp eq i32 %blockSize, 0			%cmp.not6 = icmp eq i32 %blockSize, 0
	Show All 22 Lines

llvm/test/Transforms/LoopVectorize/AArch64/sve-epilog-vect-inloop-reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -loop-vectorize -mtriple aarch64-unknown-linux-gnu -mattr=+sve -epilogue-vectorization-force-VF=2 -prefer-inloop-reductions -S \| FileCheck %s			; RUN: opt < %s -loop-vectorize -mtriple aarch64-unknown-linux-gnu -mattr=+sve -epilogue-vectorization-force-VF=2 -prefer-inloop-reductions -S \| FileCheck %s

	;			;
	; In-loop integer and reduction			; In-loop integer and reduction
	;			;
	define i64 @int_reduction_and(i64* noalias nocapture %a, i64 %N) {			define i64 @int_reduction_and(i64* noalias nocapture %a, i64 %N) {
	; CHECK-LABEL: @int_reduction_and(			; CHECK-LABEL: @int_reduction_and(
	; CHECK-NEXT: iter.check:			; CHECK-NEXT: iter.check:
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.]] = icmp ult i64 [[N:%.]], 2			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.]] = icmp ult i64 [[N:%.]], 2
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]
	; CHECK: vector.main.loop.iter.check:			; CHECK: vector.main.loop.iter.check:
	; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP1:%.*]] = mul i64 [[TMP0]], 4			; CHECK-NEXT: [[TMP1:%.*]] = mul i64 [[TMP0]], 8
	; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i64 [[N]], [[TMP1]]			; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i64 [[N]], [[TMP1]]
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP3:%.*]] = mul i64 [[TMP2]], 4			; CHECK-NEXT: [[TMP3:%.*]] = mul i64 [[TMP2]], 8
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[N]], [[TMP3]]			; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[N]], [[TMP3]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[N]], [[N_MOD_VF]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[N]], [[N_MOD_VF]]
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI:%.]] = phi i64 [ 1, [[VECTOR_PH]] ], [ [[TMP19:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI:%.]] = phi i64 [ 1, [[VECTOR_PH]] ], [ [[TMP39:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI2:%.]] = phi i64 [ -1, [[VECTOR_PH]] ], [ [[TMP21:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI2:%.]] = phi i64 [ -1, [[VECTOR_PH]] ], [ [[TMP41:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI3:%.]] = phi i64 [ -1, [[VECTOR_PH]] ], [ [[TMP43:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI4:%.]] = phi i64 [ -1, [[VECTOR_PH]] ], [ [[TMP45:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP4:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP4:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 2			; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 2
	; CHECK-NEXT: [[TMP7:%.*]] = add i64 [[TMP6]], 0			; CHECK-NEXT: [[TMP7:%.*]] = add i64 [[TMP6]], 0
	; CHECK-NEXT: [[TMP8:%.*]] = mul i64 [[TMP7]], 1			; CHECK-NEXT: [[TMP8:%.*]] = mul i64 [[TMP7]], 1
	; CHECK-NEXT: [[TMP9:%.*]] = add i64 [[INDEX]], [[TMP8]]			; CHECK-NEXT: [[TMP9:%.*]] = add i64 [[INDEX]], [[TMP8]]
	; CHECK-NEXT: [[TMP10:%.]] = getelementptr inbounds i64, i64 [[A:%.*]], i64 [[TMP4]]			; CHECK-NEXT: [[TMP10:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP11:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP9]]			; CHECK-NEXT: [[TMP11:%.*]] = mul i64 [[TMP10]], 4
	; CHECK-NEXT: [[TMP12:%.]] = getelementptr inbounds i64, i64 [[TMP10]], i32 0			; CHECK-NEXT: [[TMP12:%.*]] = add i64 [[TMP11]], 0
	; CHECK-NEXT: [[TMP13:%.]] = bitcast i64 [[TMP12]] to <vscale x 2 x i64>*			; CHECK-NEXT: [[TMP13:%.*]] = mul i64 [[TMP12]], 1
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP13]], align 4			; CHECK-NEXT: [[TMP14:%.*]] = add i64 [[INDEX]], [[TMP13]]
	; CHECK-NEXT: [[TMP14:%.*]] = call i32 @llvm.vscale.i32()			; CHECK-NEXT: [[TMP15:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP15:%.*]] = mul i32 [[TMP14]], 2			; CHECK-NEXT: [[TMP16:%.*]] = mul i64 [[TMP15]], 6
	; CHECK-NEXT: [[TMP16:%.]] = getelementptr inbounds i64, i64 [[TMP10]], i32 [[TMP15]]			; CHECK-NEXT: [[TMP17:%.*]] = add i64 [[TMP16]], 0
	; CHECK-NEXT: [[TMP17:%.]] = bitcast i64 [[TMP16]] to <vscale x 2 x i64>*			; CHECK-NEXT: [[TMP18:%.*]] = mul i64 [[TMP17]], 1
	; CHECK-NEXT: [[WIDE_LOAD3:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP17]], align 4			; CHECK-NEXT: [[TMP19:%.*]] = add i64 [[INDEX]], [[TMP18]]
	; CHECK-NEXT: [[TMP18:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD]])			; CHECK-NEXT: [[TMP20:%.]] = getelementptr inbounds i64, i64 [[A:%.*]], i64 [[TMP4]]
	; CHECK-NEXT: [[TMP19]] = and i64 [[TMP18]], [[VEC_PHI]]			; CHECK-NEXT: [[TMP21:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP9]]
	; CHECK-NEXT: [[TMP20:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD3]])			; CHECK-NEXT: [[TMP22:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP14]]
	; CHECK-NEXT: [[TMP21]] = and i64 [[TMP20]], [[VEC_PHI2]]			; CHECK-NEXT: [[TMP23:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP19]]
	; CHECK-NEXT: [[TMP22:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP24:%.]] = getelementptr inbounds i64, i64 [[TMP20]], i32 0
	; CHECK-NEXT: [[TMP23:%.*]] = mul i64 [[TMP22]], 4			; CHECK-NEXT: [[TMP25:%.]] = bitcast i64 [[TMP24]] to <vscale x 2 x i64>*
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP23]]			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP25]], align 4
	; CHECK-NEXT: [[TMP24:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP26:%.*]] = call i32 @llvm.vscale.i32()
	; CHECK-NEXT: br i1 [[TMP24]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]			; CHECK-NEXT: [[TMP27:%.*]] = mul i32 [[TMP26]], 2
				; CHECK-NEXT: [[TMP28:%.]] = getelementptr inbounds i64, i64 [[TMP20]], i32 [[TMP27]]
				; CHECK-NEXT: [[TMP29:%.]] = bitcast i64 [[TMP28]] to <vscale x 2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD5:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP29]], align 4
				; CHECK-NEXT: [[TMP30:%.*]] = call i32 @llvm.vscale.i32()
				; CHECK-NEXT: [[TMP31:%.*]] = mul i32 [[TMP30]], 4
				; CHECK-NEXT: [[TMP32:%.]] = getelementptr inbounds i64, i64 [[TMP20]], i32 [[TMP31]]
				; CHECK-NEXT: [[TMP33:%.]] = bitcast i64 [[TMP32]] to <vscale x 2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD6:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP33]], align 4
				; CHECK-NEXT: [[TMP34:%.*]] = call i32 @llvm.vscale.i32()
				; CHECK-NEXT: [[TMP35:%.*]] = mul i32 [[TMP34]], 6
				; CHECK-NEXT: [[TMP36:%.]] = getelementptr inbounds i64, i64 [[TMP20]], i32 [[TMP35]]
				; CHECK-NEXT: [[TMP37:%.]] = bitcast i64 [[TMP36]] to <vscale x 2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD7:%.]] = load <vscale x 2 x i64>, <vscale x 2 x i64> [[TMP37]], align 4
				; CHECK-NEXT: [[TMP38:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD]])
				; CHECK-NEXT: [[TMP39]] = and i64 [[TMP38]], [[VEC_PHI]]
				; CHECK-NEXT: [[TMP40:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD5]])
				; CHECK-NEXT: [[TMP41]] = and i64 [[TMP40]], [[VEC_PHI2]]
				; CHECK-NEXT: [[TMP42:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD6]])
				; CHECK-NEXT: [[TMP43]] = and i64 [[TMP42]], [[VEC_PHI3]]
				; CHECK-NEXT: [[TMP44:%.*]] = call i64 @llvm.vector.reduce.and.nxv2i64(<vscale x 2 x i64> [[WIDE_LOAD7]])
				; CHECK-NEXT: [[TMP45]] = and i64 [[TMP44]], [[VEC_PHI4]]
				; CHECK-NEXT: [[TMP46:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP47:%.*]] = mul i64 [[TMP46]], 8
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP47]]
				; CHECK-NEXT: [[TMP48:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP48]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[BIN_RDX:%.*]] = and i64 [[TMP21]], [[TMP19]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = and i64 [[TMP41]], [[TMP39]]
				; CHECK-NEXT: [[BIN_RDX8:%.*]] = and i64 [[TMP43]], [[BIN_RDX]]
				; CHECK-NEXT: [[BIN_RDX9:%.*]] = and i64 [[TMP45]], [[BIN_RDX8]]
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[N]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[N]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_END:%.]], label [[VEC_EPILOG_ITER_CHECK:%.]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_END:%.]], label [[VEC_EPILOG_ITER_CHECK:%.]]
	; CHECK: vec.epilog.iter.check:			; CHECK: vec.epilog.iter.check:
	; CHECK-NEXT: [[N_VEC_REMAINING:%.*]] = sub i64 [[N]], [[N_VEC]]			; CHECK-NEXT: [[N_VEC_REMAINING:%.*]] = sub i64 [[N]], [[N_VEC]]
	; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp ult i64 [[N_VEC_REMAINING]], 2			; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp ult i64 [[N_VEC_REMAINING]], 2
	; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]			; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]
	; CHECK: vec.epilog.ph:			; CHECK: vec.epilog.ph:
	; CHECK-NEXT: [[BC_MERGE_RDX:%.*]] = phi i64 [ 1, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ], [ [[BIN_RDX]], [[VEC_EPILOG_ITER_CHECK]] ]			; CHECK-NEXT: [[BC_MERGE_RDX:%.*]] = phi i64 [ 1, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ], [ [[BIN_RDX9]], [[VEC_EPILOG_ITER_CHECK]] ]
	; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]			; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]
	; CHECK-NEXT: [[N_MOD_VF5:%.*]] = urem i64 [[N]], 2			; CHECK-NEXT: [[N_MOD_VF11:%.*]] = urem i64 [[N]], 2
	; CHECK-NEXT: [[N_VEC6:%.*]] = sub i64 [[N]], [[N_MOD_VF5]]			; CHECK-NEXT: [[N_VEC12:%.*]] = sub i64 [[N]], [[N_MOD_VF11]]
	; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]
	; CHECK: vec.epilog.vector.body:			; CHECK: vec.epilog.vector.body:
	; CHECK-NEXT: [[INDEX8:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT11:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX14:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT17:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI9:%.]] = phi i64 [ [[BC_MERGE_RDX]], [[VEC_EPILOG_PH]] ], [ [[TMP30:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI15:%.]] = phi i64 [ [[BC_MERGE_RDX]], [[VEC_EPILOG_PH]] ], [ [[TMP54:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP25:%.*]] = add i64 [[INDEX8]], 0			; CHECK-NEXT: [[TMP49:%.*]] = add i64 [[INDEX14]], 0
	; CHECK-NEXT: [[TMP26:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP25]]			; CHECK-NEXT: [[TMP50:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[TMP49]]
	; CHECK-NEXT: [[TMP27:%.]] = getelementptr inbounds i64, i64 [[TMP26]], i32 0			; CHECK-NEXT: [[TMP51:%.]] = getelementptr inbounds i64, i64 [[TMP50]], i32 0
	; CHECK-NEXT: [[TMP28:%.]] = bitcast i64 [[TMP27]] to <2 x i64>*			; CHECK-NEXT: [[TMP52:%.]] = bitcast i64 [[TMP51]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD10:%.]] = load <2 x i64>, <2 x i64> [[TMP28]], align 4			; CHECK-NEXT: [[WIDE_LOAD16:%.]] = load <2 x i64>, <2 x i64> [[TMP52]], align 4
	; CHECK-NEXT: [[TMP29:%.*]] = call i64 @llvm.vector.reduce.and.v2i64(<2 x i64> [[WIDE_LOAD10]])			; CHECK-NEXT: [[TMP53:%.*]] = call i64 @llvm.vector.reduce.and.v2i64(<2 x i64> [[WIDE_LOAD16]])
	; CHECK-NEXT: [[TMP30]] = and i64 [[TMP29]], [[VEC_PHI9]]			; CHECK-NEXT: [[TMP54]] = and i64 [[TMP53]], [[VEC_PHI15]]
	; CHECK-NEXT: [[INDEX_NEXT11]] = add nuw i64 [[INDEX8]], 2			; CHECK-NEXT: [[INDEX_NEXT17]] = add nuw i64 [[INDEX14]], 2
	; CHECK-NEXT: [[TMP31:%.*]] = icmp eq i64 [[INDEX_NEXT11]], [[N_VEC6]]			; CHECK-NEXT: [[TMP55:%.*]] = icmp eq i64 [[INDEX_NEXT17]], [[N_VEC12]]
	; CHECK-NEXT: br i1 [[TMP31]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP2:![0-9]+]]			; CHECK-NEXT: br i1 [[TMP55]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP2:![0-9]+]]
	; CHECK: vec.epilog.middle.block:			; CHECK: vec.epilog.middle.block:
	; CHECK-NEXT: [[CMP_N7:%.*]] = icmp eq i64 [[N]], [[N_VEC6]]			; CHECK-NEXT: [[CMP_N13:%.*]] = icmp eq i64 [[N]], [[N_VEC12]]
	; CHECK-NEXT: br i1 [[CMP_N7]], label [[FOR_END_LOOPEXIT:%.*]], label [[VEC_EPILOG_SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N13]], label [[FOR_END_LOOPEXIT:%.*]], label [[VEC_EPILOG_SCALAR_PH]]
	; CHECK: vec.epilog.scalar.ph:			; CHECK: vec.epilog.scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC6]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[ITER_CHECK:%.]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC12]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[ITER_CHECK:%.]] ]
	; CHECK-NEXT: [[BC_MERGE_RDX12:%.*]] = phi i64 [ 1, [[ITER_CHECK]] ], [ [[BIN_RDX]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[TMP30]], [[VEC_EPILOG_MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[BC_MERGE_RDX18:%.*]] = phi i64 [ 1, [[ITER_CHECK]] ], [ [[BIN_RDX9]], [[VEC_EPILOG_ITER_CHECK]] ], [ [[TMP54]], [[VEC_EPILOG_MIDDLE_BLOCK]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[RDX:%.]] = phi i64 [ [[AND:%.]], [[FOR_BODY]] ], [ [[BC_MERGE_RDX12]], [[VEC_EPILOG_SCALAR_PH]] ]			; CHECK-NEXT: [[RDX:%.]] = phi i64 [ [[AND:%.]], [[FOR_BODY]] ], [ [[BC_MERGE_RDX18]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[L2:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[IV]]			; CHECK-NEXT: [[L2:%.]] = getelementptr inbounds i64, i64 [[A]], i64 [[IV]]
	; CHECK-NEXT: [[L3:%.]] = load i64, i64 [[L2]], align 4			; CHECK-NEXT: [[L3:%.]] = load i64, i64 [[L2]], align 4
	; CHECK-NEXT: [[AND]] = and i64 [[RDX]], [[L3]]			; CHECK-NEXT: [[AND]] = and i64 [[RDX]], [[L3]]
	; CHECK-NEXT: [[IV_NEXT]] = add i64 [[IV]], 1			; CHECK-NEXT: [[IV_NEXT]] = add i64 [[IV]], 1
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV_NEXT]], [[N]]			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV_NEXT]], [[N]]
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[FOR_END_LOOPEXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[FOR_END_LOOPEXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]
	; CHECK: for.end.loopexit:			; CHECK: for.end.loopexit:
	; CHECK-NEXT: [[AND_LCSSA4:%.*]] = phi i64 [ [[AND]], [[FOR_BODY]] ], [ [[TMP30]], [[VEC_EPILOG_MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[AND_LCSSA10:%.*]] = phi i64 [ [[AND]], [[FOR_BODY]] ], [ [[TMP54]], [[VEC_EPILOG_MIDDLE_BLOCK]] ]
	; CHECK-NEXT: br label [[FOR_END]]			; CHECK-NEXT: br label [[FOR_END]]
	; CHECK: for.end:			; CHECK: for.end:
	; CHECK-NEXT: [[AND_LCSSA:%.*]] = phi i64 [ [[BIN_RDX]], [[MIDDLE_BLOCK]] ], [ [[AND_LCSSA4]], [[FOR_END_LOOPEXIT]] ]			; CHECK-NEXT: [[AND_LCSSA:%.*]] = phi i64 [ [[BIN_RDX9]], [[MIDDLE_BLOCK]] ], [ [[AND_LCSSA10]], [[FOR_END_LOOPEXIT]] ]
	; CHECK-NEXT: ret i64 [[AND_LCSSA]]			; CHECK-NEXT: ret i64 [[AND_LCSSA]]
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]			%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]
	%rdx = phi i64 [ %and, %for.body ], [ 1, %entry ]			%rdx = phi i64 [ %and, %for.body ], [ 1, %entry ]
	Show All 14 Lines

llvm/test/Transforms/LoopVectorize/AArch64/sve-gather-scatter.ll

	Show First 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
	}			}



	define void @gather_nxv4i32_ind64_stride2(float* noalias nocapture readonly %a, float* noalias nocapture readonly %b, i64 %n) #0 {			define void @gather_nxv4i32_ind64_stride2(float* noalias nocapture readonly %a, float* noalias nocapture readonly %b, i64 %n) #0 {
	; CHECK-LABEL: @gather_nxv4i32_ind64_stride2(			; CHECK-LABEL: @gather_nxv4i32_ind64_stride2(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[TMP0]], 3			; CHECK-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[TMP0]], 4
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.]] = icmp ugt i64 [[TMP1]], [[N:%.]]			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.]] = icmp ugt i64 [[TMP1]], [[N:%.]]
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP3:%.*]] = shl nuw nsw i64 [[TMP2]], 3			; CHECK-NEXT: [[TMP3:%.*]] = shl nuw nsw i64 [[TMP2]], 4
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[N]], [[TMP3]]			; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[N]], [[TMP3]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[N]], [[N_MOD_VF]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[N]], [[N_MOD_VF]]
				; CHECK-NEXT: [[TMP4:%.*]] = call <vscale x 4 x i64> @llvm.experimental.stepvector.nxv4i64()
				; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP6:%.*]] = shl nuw nsw i64 [[TMP5]], 2
				; CHECK-NEXT: [[DOTSPLATINSERT:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[TMP6]], i64 0
				; CHECK-NEXT: [[DOTSPLAT:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP4:%.*]] = call <vscale x 4 x i64> @llvm.experimental.stepvector.nxv4i64()			; CHECK-NEXT: [[VEC_IND:%.]] = phi <vscale x 4 x i64> [ [[TMP4]], [[VECTOR_PH]] ], [ [[VEC_IND_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[DOTSPLATINSERT2:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[INDEX]], i64 0			; CHECK-NEXT: [[REASS_ADD:%.*]] = shl <vscale x 4 x i64> [[DOTSPLAT]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
	; CHECK-NEXT: [[DOTSPLAT3:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT2]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer			; CHECK-NEXT: [[STEP_ADD1:%.*]] = add <vscale x 4 x i64> [[VEC_IND]], [[REASS_ADD]]
	; CHECK-NEXT: [[TMP5:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT3]], [[TMP4]]			; CHECK-NEXT: [[TMP7:%.*]] = call <vscale x 4 x i64> @llvm.experimental.stepvector.nxv4i64()
	; CHECK-NEXT: [[TMP6:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[DOTSPLATINSERT4:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[INDEX]], i64 0
	; CHECK-NEXT: [[TMP7:%.*]] = shl nuw nsw i64 [[TMP6]], 2
	; CHECK-NEXT: [[DOTSPLATINSERT4:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[TMP7]], i64 0
	; CHECK-NEXT: [[DOTSPLAT5:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT4]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer			; CHECK-NEXT: [[DOTSPLAT5:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT4]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP8:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT5]], [[TMP4]]			; CHECK-NEXT: [[TMP8:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT5]], [[TMP7]]
	; CHECK-NEXT: [[TMP9:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT3]], [[TMP8]]			; CHECK-NEXT: [[TMP9:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP10:%.*]] = shl <vscale x 4 x i64> [[TMP5]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)			; CHECK-NEXT: [[TMP10:%.*]] = shl nuw nsw i64 [[TMP9]], 2
	; CHECK-NEXT: [[TMP11:%.*]] = shl <vscale x 4 x i64> [[TMP9]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)			; CHECK-NEXT: [[DOTSPLATINSERT6:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[TMP10]], i64 0
	; CHECK-NEXT: [[TMP12:%.]] = getelementptr inbounds float, float [[B:%.*]], <vscale x 4 x i64> [[TMP10]]			; CHECK-NEXT: [[DOTSPLAT7:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT6]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds float, float [[B]], <vscale x 4 x i64> [[TMP11]]			; CHECK-NEXT: [[TMP11:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT7]], [[TMP7]]
	; CHECK-NEXT: [[WIDE_MASKED_GATHER:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP12]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)			; CHECK-NEXT: [[TMP12:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT5]], [[TMP11]]
	; CHECK-NEXT: [[WIDE_MASKED_GATHER6:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP13]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)			; CHECK-NEXT: [[TMP13:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP14:%.]] = getelementptr inbounds float, float [[A:%.*]], i64 [[INDEX]]			; CHECK-NEXT: [[TMP14:%.*]] = shl nuw nsw i64 [[TMP13]], 3
	; CHECK-NEXT: [[TMP15:%.]] = bitcast float [[TMP14]] to <vscale x 4 x float>*			; CHECK-NEXT: [[DOTSPLATINSERT8:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[TMP14]], i64 0
	; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER]], <vscale x 4 x float>* [[TMP15]], align 4			; CHECK-NEXT: [[DOTSPLAT9:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT8]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP16:%.*]] = call i32 @llvm.vscale.i32()			; CHECK-NEXT: [[TMP15:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT9]], [[TMP7]]
	; CHECK-NEXT: [[TMP17:%.*]] = shl nuw nsw i32 [[TMP16]], 2			; CHECK-NEXT: [[TMP16:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT5]], [[TMP15]]
	; CHECK-NEXT: [[TMP18:%.*]] = zext i32 [[TMP17]] to i64			; CHECK-NEXT: [[TMP17:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP19:%.]] = getelementptr inbounds float, float [[TMP14]], i64 [[TMP18]]			; CHECK-NEXT: [[TMP18:%.*]] = mul nuw nsw i64 [[TMP17]], 12
	; CHECK-NEXT: [[TMP20:%.]] = bitcast float [[TMP19]] to <vscale x 4 x float>*			; CHECK-NEXT: [[DOTSPLATINSERT10:%.*]] = insertelement <vscale x 4 x i64> poison, i64 [[TMP18]], i64 0
	; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER6]], <vscale x 4 x float>* [[TMP20]], align 4			; CHECK-NEXT: [[DOTSPLAT11:%.*]] = shufflevector <vscale x 4 x i64> [[DOTSPLATINSERT10]], <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP21:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP19:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT11]], [[TMP7]]
	; CHECK-NEXT: [[TMP22:%.*]] = shl nuw nsw i64 [[TMP21]], 3			; CHECK-NEXT: [[TMP20:%.*]] = add <vscale x 4 x i64> [[DOTSPLAT5]], [[TMP19]]
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP22]]			; CHECK-NEXT: [[TMP21:%.*]] = shl <vscale x 4 x i64> [[TMP8]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
	; CHECK-NEXT: [[TMP23:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP22:%.*]] = shl <vscale x 4 x i64> [[TMP12]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
	; CHECK-NEXT: br i1 [[TMP23]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP11:![0-9]+]]			; CHECK-NEXT: [[TMP23:%.*]] = shl <vscale x 4 x i64> [[TMP16]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
				; CHECK-NEXT: [[TMP24:%.*]] = shl <vscale x 4 x i64> [[TMP20]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
				; CHECK-NEXT: [[TMP25:%.]] = getelementptr inbounds float, float [[B:%.*]], <vscale x 4 x i64> [[TMP21]]
				; CHECK-NEXT: [[TMP26:%.]] = getelementptr inbounds float, float [[B]], <vscale x 4 x i64> [[TMP22]]
				; CHECK-NEXT: [[TMP27:%.]] = getelementptr inbounds float, float [[B]], <vscale x 4 x i64> [[TMP23]]
				; CHECK-NEXT: [[TMP28:%.]] = getelementptr inbounds float, float [[B]], <vscale x 4 x i64> [[TMP24]]
				; CHECK-NEXT: [[WIDE_MASKED_GATHER:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP25]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)
				; CHECK-NEXT: [[WIDE_MASKED_GATHER12:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP26]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)
				; CHECK-NEXT: [[WIDE_MASKED_GATHER13:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP27]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)
				; CHECK-NEXT: [[WIDE_MASKED_GATHER14:%.]] = call <vscale x 4 x float> @llvm.masked.gather.nxv4f32.nxv4p0f32(<vscale x 4 x float> [[TMP28]], i32 4, <vscale x 4 x i1> shufflevector (<vscale x 4 x i1> insertelement (<vscale x 4 x i1> poison, i1 true, i32 0), <vscale x 4 x i1> poison, <vscale x 4 x i32> zeroinitializer), <vscale x 4 x float> undef)
				; CHECK-NEXT: [[TMP29:%.]] = getelementptr inbounds float, float [[A:%.*]], i64 [[INDEX]]
				; CHECK-NEXT: [[TMP30:%.]] = bitcast float [[TMP29]] to <vscale x 4 x float>*
				; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER]], <vscale x 4 x float>* [[TMP30]], align 4
				; CHECK-NEXT: [[TMP31:%.*]] = call i32 @llvm.vscale.i32()
				; CHECK-NEXT: [[TMP32:%.*]] = shl nuw nsw i32 [[TMP31]], 2
				; CHECK-NEXT: [[TMP33:%.*]] = zext i32 [[TMP32]] to i64
				; CHECK-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP29]], i64 [[TMP33]]
				; CHECK-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <vscale x 4 x float>*
				; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER12]], <vscale x 4 x float>* [[TMP35]], align 4
				; CHECK-NEXT: [[TMP36:%.*]] = call i32 @llvm.vscale.i32()
				; CHECK-NEXT: [[TMP37:%.*]] = shl nuw nsw i32 [[TMP36]], 3
				; CHECK-NEXT: [[TMP38:%.*]] = zext i32 [[TMP37]] to i64
				; CHECK-NEXT: [[TMP39:%.]] = getelementptr inbounds float, float [[TMP29]], i64 [[TMP38]]
				; CHECK-NEXT: [[TMP40:%.]] = bitcast float [[TMP39]] to <vscale x 4 x float>*
				; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER13]], <vscale x 4 x float>* [[TMP40]], align 4
				; CHECK-NEXT: [[TMP41:%.*]] = call i32 @llvm.vscale.i32()
				; CHECK-NEXT: [[TMP42:%.*]] = mul nuw nsw i32 [[TMP41]], 12
				; CHECK-NEXT: [[TMP43:%.*]] = zext i32 [[TMP42]] to i64
				; CHECK-NEXT: [[TMP44:%.]] = getelementptr inbounds float, float [[TMP29]], i64 [[TMP43]]
				; CHECK-NEXT: [[TMP45:%.]] = bitcast float [[TMP44]] to <vscale x 4 x float>*
				; CHECK-NEXT: store <vscale x 4 x float> [[WIDE_MASKED_GATHER14]], <vscale x 4 x float>* [[TMP45]], align 4
				; CHECK-NEXT: [[TMP46:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP47:%.*]] = shl nuw nsw i64 [[TMP46]], 4
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP47]]
				; CHECK-NEXT: [[REASS_ADD15:%.*]] = shl <vscale x 4 x i64> [[DOTSPLAT]], shufflevector (<vscale x 4 x i64> insertelement (<vscale x 4 x i64> poison, i64 1, i32 0), <vscale x 4 x i64> poison, <vscale x 4 x i32> zeroinitializer)
				; CHECK-NEXT: [[VEC_IND_NEXT]] = add <vscale x 4 x i64> [[STEP_ADD1]], [[REASS_ADD15]]
				; CHECK-NEXT: [[TMP48:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP48]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP11:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[N_MOD_VF]], 0			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[N_MOD_VF]], 0
	; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_COND_CLEANUP:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_COND_CLEANUP:%.*]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC]], [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC]], [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[INDVARS_IV_STRIDE2:%.*]] = shl i64 [[INDVARS_IV]], 1			; CHECK-NEXT: [[INDVARS_IV_STRIDE2:%.*]] = shl i64 [[INDVARS_IV]], 1
	; CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_STRIDE2]]			; CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_STRIDE2]]
	; CHECK-NEXT: [[TMP24:%.]] = load float, float [[ARRAYIDX]], align 4			; CHECK-NEXT: [[TMP49:%.]] = load float, float [[ARRAYIDX]], align 4
	; CHECK-NEXT: [[ARRAYIDX2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: store float [[TMP24]], float* [[ARRAYIDX2]], align 4			; CHECK-NEXT: store float [[TMP49]], float* [[ARRAYIDX2]], align 4
	; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1			; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1
	; CHECK-NEXT: [[EXITCOND_NOT:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT]], [[N]]			; CHECK-NEXT: [[EXITCOND_NOT:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT]], [[N]]
	; CHECK-NEXT: br i1 [[EXITCOND_NOT]], label [[FOR_COND_CLEANUP]], label [[FOR_BODY]], !llvm.loop [[LOOP12:![0-9]+]]			; CHECK-NEXT: br i1 [[EXITCOND_NOT]], label [[FOR_COND_CLEANUP]], label [[FOR_BODY]], !llvm.loop [[LOOP12:![0-9]+]]
	; CHECK: for.cond.cleanup:			; CHECK: for.cond.cleanup:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %for.body			br label %for.body
	Show All 24 Lines

llvm/test/Transforms/LoopVectorize/AArch64/sve-illegal-type.ll

	; RUN: opt < %s -loop-vectorize -mattr=+sve -force-vector-width=4 -pass-remarks-analysis=loop-vectorize -S 2>%t \| FileCheck %s			; RUN: opt < %s -loop-vectorize -mattr=+sve -force-vector-width=4 -pass-remarks-analysis=loop-vectorize -S 2>%t \| FileCheck %s
	; RUN: cat %t \| FileCheck %s -check-prefix=CHECK-REMARKS			; RUN: cat %t \| FileCheck %s -check-prefix=CHECK-REMARKS
	target triple = "aarch64-linux-gnu"			target triple = "aarch64-linux-gnu"

	; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop			; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop
	define dso_local void @loop_sve_i128(i128* nocapture %ptr, i64 %N) {			define dso_local void @loop_sve_i128(i128* nocapture %ptr, i64 %N) {
	; CHECK-LABEL: @loop_sve_i128			; CHECK-LABEL: @loop_sve_i128
	; CHECK: vector.body			; CHECK: vector.body
	; CHECK: %[[LOAD1:.]] = load i128, i128 {{.*}}			; CHECK: %[[LOAD1:.]] = load i128, i128 {{.*}}
	; CHECK-NEXT: %[[LOAD2:.]] = load i128, i128 {{.*}}			; CHECK-NEXT: %[[LOAD2:.]] = load i128, i128 {{.*}}
				; CHECK-NEXT: %[[LOAD3:.]] = load i128, i128 {{.*}}
				; CHECK-NEXT: %[[LOAD4:.]] = load i128, i128 {{.*}}
	; CHECK-NEXT: %[[ADD1:.*]] = add nsw i128 %[[LOAD1]], 42			; CHECK-NEXT: %[[ADD1:.*]] = add nsw i128 %[[LOAD1]], 42
	; CHECK-NEXT: %[[ADD2:.*]] = add nsw i128 %[[LOAD2]], 42			; CHECK-NEXT: %[[ADD2:.*]] = add nsw i128 %[[LOAD2]], 42
				; CHECK-NEXT: %[[ADD3:.*]] = add nsw i128 %[[LOAD3]], 42
				; CHECK-NEXT: %[[ADD4:.*]] = add nsw i128 %[[LOAD4]], 42
	; CHECK-NEXT: store i128 %[[ADD1]], i128* {{.*}}			; CHECK-NEXT: store i128 %[[ADD1]], i128* {{.*}}
	; CHECK-NEXT: store i128 %[[ADD2]], i128* {{.*}}			; CHECK-NEXT: store i128 %[[ADD2]], i128* {{.*}}
				; CHECK-NEXT: store i128 %[[ADD3]], i128* {{.*}}
				; CHECK-NEXT: store i128 %[[ADD4]], i128* {{.*}}
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]			%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]
	%arrayidx = getelementptr inbounds i128, i128* %ptr, i64 %iv			%arrayidx = getelementptr inbounds i128, i128* %ptr, i64 %iv
	%0 = load i128, i128* %arrayidx, align 16			%0 = load i128, i128* %arrayidx, align 16
	%add = add nsw i128 %0, 42			%add = add nsw i128 %0, 42
	store i128 %add, i128* %arrayidx, align 16			store i128 %add, i128* %arrayidx, align 16
	%iv.next = add i64 %iv, 1			%iv.next = add i64 %iv, 1
	%exitcond.not = icmp eq i64 %iv.next, %N			%exitcond.not = icmp eq i64 %iv.next, %N
	br i1 %exitcond.not, label %for.end, label %for.body, !llvm.loop !0			br i1 %exitcond.not, label %for.end, label %for.body, !llvm.loop !0

	for.end:			for.end:
	ret void			ret void
	}			}

	; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop			; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop
	define dso_local void @loop_sve_f128(fp128* nocapture %ptr, i64 %N) {			define dso_local void @loop_sve_f128(fp128* nocapture %ptr, i64 %N) {
	; CHECK-LABEL: @loop_sve_f128			; CHECK-LABEL: @loop_sve_f128
	; CHECK: vector.body			; CHECK: vector.body
	; CHECK: %[[LOAD1:.]] = load fp128, fp128			; CHECK: %[[LOAD1:.]] = load fp128, fp128
	; CHECK-NEXT: %[[LOAD2:.]] = load fp128, fp128			; CHECK-NEXT: %[[LOAD2:.]] = load fp128, fp128
				; CHECK-NEXT: %[[LOAD3:.]] = load fp128, fp128
				; CHECK-NEXT: %[[LOAD4:.]] = load fp128, fp128
	; CHECK-NEXT: %[[FSUB1:.*]] = fsub fp128 %[[LOAD1]], 0xL00000000000000008000000000000000			; CHECK-NEXT: %[[FSUB1:.*]] = fsub fp128 %[[LOAD1]], 0xL00000000000000008000000000000000
	; CHECK-NEXT: %[[FSUB2:.*]] = fsub fp128 %[[LOAD2]], 0xL00000000000000008000000000000000			; CHECK-NEXT: %[[FSUB2:.*]] = fsub fp128 %[[LOAD2]], 0xL00000000000000008000000000000000
				; CHECK-NEXT: %[[FSUB3:.*]] = fsub fp128 %[[LOAD3]], 0xL00000000000000008000000000000000
				; CHECK-NEXT: %[[FSUB4:.*]] = fsub fp128 %[[LOAD4]], 0xL00000000000000008000000000000000
	; CHECK-NEXT: store fp128 %[[FSUB1]], fp128* {{.*}}			; CHECK-NEXT: store fp128 %[[FSUB1]], fp128* {{.*}}
	; CHECK-NEXT: store fp128 %[[FSUB2]], fp128* {{.*}}			; CHECK-NEXT: store fp128 %[[FSUB2]], fp128* {{.*}}
				; CHECK-NEXT: store fp128 %[[FSUB3]], fp128* {{.*}}
				; CHECK-NEXT: store fp128 %[[FSUB4]], fp128* {{.*}}
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]			%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]
	%arrayidx = getelementptr inbounds fp128, fp128* %ptr, i64 %iv			%arrayidx = getelementptr inbounds fp128, fp128* %ptr, i64 %iv
	%0 = load fp128, fp128* %arrayidx, align 16			%0 = load fp128, fp128* %arrayidx, align 16
	%add = fsub fp128 %0, 0xL00000000000000008000000000000000			%add = fsub fp128 %0, 0xL00000000000000008000000000000000
	store fp128 %add, fp128* %arrayidx, align 16			store fp128 %add, fp128* %arrayidx, align 16
	%iv.next = add nuw nsw i64 %iv, 1			%iv.next = add nuw nsw i64 %iv, 1
	%exitcond.not = icmp eq i64 %iv.next, %N			%exitcond.not = icmp eq i64 %iv.next, %N
	br i1 %exitcond.not, label %for.end, label %for.body, !llvm.loop !0			br i1 %exitcond.not, label %for.end, label %for.body, !llvm.loop !0

	for.end:			for.end:
	ret void			ret void
	}			}

	; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop			; CHECK-REMARKS: Scalable vectorization is not supported for all element types found in this loop
	define dso_local void @loop_invariant_sve_i128(i128* nocapture %ptr, i128 %val, i64 %N) {			define dso_local void @loop_invariant_sve_i128(i128* nocapture %ptr, i128 %val, i64 %N) {
	; CHECK-LABEL: @loop_invariant_sve_i128			; CHECK-LABEL: @loop_invariant_sve_i128
	; CHECK: vector.body			; CHECK: vector.body
	; CHECK: %[[GEP1:.]] = getelementptr inbounds i128, i128 %ptr			; CHECK: %[[GEP1:.]] = getelementptr inbounds i128, i128 %ptr
	; CHECK-NEXT: %[[GEP2:.]] = getelementptr inbounds i128, i128 %ptr			; CHECK-NEXT: %[[GEP2:.]] = getelementptr inbounds i128, i128 %ptr
				; CHECK-NEXT: %[[GEP3:.]] = getelementptr inbounds i128, i128 %ptr
				; CHECK-NEXT: %[[GEP4:.]] = getelementptr inbounds i128, i128 %ptr
	; CHECK-NEXT: store i128 %val, i128* %[[GEP1]]			; CHECK-NEXT: store i128 %val, i128* %[[GEP1]]
	; CHECK-NEXT: store i128 %val, i128* %[[GEP2]]			; CHECK-NEXT: store i128 %val, i128* %[[GEP2]]
				; CHECK-NEXT: store i128 %val, i128* %[[GEP3]]
				; CHECK-NEXT: store i128 %val, i128* %[[GEP4]]
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]			%iv = phi i64 [ 0, %entry ], [ %iv.next, %for.body ]
	%arrayidx = getelementptr inbounds i128, i128* %ptr, i64 %iv			%arrayidx = getelementptr inbounds i128, i128* %ptr, i64 %iv
	store i128 %val, i128* %arrayidx, align 16			store i128 %val, i128* %arrayidx, align 16
	%iv.next = add nuw nsw i64 %iv, 1			%iv.next = add nuw nsw i64 %iv, 1
	▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/Transforms/PhaseOrdering/AArch64/hoisting-sinking-required-for-vectorization.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[INDEX:%.]] = phi i32 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i32 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; CHECK-NEXT: [[TMP0:%.*]] = zext i32 [[INDEX]] to i64			; CHECK-NEXT: [[TMP0:%.*]] = zext i32 [[INDEX]] to i64
	; CHECK-NEXT: [[TMP1:%.]] = getelementptr inbounds double, double [[Y]], i64 [[TMP0]]			; CHECK-NEXT: [[TMP1:%.]] = getelementptr inbounds double, double [[Y]], i64 [[TMP0]]
	; CHECK-NEXT: [[TMP2:%.]] = bitcast double [[TMP1]] to <2 x double>*			; CHECK-NEXT: [[TMP2:%.]] = bitcast double [[TMP1]] to <2 x double>*
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x double>, <2 x double> [[TMP2]], align 8, !alias.scope !0			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x double>, <2 x double> [[TMP2]], align 8, !alias.scope !0
	; CHECK-NEXT: [[TMP3:%.]] = getelementptr inbounds double, double [[TMP1]], i64 2			; CHECK-NEXT: [[TMP3:%.]] = getelementptr inbounds double, double [[TMP1]], i64 2
	; CHECK-NEXT: [[TMP4:%.]] = bitcast double [[TMP3]] to <2 x double>*			; CHECK-NEXT: [[TMP4:%.]] = bitcast double [[TMP3]] to <2 x double>*
	; CHECK-NEXT: [[WIDE_LOAD11:%.]] = load <2 x double>, <2 x double> [[TMP4]], align 8, !alias.scope !0			; CHECK-NEXT: [[WIDE_LOAD11:%.]] = load <2 x double>, <2 x double> [[TMP4]], align 8, !alias.scope !0
	; CHECK-NEXT: [[TMP5:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD]], zeroinitializer			; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds double, double [[TMP1]], i64 4
	; CHECK-NEXT: [[TMP6:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD11]], zeroinitializer			; CHECK-NEXT: [[TMP6:%.]] = bitcast double [[TMP5]] to <2 x double>*
	; CHECK-NEXT: [[TMP7:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD]], <double 6.000000e+00, double 6.000000e+00>			; CHECK-NEXT: [[WIDE_LOAD12:%.]] = load <2 x double>, <2 x double> [[TMP6]], align 8, !alias.scope !0
	; CHECK-NEXT: [[TMP8:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD11]], <double 6.000000e+00, double 6.000000e+00>			; CHECK-NEXT: [[TMP7:%.]] = getelementptr inbounds double, double [[TMP1]], i64 6
	; CHECK-NEXT: [[TMP9:%.*]] = select <2 x i1> [[TMP7]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD]]			; CHECK-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to <2 x double>*
	; CHECK-NEXT: [[TMP10:%.*]] = select <2 x i1> [[TMP8]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD11]]			; CHECK-NEXT: [[WIDE_LOAD13:%.]] = load <2 x double>, <2 x double> [[TMP8]], align 8, !alias.scope !0
	; CHECK-NEXT: [[TMP11:%.*]] = select <2 x i1> [[TMP5]], <2 x double> zeroinitializer, <2 x double> [[TMP9]]			; CHECK-NEXT: [[TMP9:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD]], zeroinitializer
	; CHECK-NEXT: [[TMP12:%.*]] = select <2 x i1> [[TMP6]], <2 x double> zeroinitializer, <2 x double> [[TMP10]]			; CHECK-NEXT: [[TMP10:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD11]], zeroinitializer
	; CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds double, double [[X]], i64 [[TMP0]]			; CHECK-NEXT: [[TMP11:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD12]], zeroinitializer
	; CHECK-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to <2 x double>*			; CHECK-NEXT: [[TMP12:%.*]] = fcmp olt <2 x double> [[WIDE_LOAD13]], zeroinitializer
	; CHECK-NEXT: store <2 x double> [[TMP11]], <2 x double>* [[TMP14]], align 8, !alias.scope !3, !noalias !0			; CHECK-NEXT: [[TMP13:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD]], <double 6.000000e+00, double 6.000000e+00>
	; CHECK-NEXT: [[TMP15:%.]] = getelementptr inbounds double, double [[TMP13]], i64 2			; CHECK-NEXT: [[TMP14:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD11]], <double 6.000000e+00, double 6.000000e+00>
	; CHECK-NEXT: [[TMP16:%.]] = bitcast double [[TMP15]] to <2 x double>*			; CHECK-NEXT: [[TMP15:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD12]], <double 6.000000e+00, double 6.000000e+00>
	; CHECK-NEXT: store <2 x double> [[TMP12]], <2 x double>* [[TMP16]], align 8, !alias.scope !3, !noalias !0			; CHECK-NEXT: [[TMP16:%.*]] = fcmp ogt <2 x double> [[WIDE_LOAD13]], <double 6.000000e+00, double 6.000000e+00>
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i32 [[INDEX]], 4			; CHECK-NEXT: [[TMP17:%.*]] = select <2 x i1> [[TMP13]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD]]
	; CHECK-NEXT: [[TMP17:%.*]] = icmp eq i32 [[INDEX_NEXT]], 20000			; CHECK-NEXT: [[TMP18:%.*]] = select <2 x i1> [[TMP14]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD11]]
	; CHECK-NEXT: br i1 [[TMP17]], label [[FOR_COND_CLEANUP:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]			; CHECK-NEXT: [[TMP19:%.*]] = select <2 x i1> [[TMP15]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD12]]
				; CHECK-NEXT: [[TMP20:%.*]] = select <2 x i1> [[TMP16]], <2 x double> <double 6.000000e+00, double 6.000000e+00>, <2 x double> [[WIDE_LOAD13]]
				; CHECK-NEXT: [[TMP21:%.*]] = select <2 x i1> [[TMP9]], <2 x double> zeroinitializer, <2 x double> [[TMP17]]
				; CHECK-NEXT: [[TMP22:%.*]] = select <2 x i1> [[TMP10]], <2 x double> zeroinitializer, <2 x double> [[TMP18]]
				; CHECK-NEXT: [[TMP23:%.*]] = select <2 x i1> [[TMP11]], <2 x double> zeroinitializer, <2 x double> [[TMP19]]
				; CHECK-NEXT: [[TMP24:%.*]] = select <2 x i1> [[TMP12]], <2 x double> zeroinitializer, <2 x double> [[TMP20]]
				; CHECK-NEXT: [[TMP25:%.]] = getelementptr inbounds double, double [[X]], i64 [[TMP0]]
				; CHECK-NEXT: [[TMP26:%.]] = bitcast double [[TMP25]] to <2 x double>*
				; CHECK-NEXT: store <2 x double> [[TMP21]], <2 x double>* [[TMP26]], align 8, !alias.scope !3, !noalias !0
				; CHECK-NEXT: [[TMP27:%.]] = getelementptr inbounds double, double [[TMP25]], i64 2
				; CHECK-NEXT: [[TMP28:%.]] = bitcast double [[TMP27]] to <2 x double>*
				; CHECK-NEXT: store <2 x double> [[TMP22]], <2 x double>* [[TMP28]], align 8, !alias.scope !3, !noalias !0
				; CHECK-NEXT: [[TMP29:%.]] = getelementptr inbounds double, double [[TMP25]], i64 4
				; CHECK-NEXT: [[TMP30:%.]] = bitcast double [[TMP29]] to <2 x double>*
				; CHECK-NEXT: store <2 x double> [[TMP23]], <2 x double>* [[TMP30]], align 8, !alias.scope !3, !noalias !0
				; CHECK-NEXT: [[TMP31:%.]] = getelementptr inbounds double, double [[TMP25]], i64 6
				; CHECK-NEXT: [[TMP32:%.]] = bitcast double [[TMP31]] to <2 x double>*
				; CHECK-NEXT: store <2 x double> [[TMP24]], <2 x double>* [[TMP32]], align 8, !alias.scope !3, !noalias !0
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i32 [[INDEX]], 8
				; CHECK-NEXT: [[TMP33:%.*]] = icmp eq i32 [[INDEX_NEXT]], 20000
				; CHECK-NEXT: br i1 [[TMP33]], label [[FOR_COND_CLEANUP:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]
	; CHECK: for.cond.cleanup:			; CHECK: for.cond.cleanup:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[I_05:%.]] = phi i32 [ [[INC:%.]], [[FOR_BODY]] ], [ 0, [[ENTRY]] ]			; CHECK-NEXT: [[I_05:%.]] = phi i32 [ [[INC:%.]], [[FOR_BODY]] ], [ 0, [[ENTRY]] ]
	; CHECK-NEXT: [[IDXPROM:%.*]] = zext i32 [[I_05]] to i64			; CHECK-NEXT: [[IDXPROM:%.*]] = zext i32 [[I_05]] to i64
	; CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds double, double [[Y]], i64 [[IDXPROM]]			; CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds double, double [[Y]], i64 [[IDXPROM]]
	; CHECK-NEXT: [[TMP18:%.]] = load double, double [[ARRAYIDX]], align 8			; CHECK-NEXT: [[TMP34:%.]] = load double, double [[ARRAYIDX]], align 8
	; CHECK-NEXT: [[CMP_I:%.*]] = fcmp olt double [[TMP18]], 0.000000e+00			; CHECK-NEXT: [[CMP_I:%.*]] = fcmp olt double [[TMP34]], 0.000000e+00
	; CHECK-NEXT: [[CMP1_I:%.*]] = fcmp ogt double [[TMP18]], 6.000000e+00			; CHECK-NEXT: [[CMP1_I:%.*]] = fcmp ogt double [[TMP34]], 6.000000e+00
	; CHECK-NEXT: [[DOTV_I:%.*]] = select i1 [[CMP1_I]], double 6.000000e+00, double [[TMP18]]			; CHECK-NEXT: [[DOTV_I:%.*]] = select i1 [[CMP1_I]], double 6.000000e+00, double [[TMP34]]
	; CHECK-NEXT: [[RETVAL_0_I:%.*]] = select i1 [[CMP_I]], double 0.000000e+00, double [[DOTV_I]]			; CHECK-NEXT: [[RETVAL_0_I:%.*]] = select i1 [[CMP_I]], double 0.000000e+00, double [[DOTV_I]]
	; CHECK-NEXT: [[ARRAYIDX2:%.]] = getelementptr inbounds double, double [[X]], i64 [[IDXPROM]]			; CHECK-NEXT: [[ARRAYIDX2:%.]] = getelementptr inbounds double, double [[X]], i64 [[IDXPROM]]
	; CHECK-NEXT: store double [[RETVAL_0_I]], double* [[ARRAYIDX2]], align 8			; CHECK-NEXT: store double [[RETVAL_0_I]], double* [[ARRAYIDX2]], align 8
	; CHECK-NEXT: [[INC]] = add nuw nsw i32 [[I_05]], 1			; CHECK-NEXT: [[INC]] = add nuw nsw i32 [[I_05]], 1
	; CHECK-NEXT: [[CMP:%.*]] = icmp ult i32 [[I_05]], 19999			; CHECK-NEXT: [[CMP:%.*]] = icmp ult i32 [[I_05]], 19999
	; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY]], label [[FOR_COND_CLEANUP]], !llvm.loop [[LOOP7:![0-9]+]]			; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY]], label [[FOR_COND_CLEANUP]], !llvm.loop [[LOOP7:![0-9]+]]
	;			;
	entry:			entry:
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/test/Transforms/PhaseOrdering/AArch64/peel-multiple-unreachable-exits-for-vectorization.ll

	Show All 28 Lines
	; CHECK-NEXT: [[SUM_NEXT_PEEL:%.*]] = add i64 [[LV_I_PEEL]], [[LV_I10_PEEL]]			; CHECK-NEXT: [[SUM_NEXT_PEEL:%.*]] = add i64 [[LV_I_PEEL]], [[LV_I10_PEEL]]
	; CHECK-NEXT: [[C_PEEL:%.]] = icmp sgt i64 [[N:%.]], 0			; CHECK-NEXT: [[C_PEEL:%.]] = icmp sgt i64 [[N:%.]], 0
	; CHECK-NEXT: br i1 [[C_PEEL]], label [[LOOP_PREHEADER:%.]], label [[EXIT:%.]]			; CHECK-NEXT: br i1 [[C_PEEL]], label [[LOOP_PREHEADER:%.]], label [[EXIT:%.]]
	; CHECK: loop.preheader:			; CHECK: loop.preheader:
	; CHECK-NEXT: [[UMIN:%.*]] = call i64 @llvm.umin.i64(i64 [[SUB_I7_PEEL]], i64 [[SUB_I]])			; CHECK-NEXT: [[UMIN:%.*]] = call i64 @llvm.umin.i64(i64 [[SUB_I7_PEEL]], i64 [[SUB_I]])
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[N]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[N]], -1
	; CHECK-NEXT: [[UMIN16:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN]], i64 [[TMP0]])			; CHECK-NEXT: [[UMIN16:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN]], i64 [[TMP0]])
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[UMIN16]], 1			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[UMIN16]], 1
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP1]], 5			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP1]], 9
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[LOOP_PREHEADER22:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[LOOP_PREHEADER32:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = and i64 [[TMP1]], 3			; CHECK-NEXT: [[N_MOD_VF:%.*]] = and i64 [[TMP1]], 7
	; CHECK-NEXT: [[TMP2:%.*]] = icmp eq i64 [[N_MOD_VF]], 0			; CHECK-NEXT: [[TMP2:%.*]] = icmp eq i64 [[N_MOD_VF]], 0
	; CHECK-NEXT: [[TMP3:%.*]] = select i1 [[TMP2]], i64 4, i64 [[N_MOD_VF]]			; CHECK-NEXT: [[TMP3:%.*]] = select i1 [[TMP2]], i64 8, i64 [[N_MOD_VF]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP1]], [[TMP3]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP1]], [[TMP3]]
	; CHECK-NEXT: [[IND_END:%.*]] = add i64 [[N_VEC]], 1			; CHECK-NEXT: [[IND_END:%.*]] = add i64 [[N_VEC]], 1
	; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> <i64 poison, i64 0>, i64 [[SUM_NEXT_PEEL]], i64 0			; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> <i64 poison, i64 0>, i64 [[SUM_NEXT_PEEL]], i64 0
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI:%.]] = phi <2 x i64> [ [[TMP4]], [[VECTOR_PH]] ], [ [[TMP15:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI:%.]] = phi <2 x i64> [ [[TMP4]], [[VECTOR_PH]] ], [ [[TMP25:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI18:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP16:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI20:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP26:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI21:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP27:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI22:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP28:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[OFFSET_IDX:%.*]] = or i64 [[INDEX]], 1			; CHECK-NEXT: [[OFFSET_IDX:%.*]] = or i64 [[INDEX]], 1
	; CHECK-NEXT: [[TMP5:%.]] = getelementptr i64, i64 [[START_I]], i64 [[OFFSET_IDX]]			; CHECK-NEXT: [[TMP5:%.]] = getelementptr i64, i64 [[START_I]], i64 [[OFFSET_IDX]]
	; CHECK-NEXT: [[TMP6:%.]] = bitcast i64 [[TMP5]] to <2 x i64>*			; CHECK-NEXT: [[TMP6:%.]] = bitcast i64 [[TMP5]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x i64>, <2 x i64> [[TMP6]], align 4			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x i64>, <2 x i64> [[TMP6]], align 4
	; CHECK-NEXT: [[TMP7:%.]] = getelementptr i64, i64 [[TMP5]], i64 2			; CHECK-NEXT: [[TMP7:%.]] = getelementptr i64, i64 [[TMP5]], i64 2
	; CHECK-NEXT: [[TMP8:%.]] = bitcast i64 [[TMP7]] to <2 x i64>*			; CHECK-NEXT: [[TMP8:%.]] = bitcast i64 [[TMP7]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD19:%.]] = load <2 x i64>, <2 x i64> [[TMP8]], align 4			; CHECK-NEXT: [[WIDE_LOAD23:%.]] = load <2 x i64>, <2 x i64> [[TMP8]], align 4
	; CHECK-NEXT: [[TMP9:%.]] = getelementptr i64, i64 [[START_I2_PEEL]], i64 [[OFFSET_IDX]]			; CHECK-NEXT: [[TMP9:%.]] = getelementptr i64, i64 [[TMP5]], i64 4
	; CHECK-NEXT: [[TMP10:%.]] = bitcast i64 [[TMP9]] to <2 x i64>*			; CHECK-NEXT: [[TMP10:%.]] = bitcast i64 [[TMP9]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD20:%.]] = load <2 x i64>, <2 x i64> [[TMP10]], align 4			; CHECK-NEXT: [[WIDE_LOAD24:%.]] = load <2 x i64>, <2 x i64> [[TMP10]], align 4
	; CHECK-NEXT: [[TMP11:%.]] = getelementptr i64, i64 [[TMP9]], i64 2			; CHECK-NEXT: [[TMP11:%.]] = getelementptr i64, i64 [[TMP5]], i64 6
	; CHECK-NEXT: [[TMP12:%.]] = bitcast i64 [[TMP11]] to <2 x i64>*			; CHECK-NEXT: [[TMP12:%.]] = bitcast i64 [[TMP11]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD21:%.]] = load <2 x i64>, <2 x i64> [[TMP12]], align 4			; CHECK-NEXT: [[WIDE_LOAD25:%.]] = load <2 x i64>, <2 x i64> [[TMP12]], align 4
	; CHECK-NEXT: [[TMP13:%.*]] = add <2 x i64> [[WIDE_LOAD]], [[VEC_PHI]]			; CHECK-NEXT: [[TMP13:%.]] = getelementptr i64, i64 [[START_I2_PEEL]], i64 [[OFFSET_IDX]]
	; CHECK-NEXT: [[TMP14:%.*]] = add <2 x i64> [[WIDE_LOAD19]], [[VEC_PHI18]]			; CHECK-NEXT: [[TMP14:%.]] = bitcast i64 [[TMP13]] to <2 x i64>*
	; CHECK-NEXT: [[TMP15]] = add <2 x i64> [[TMP13]], [[WIDE_LOAD20]]			; CHECK-NEXT: [[WIDE_LOAD26:%.]] = load <2 x i64>, <2 x i64> [[TMP14]], align 4
	; CHECK-NEXT: [[TMP16]] = add <2 x i64> [[TMP14]], [[WIDE_LOAD21]]			; CHECK-NEXT: [[TMP15:%.]] = getelementptr i64, i64 [[TMP13]], i64 2
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP16:%.]] = bitcast i64 [[TMP15]] to <2 x i64>*
	; CHECK-NEXT: [[TMP17:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[WIDE_LOAD27:%.]] = load <2 x i64>, <2 x i64> [[TMP16]], align 4
	; CHECK-NEXT: br i1 [[TMP17]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]			; CHECK-NEXT: [[TMP17:%.]] = getelementptr i64, i64 [[TMP13]], i64 4
				; CHECK-NEXT: [[TMP18:%.]] = bitcast i64 [[TMP17]] to <2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD28:%.]] = load <2 x i64>, <2 x i64> [[TMP18]], align 4
				; CHECK-NEXT: [[TMP19:%.]] = getelementptr i64, i64 [[TMP13]], i64 6
				; CHECK-NEXT: [[TMP20:%.]] = bitcast i64 [[TMP19]] to <2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD29:%.]] = load <2 x i64>, <2 x i64> [[TMP20]], align 4
				; CHECK-NEXT: [[TMP21:%.*]] = add <2 x i64> [[WIDE_LOAD]], [[VEC_PHI]]
				; CHECK-NEXT: [[TMP22:%.*]] = add <2 x i64> [[WIDE_LOAD23]], [[VEC_PHI20]]
				; CHECK-NEXT: [[TMP23:%.*]] = add <2 x i64> [[WIDE_LOAD24]], [[VEC_PHI21]]
				; CHECK-NEXT: [[TMP24:%.*]] = add <2 x i64> [[WIDE_LOAD25]], [[VEC_PHI22]]
				; CHECK-NEXT: [[TMP25]] = add <2 x i64> [[TMP21]], [[WIDE_LOAD26]]
				; CHECK-NEXT: [[TMP26]] = add <2 x i64> [[TMP22]], [[WIDE_LOAD27]]
				; CHECK-NEXT: [[TMP27]] = add <2 x i64> [[TMP23]], [[WIDE_LOAD28]]
				; CHECK-NEXT: [[TMP28]] = add <2 x i64> [[TMP24]], [[WIDE_LOAD29]]
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 8
				; CHECK-NEXT: [[TMP29:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP29]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[BIN_RDX:%.*]] = add <2 x i64> [[TMP16]], [[TMP15]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = add <2 x i64> [[TMP26]], [[TMP25]]
	; CHECK-NEXT: [[TMP18:%.*]] = call i64 @llvm.vector.reduce.add.v2i64(<2 x i64> [[BIN_RDX]])			; CHECK-NEXT: [[BIN_RDX30:%.*]] = add <2 x i64> [[TMP27]], [[BIN_RDX]]
	; CHECK-NEXT: br label [[LOOP_PREHEADER22]]			; CHECK-NEXT: [[BIN_RDX31:%.*]] = add <2 x i64> [[TMP28]], [[BIN_RDX30]]
	; CHECK: loop.preheader22:			; CHECK-NEXT: [[TMP30:%.*]] = call i64 @llvm.vector.reduce.add.v2i64(<2 x i64> [[BIN_RDX31]])
				; CHECK-NEXT: br label [[LOOP_PREHEADER32]]
				; CHECK: loop.preheader32:
	; CHECK-NEXT: [[IV_PH:%.*]] = phi i64 [ 1, [[LOOP_PREHEADER]] ], [ [[IND_END]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[IV_PH:%.*]] = phi i64 [ 1, [[LOOP_PREHEADER]] ], [ [[IND_END]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: [[SUM_PH:%.*]] = phi i64 [ [[SUM_NEXT_PEEL]], [[LOOP_PREHEADER]] ], [ [[TMP18]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[SUM_PH:%.*]] = phi i64 [ [[SUM_NEXT_PEEL]], [[LOOP_PREHEADER]] ], [ [[TMP30]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: br label [[LOOP:%.*]]			; CHECK-NEXT: br label [[LOOP:%.*]]
	; CHECK: loop:			; CHECK: loop:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT12:%.*]] ], [ [[IV_PH]], [[LOOP_PREHEADER22]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT12:%.*]] ], [ [[IV_PH]], [[LOOP_PREHEADER32]] ]
	; CHECK-NEXT: [[SUM:%.]] = phi i64 [ [[SUM_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT12]] ], [ [[SUM_PH]], [[LOOP_PREHEADER22]] ]			; CHECK-NEXT: [[SUM:%.]] = phi i64 [ [[SUM_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT12]] ], [ [[SUM_PH]], [[LOOP_PREHEADER32]] ]
	; CHECK-NEXT: [[INRANGE_I:%.*]] = icmp ult i64 [[SUB_I]], [[IV]]			; CHECK-NEXT: [[INRANGE_I:%.*]] = icmp ult i64 [[SUB_I]], [[IV]]
	; CHECK-NEXT: br i1 [[INRANGE_I]], label [[ERROR_I:%.]], label [[AT_WITH_INT_CONVERSION_EXIT:%.]]			; CHECK-NEXT: br i1 [[INRANGE_I]], label [[ERROR_I:%.]], label [[AT_WITH_INT_CONVERSION_EXIT:%.]]
	; CHECK: error.i:			; CHECK: error.i:
	; CHECK-NEXT: tail call void @error()			; CHECK-NEXT: tail call void @error()
	; CHECK-NEXT: unreachable			; CHECK-NEXT: unreachable
	; CHECK: at_with_int_conversion.exit:			; CHECK: at_with_int_conversion.exit:
	; CHECK-NEXT: [[INRANGE_I8:%.*]] = icmp ult i64 [[SUB_I7_PEEL]], [[IV]]			; CHECK-NEXT: [[INRANGE_I8:%.*]] = icmp ult i64 [[SUB_I7_PEEL]], [[IV]]
	; CHECK-NEXT: br i1 [[INRANGE_I8]], label [[ERROR_I11:%.*]], label [[AT_WITH_INT_CONVERSION_EXIT12]]			; CHECK-NEXT: br i1 [[INRANGE_I8]], label [[ERROR_I11:%.*]], label [[AT_WITH_INT_CONVERSION_EXIT12]]
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[COND_PEEL:%.]] = icmp sgt i64 [[N:%.]], 0			; CHECK-NEXT: [[COND_PEEL:%.]] = icmp sgt i64 [[N:%.]], 0
	; CHECK-NEXT: br i1 [[COND_PEEL]], label [[LOOP_PREHEADER:%.]], label [[EXIT:%.]]			; CHECK-NEXT: br i1 [[COND_PEEL]], label [[LOOP_PREHEADER:%.]], label [[EXIT:%.]]
	; CHECK: loop.preheader:			; CHECK: loop.preheader:
	; CHECK-NEXT: [[UMIN:%.*]] = call i64 @llvm.umin.i64(i64 [[SUB_I19_PEEL]], i64 [[SUB_I7_PEEL]])			; CHECK-NEXT: [[UMIN:%.*]] = call i64 @llvm.umin.i64(i64 [[SUB_I19_PEEL]], i64 [[SUB_I7_PEEL]])
	; CHECK-NEXT: [[UMIN28:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN]], i64 [[SUB_I]])			; CHECK-NEXT: [[UMIN28:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN]], i64 [[SUB_I]])
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[N]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[N]], -1
	; CHECK-NEXT: [[UMIN29:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN28]], i64 [[TMP0]])			; CHECK-NEXT: [[UMIN29:%.*]] = call i64 @llvm.umin.i64(i64 [[UMIN28]], i64 [[TMP0]])
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[UMIN29]], 1			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[UMIN29]], 1
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP1]], 5			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP1]], 9
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[LOOP_PREHEADER37:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[LOOP_PREHEADER49:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = and i64 [[TMP1]], 3			; CHECK-NEXT: [[N_MOD_VF:%.*]] = and i64 [[TMP1]], 7
	; CHECK-NEXT: [[TMP2:%.*]] = icmp eq i64 [[N_MOD_VF]], 0			; CHECK-NEXT: [[TMP2:%.*]] = icmp eq i64 [[N_MOD_VF]], 0
	; CHECK-NEXT: [[TMP3:%.*]] = select i1 [[TMP2]], i64 4, i64 [[N_MOD_VF]]			; CHECK-NEXT: [[TMP3:%.*]] = select i1 [[TMP2]], i64 8, i64 [[N_MOD_VF]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP1]], [[TMP3]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP1]], [[TMP3]]
	; CHECK-NEXT: [[IND_END:%.*]] = add i64 [[N_VEC]], 1			; CHECK-NEXT: [[IND_END:%.*]] = add i64 [[N_VEC]], 1
	; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> <i64 poison, i64 0>, i64 [[SUM_NEXT_PEEL]], i64 0			; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> <i64 poison, i64 0>, i64 [[SUM_NEXT_PEEL]], i64 0
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI:%.]] = phi <2 x i64> [ [[TMP4]], [[VECTOR_PH]] ], [ [[TMP21:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI:%.]] = phi <2 x i64> [ [[TMP4]], [[VECTOR_PH]] ], [ [[TMP37:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI31:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP22:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI33:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP38:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI34:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP39:%.]], [[VECTOR_BODY]] ]
				; CHECK-NEXT: [[VEC_PHI35:%.]] = phi <2 x i64> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP40:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[OFFSET_IDX:%.*]] = or i64 [[INDEX]], 1			; CHECK-NEXT: [[OFFSET_IDX:%.*]] = or i64 [[INDEX]], 1
	; CHECK-NEXT: [[TMP5:%.]] = getelementptr i64, i64 [[START_I]], i64 [[OFFSET_IDX]]			; CHECK-NEXT: [[TMP5:%.]] = getelementptr i64, i64 [[START_I]], i64 [[OFFSET_IDX]]
	; CHECK-NEXT: [[TMP6:%.]] = bitcast i64 [[TMP5]] to <2 x i64>*			; CHECK-NEXT: [[TMP6:%.]] = bitcast i64 [[TMP5]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x i64>, <2 x i64> [[TMP6]], align 4			; CHECK-NEXT: [[WIDE_LOAD:%.]] = load <2 x i64>, <2 x i64> [[TMP6]], align 4
	; CHECK-NEXT: [[TMP7:%.]] = getelementptr i64, i64 [[TMP5]], i64 2			; CHECK-NEXT: [[TMP7:%.]] = getelementptr i64, i64 [[TMP5]], i64 2
	; CHECK-NEXT: [[TMP8:%.]] = bitcast i64 [[TMP7]] to <2 x i64>*			; CHECK-NEXT: [[TMP8:%.]] = bitcast i64 [[TMP7]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD32:%.]] = load <2 x i64>, <2 x i64> [[TMP8]], align 4			; CHECK-NEXT: [[WIDE_LOAD36:%.]] = load <2 x i64>, <2 x i64> [[TMP8]], align 4
	; CHECK-NEXT: [[TMP9:%.]] = getelementptr i64, i64 [[START_I2_PEEL]], i64 [[OFFSET_IDX]]			; CHECK-NEXT: [[TMP9:%.]] = getelementptr i64, i64 [[TMP5]], i64 4
	; CHECK-NEXT: [[TMP10:%.]] = bitcast i64 [[TMP9]] to <2 x i64>*			; CHECK-NEXT: [[TMP10:%.]] = bitcast i64 [[TMP9]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD33:%.]] = load <2 x i64>, <2 x i64> [[TMP10]], align 4			; CHECK-NEXT: [[WIDE_LOAD37:%.]] = load <2 x i64>, <2 x i64> [[TMP10]], align 4
	; CHECK-NEXT: [[TMP11:%.]] = getelementptr i64, i64 [[TMP9]], i64 2			; CHECK-NEXT: [[TMP11:%.]] = getelementptr i64, i64 [[TMP5]], i64 6
	; CHECK-NEXT: [[TMP12:%.]] = bitcast i64 [[TMP11]] to <2 x i64>*			; CHECK-NEXT: [[TMP12:%.]] = bitcast i64 [[TMP11]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD34:%.]] = load <2 x i64>, <2 x i64> [[TMP12]], align 4			; CHECK-NEXT: [[WIDE_LOAD38:%.]] = load <2 x i64>, <2 x i64> [[TMP12]], align 4
	; CHECK-NEXT: [[TMP13:%.]] = getelementptr i64, i64 [[START_I14_PEEL]], i64 [[OFFSET_IDX]]			; CHECK-NEXT: [[TMP13:%.]] = getelementptr i64, i64 [[START_I2_PEEL]], i64 [[OFFSET_IDX]]
	; CHECK-NEXT: [[TMP14:%.]] = bitcast i64 [[TMP13]] to <2 x i64>*			; CHECK-NEXT: [[TMP14:%.]] = bitcast i64 [[TMP13]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD35:%.]] = load <2 x i64>, <2 x i64> [[TMP14]], align 4			; CHECK-NEXT: [[WIDE_LOAD39:%.]] = load <2 x i64>, <2 x i64> [[TMP14]], align 4
	; CHECK-NEXT: [[TMP15:%.]] = getelementptr i64, i64 [[TMP13]], i64 2			; CHECK-NEXT: [[TMP15:%.]] = getelementptr i64, i64 [[TMP13]], i64 2
	; CHECK-NEXT: [[TMP16:%.]] = bitcast i64 [[TMP15]] to <2 x i64>*			; CHECK-NEXT: [[TMP16:%.]] = bitcast i64 [[TMP15]] to <2 x i64>*
	; CHECK-NEXT: [[WIDE_LOAD36:%.]] = load <2 x i64>, <2 x i64> [[TMP16]], align 4			; CHECK-NEXT: [[WIDE_LOAD40:%.]] = load <2 x i64>, <2 x i64> [[TMP16]], align 4
	; CHECK-NEXT: [[TMP17:%.*]] = add <2 x i64> [[WIDE_LOAD]], [[VEC_PHI]]			; CHECK-NEXT: [[TMP17:%.]] = getelementptr i64, i64 [[TMP13]], i64 4
	; CHECK-NEXT: [[TMP18:%.*]] = add <2 x i64> [[WIDE_LOAD32]], [[VEC_PHI31]]			; CHECK-NEXT: [[TMP18:%.]] = bitcast i64 [[TMP17]] to <2 x i64>*
	; CHECK-NEXT: [[TMP19:%.*]] = add <2 x i64> [[TMP17]], [[WIDE_LOAD33]]			; CHECK-NEXT: [[WIDE_LOAD41:%.]] = load <2 x i64>, <2 x i64> [[TMP18]], align 4
	; CHECK-NEXT: [[TMP20:%.*]] = add <2 x i64> [[TMP18]], [[WIDE_LOAD34]]			; CHECK-NEXT: [[TMP19:%.]] = getelementptr i64, i64 [[TMP13]], i64 6
	; CHECK-NEXT: [[TMP21]] = add <2 x i64> [[TMP19]], [[WIDE_LOAD35]]			; CHECK-NEXT: [[TMP20:%.]] = bitcast i64 [[TMP19]] to <2 x i64>*
	; CHECK-NEXT: [[TMP22]] = add <2 x i64> [[TMP20]], [[WIDE_LOAD36]]			; CHECK-NEXT: [[WIDE_LOAD42:%.]] = load <2 x i64>, <2 x i64> [[TMP20]], align 4
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[START_I14_PEEL]], i64 [[OFFSET_IDX]]
	; CHECK-NEXT: [[TMP23:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP22:%.]] = bitcast i64 [[TMP21]] to <2 x i64>*
	; CHECK-NEXT: br i1 [[TMP23]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]			; CHECK-NEXT: [[WIDE_LOAD43:%.]] = load <2 x i64>, <2 x i64> [[TMP22]], align 4
				; CHECK-NEXT: [[TMP23:%.]] = getelementptr i64, i64 [[TMP21]], i64 2
				; CHECK-NEXT: [[TMP24:%.]] = bitcast i64 [[TMP23]] to <2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD44:%.]] = load <2 x i64>, <2 x i64> [[TMP24]], align 4
				; CHECK-NEXT: [[TMP25:%.]] = getelementptr i64, i64 [[TMP21]], i64 4
				; CHECK-NEXT: [[TMP26:%.]] = bitcast i64 [[TMP25]] to <2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD45:%.]] = load <2 x i64>, <2 x i64> [[TMP26]], align 4
				; CHECK-NEXT: [[TMP27:%.]] = getelementptr i64, i64 [[TMP21]], i64 6
				; CHECK-NEXT: [[TMP28:%.]] = bitcast i64 [[TMP27]] to <2 x i64>*
				; CHECK-NEXT: [[WIDE_LOAD46:%.]] = load <2 x i64>, <2 x i64> [[TMP28]], align 4
				; CHECK-NEXT: [[TMP29:%.*]] = add <2 x i64> [[WIDE_LOAD]], [[VEC_PHI]]
				; CHECK-NEXT: [[TMP30:%.*]] = add <2 x i64> [[WIDE_LOAD36]], [[VEC_PHI33]]
				; CHECK-NEXT: [[TMP31:%.*]] = add <2 x i64> [[WIDE_LOAD37]], [[VEC_PHI34]]
				; CHECK-NEXT: [[TMP32:%.*]] = add <2 x i64> [[WIDE_LOAD38]], [[VEC_PHI35]]
				; CHECK-NEXT: [[TMP33:%.*]] = add <2 x i64> [[TMP29]], [[WIDE_LOAD39]]
				; CHECK-NEXT: [[TMP34:%.*]] = add <2 x i64> [[TMP30]], [[WIDE_LOAD40]]
				; CHECK-NEXT: [[TMP35:%.*]] = add <2 x i64> [[TMP31]], [[WIDE_LOAD41]]
				; CHECK-NEXT: [[TMP36:%.*]] = add <2 x i64> [[TMP32]], [[WIDE_LOAD42]]
				; CHECK-NEXT: [[TMP37]] = add <2 x i64> [[TMP33]], [[WIDE_LOAD43]]
				; CHECK-NEXT: [[TMP38]] = add <2 x i64> [[TMP34]], [[WIDE_LOAD44]]
				; CHECK-NEXT: [[TMP39]] = add <2 x i64> [[TMP35]], [[WIDE_LOAD45]]
				; CHECK-NEXT: [[TMP40]] = add <2 x i64> [[TMP36]], [[WIDE_LOAD46]]
				; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], 8
				; CHECK-NEXT: [[TMP41:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
				; CHECK-NEXT: br i1 [[TMP41]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[BIN_RDX:%.*]] = add <2 x i64> [[TMP22]], [[TMP21]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = add <2 x i64> [[TMP38]], [[TMP37]]
	; CHECK-NEXT: [[TMP24:%.*]] = call i64 @llvm.vector.reduce.add.v2i64(<2 x i64> [[BIN_RDX]])			; CHECK-NEXT: [[BIN_RDX47:%.*]] = add <2 x i64> [[TMP39]], [[BIN_RDX]]
	; CHECK-NEXT: br label [[LOOP_PREHEADER37]]			; CHECK-NEXT: [[BIN_RDX48:%.*]] = add <2 x i64> [[TMP40]], [[BIN_RDX47]]
	; CHECK: loop.preheader37:			; CHECK-NEXT: [[TMP42:%.*]] = call i64 @llvm.vector.reduce.add.v2i64(<2 x i64> [[BIN_RDX48]])
				; CHECK-NEXT: br label [[LOOP_PREHEADER49]]
				; CHECK: loop.preheader49:
	; CHECK-NEXT: [[IV_PH:%.*]] = phi i64 [ 1, [[LOOP_PREHEADER]] ], [ [[IND_END]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[IV_PH:%.*]] = phi i64 [ 1, [[LOOP_PREHEADER]] ], [ [[IND_END]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: [[SUM_PH:%.*]] = phi i64 [ [[SUM_NEXT_PEEL]], [[LOOP_PREHEADER]] ], [ [[TMP24]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[SUM_PH:%.*]] = phi i64 [ [[SUM_NEXT_PEEL]], [[LOOP_PREHEADER]] ], [ [[TMP42]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: br label [[LOOP:%.*]]			; CHECK-NEXT: br label [[LOOP:%.*]]
	; CHECK: loop:			; CHECK: loop:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT24:%.*]] ], [ [[IV_PH]], [[LOOP_PREHEADER37]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT24:%.*]] ], [ [[IV_PH]], [[LOOP_PREHEADER49]] ]
	; CHECK-NEXT: [[SUM:%.]] = phi i64 [ [[SUM_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT24]] ], [ [[SUM_PH]], [[LOOP_PREHEADER37]] ]			; CHECK-NEXT: [[SUM:%.]] = phi i64 [ [[SUM_NEXT:%.]], [[AT_WITH_INT_CONVERSION_EXIT24]] ], [ [[SUM_PH]], [[LOOP_PREHEADER49]] ]
	; CHECK-NEXT: [[INRANGE_I:%.*]] = icmp ult i64 [[SUB_I]], [[IV]]			; CHECK-NEXT: [[INRANGE_I:%.*]] = icmp ult i64 [[SUB_I]], [[IV]]
	; CHECK-NEXT: br i1 [[INRANGE_I]], label [[ERROR_I:%.]], label [[AT_WITH_INT_CONVERSION_EXIT:%.]]			; CHECK-NEXT: br i1 [[INRANGE_I]], label [[ERROR_I:%.]], label [[AT_WITH_INT_CONVERSION_EXIT:%.]]
	; CHECK: error.i:			; CHECK: error.i:
	; CHECK-NEXT: tail call void @error()			; CHECK-NEXT: tail call void @error()
	; CHECK-NEXT: unreachable			; CHECK-NEXT: unreachable
	; CHECK: at_with_int_conversion.exit:			; CHECK: at_with_int_conversion.exit:
	; CHECK-NEXT: [[GEP_IDX_I:%.]] = getelementptr i64, i64 [[START_I]], i64 [[IV]]			; CHECK-NEXT: [[GEP_IDX_I:%.]] = getelementptr i64, i64 [[START_I]], i64 [[IV]]
	; CHECK-NEXT: [[LV_I:%.]] = load i64, i64 [[GEP_IDX_I]], align 4			; CHECK-NEXT: [[LV_I:%.]] = load i64, i64 [[GEP_IDX_I]], align 4
	▲ Show 20 Lines • Show All 89 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AArch64] Increase MaxInterleaveFactor to 4Needs ReviewPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 415772

llvm/lib/Target/AArch64/AArch64Subtarget.h

llvm/test/Transforms/LoopVectorize/AArch64/intrinsiccost.ll

llvm/test/Transforms/LoopVectorize/AArch64/sve-epilog-vect-inloop-reductions.ll

llvm/test/Transforms/LoopVectorize/AArch64/sve-gather-scatter.ll

llvm/test/Transforms/LoopVectorize/AArch64/sve-illegal-type.ll

llvm/test/Transforms/PhaseOrdering/AArch64/hoisting-sinking-required-for-vectorization.ll

llvm/test/Transforms/PhaseOrdering/AArch64/peel-multiple-unreachable-exits-for-vectorization.ll

[AArch64] Increase MaxInterleaveFactor to 4
Needs ReviewPublic