This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Transforms/Vectorize/
-
Transforms/
-
Vectorize/
1/1
LoopVectorize.cpp
-
test/Transforms/LoopVectorize/AArch64/
-
Transforms/
-
LoopVectorize/
-
AArch64/
-
runtime-check-size-based-threshold.ll
-
sve-fneg.ll
-
type-shrinkage-zext-costs.ll

Differential D147522

[LoopVectorize] Take vscale into account when deciding to create epilogues
ClosedPublic

Authored by david-arm on Apr 4 2023, 5:28 AM.

Download Raw Diff

Details

Reviewers

sdesmalen
reames
hassnaa-arm
kmclaughlin
dmgreen
paulwalker-arm

Commits

rG69ee6533131d: [LoopVectorize] Take vscale into account when deciding to create epilogues

Summary

In LoopVectorizationCostModel::isEpilogueVectorizationProfitable we
check to see if the chosen main vector loop VF >= 16. If so, we
decide to create a vector epilogue loop. However, this doesn't
take VScaleForTuning into account because we could be targeting a
CPU where vscale > 1, and hence the runtime VF would be a multiple
of the known minimum value.

This patch multiplies scalable VFs by VScaleForTuning and several
tests have been updated that now produce vector epilogues.

Diff Detail

Event Timeline

david-arm created this revision.Apr 4 2023, 5:28 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 4 2023, 5:28 AM

Herald added subscribers: shiva0217, hiraditya. · View Herald Transcript

david-arm requested review of this revision.Apr 4 2023, 5:28 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 4 2023, 5:28 AM

Herald added subscribers: llvm-commits, • pcwang-thead, alextsao1999. · View Herald Transcript

Harbormaster completed remote builds in B223546: Diff 510758.Apr 4 2023, 6:31 AM

It looks like intrinsiccost.ll is failing in the precommit tests?

In D147522#4243689, @fhahn wrote:

It looks like intrinsiccost.ll is failing in the precommit tests?

Well spotted @fhahn, thanks! Not sure what happened there as I thought I'd run make check. Oh well!

Reverted test changes for intrinsiccost.ll.

Harbormaster completed remote builds in B223738: Diff 511013.Apr 5 2023, 2:16 AM

david-arm added a reviewer: dmgreen.Apr 12 2023, 6:39 AM

I'm worried the test changes don't look relevant to the code change. I mean, sure the changes are are the effect of the code change, but the tests themselves are not related to epilogue vectorisation? nor do they specify what to tune for and thus they've only changed because of the current default for this tuning option. This means the tests will change if/when the default changes. I think it would be better to have a dedicated test file that shows the result of a simple loop when RUN using several cpu tuning parameters. And for the other/existing loop vectorisation tests to be independent of the effect of tuning when the effect is not relevant to what the test is protecting (which is how you're already handling runtime-check-size-based-threshold.ll).

llvm/lib/Transforms/Vectorize/LoopVectorize.cpp
5580–5581	You could use `Multiplier = getVScaleForTuning().value_or(1)` here if you wanted. At some point in the future we might want to change this to `value_or(MinVScale)` anyway.

Reverted test changes and added a new specific test for epilogue vectorisation with vscale tuning.

david-arm marked an inline comment as done.Apr 12 2023, 8:13 AM

I've a couple of suggestions but otherwise looks good.

llvm/test/Transforms/LoopVectorize/AArch64/sve-epilog-vect-vscale-tune.ll
3–4 ↗	(On Diff #512842)	Perhaps add a RUN line for the default (i.e. with no -mcpu option) that can presumably reuse the check lines for CHECK-NV1.
51 ↗	(On Diff #512842)	It's up to you Dave but I don't see autogenerating the check lines offering any value here. If anything it makes it harder to understand the effect. Something simple like: ; CHECK-EPILOGUE: vec.epilog.ph: ; CHECK-EPILOGUE: load <vscale x 4 x i16> ; CHECK-NO-EPILOGUE-NOT: vec.epilog.ph: seems like a clearer test?

This revision is now accepted and ready to land.Apr 12 2023, 8:37 AM

Harbormaster completed remote builds in B225079: Diff 512842.Apr 12 2023, 8:47 AM

Closed by commit rG69ee6533131d: [LoopVectorize] Take vscale into account when deciding to create epilogues (authored by david-arm). · Explain WhyApr 17 2023, 3:50 AM

This revision was automatically updated to reflect the committed changes.

david-arm added a commit: rG69ee6533131d: [LoopVectorize] Take vscale into account when deciding to create epilogues.

david-arm mentioned this in D148123: [AArch64][CostModel] Make sext/zext free if folded into a masked load.Apr 19 2023, 9:05 AM

Matt added a subscriber: Matt.Apr 19 2023, 9:31 AM

dewen added a subscriber: dewen.Tue, Nov 14, 1:25 AM

Herald added subscribers: wangpc, artagnon, sunshaoce. · View Herald TranscriptTue, Nov 14, 1:25 AM

Revision Contents

Path

Size

llvm/

lib/

Transforms/

Vectorize/

LoopVectorize.cpp

9 lines

test/

Transforms/

LoopVectorize/

AArch64/

runtime-check-size-based-threshold.ll

6 lines

sve-fneg.ll

108 lines

type-shrinkage-zext-costs.ll

158 lines

Diff 511013

llvm/lib/Transforms/Vectorize/LoopVectorize.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,568 Lines • ▼ Show 20 Lines	bool LoopVectorizationCostModel::isEpilogueVectorizationProfitable(
// Allow the target to opt out entirely.		// Allow the target to opt out entirely.
if (!TTI.preferEpilogueVectorization())		if (!TTI.preferEpilogueVectorization())
return false;		return false;

// We also consider epilogue vectorization unprofitable for targets that don't		// We also consider epilogue vectorization unprofitable for targets that don't
// consider interleaving beneficial (eg. MVE).		// consider interleaving beneficial (eg. MVE).
if (TTI.getMaxInterleaveFactor(VF) <= 1)		if (TTI.getMaxInterleaveFactor(VF) <= 1)
return false;		return false;
// FIXME: We should consider changing the threshold for scalable
// vectors to take VScaleForTuning into account.		unsigned Multiplier = 1;
if (VF.getKnownMinValue() >= EpilogueVectorizationMinVF)		if (VF.isScalable())
		if (std::optional<unsigned> VScale = getVScaleForTuning())
		Multiplier = *VScale;
		paulwalker-armUnsubmitted Done Reply Inline Actions You could use `Multiplier = getVScaleForTuning().value_or(1)` here if you wanted. At some point in the future we might want to change this to `value_or(MinVScale)` anyway. paulwalker-arm: You could use `Multiplier = getVScaleForTuning().value_or(1)` here if you wanted. At some…
		if ((Multiplier * VF.getKnownMinValue()) >= EpilogueVectorizationMinVF)
return true;		return true;
return false;		return false;
}		}

VectorizationFactor		VectorizationFactor
LoopVectorizationCostModel::selectEpilogueVectorizationFactor(		LoopVectorizationCostModel::selectEpilogueVectorizationFactor(
const ElementCount MainLoopVF, const LoopVectorizationPlanner &LVP) {		const ElementCount MainLoopVF, const LoopVectorizationPlanner &LVP) {
VectorizationFactor Result = VectorizationFactor::Disabled();		VectorizationFactor Result = VectorizationFactor::Disabled();
▲ Show 20 Lines • Show All 5,016 Lines • Show Last 20 Lines

llvm/test/Transforms/LoopVectorize/AArch64/runtime-check-size-based-threshold.ll

	; RUN: opt -passes=loop-vectorize -mtriple=arm64-apple-iphoneos -vectorizer-min-trip-count=8 -S %s \| FileCheck --check-prefixes=CHECK,DEFAULT %s			; RUN: opt -passes=loop-vectorize -mtriple=arm64-apple-iphoneos -vectorizer-min-trip-count=8 \
	; RUN: opt -passes=loop-vectorize -mtriple=arm64-apple-iphoneos -vectorizer-min-trip-count=8 -vectorize-memory-check-threshold=1 -S %s \| FileCheck --check-prefixes=CHECK,THRESHOLD %s			; RUN: -enable-epilogue-vectorization=false -S %s \| FileCheck --check-prefixes=CHECK,DEFAULT %s
				; RUN: opt -passes=loop-vectorize -mtriple=arm64-apple-iphoneos -vectorizer-min-trip-count=8 \
				; RUN: -enable-epilogue-vectorization=false -vectorize-memory-check-threshold=1 -S %s \| FileCheck --check-prefixes=CHECK,THRESHOLD %s

	; Tests for loops with large numbers of runtime checks. Check that loops are			; Tests for loops with large numbers of runtime checks. Check that loops are
	; vectorized, if the loop trip counts are large and the impact of the runtime			; vectorized, if the loop trip counts are large and the impact of the runtime
	; checks is very small compared to the expected loop runtimes.			; checks is very small compared to the expected loop runtimes.


	; The trip count in the loop in this function is too to warrant large runtime checks.			; The trip count in the loop in this function is too to warrant large runtime checks.
	; CHECK-LABEL: define {{.*}} @test_tc_too_small			; CHECK-LABEL: define {{.*}} @test_tc_too_small
	▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/test/Transforms/LoopVectorize/AArch64/sve-fneg.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -passes=loop-vectorize,dce -mtriple aarch64-linux-gnu -mattr=+sve \			; RUN: opt -passes=loop-vectorize,dce -mtriple aarch64-linux-gnu -mattr=+sve \
	; RUN: -prefer-predicate-over-epilogue=scalar-epilogue < %s -S \| FileCheck %s			; RUN: -prefer-predicate-over-epilogue=scalar-epilogue < %s -S \| FileCheck %s

	target datalayout = "e-m:e-i8:8:32-i16:16:32-i64:64-i128:128-n32:64-S128"			target datalayout = "e-m:e-i8:8:32-i16:16:32-i64:64-i128:128-n32:64-S128"
	target triple = "aarch64-unknown-linux-gnu"			target triple = "aarch64-unknown-linux-gnu"

	; This should be vscale x 8 vectorized, maybe with some interleaving.			; This should be vscale x 8 vectorized, maybe with some interleaving.

	define void @fneg(ptr nocapture noundef writeonly %d, ptr nocapture noundef readonly %s, i32 noundef %n) {			define void @fneg(ptr nocapture noundef writeonly %d, ptr nocapture noundef readonly %s, i32 noundef %n) {
	; CHECK-LABEL: @fneg(			; CHECK-LABEL: @fneg(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[S2:%.]] = ptrtoint ptr [[S:%.]] to i64			; CHECK-NEXT: [[S2:%.]] = ptrtoint ptr [[S:%.]] to i64
	; CHECK-NEXT: [[D1:%.]] = ptrtoint ptr [[D:%.]] to i64			; CHECK-NEXT: [[D1:%.]] = ptrtoint ptr [[D:%.]] to i64
	; CHECK-NEXT: [[CMP6:%.]] = icmp sgt i32 [[N:%.]], 0			; CHECK-NEXT: [[CMP6:%.]] = icmp sgt i32 [[N:%.]], 0
	; CHECK-NEXT: br i1 [[CMP6]], label [[FOR_BODY_PREHEADER:%.]], label [[FOR_COND_CLEANUP:%.]]			; CHECK-NEXT: br i1 [[CMP6]], label [[ITER_CHECK:%.]], label [[FOR_COND_CLEANUP:%.]]
	; CHECK: for.body.preheader:			; CHECK: iter.check:
	; CHECK-NEXT: [[WIDE_TRIP_COUNT:%.*]] = zext i32 [[N]] to i64			; CHECK-NEXT: [[WIDE_TRIP_COUNT:%.*]] = zext i32 [[N]] to i64
	; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP1:%.*]] = mul i64 [[TMP0]], 16			; CHECK-NEXT: [[TMP1:%.*]] = mul i64 [[TMP0]], 4
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[WIDE_TRIP_COUNT]], [[TMP1]]			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[WIDE_TRIP_COUNT]], [[TMP1]]
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_MEMCHECK:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MEMCHECK:%.]]
	; CHECK: vector.memcheck:			; CHECK: vector.memcheck:
	; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP2:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP3:%.*]] = mul i64 [[TMP2]], 8			; CHECK-NEXT: [[TMP3:%.*]] = mul i64 [[TMP2]], 8
	; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 4			; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 4
	; CHECK-NEXT: [[TMP5:%.*]] = sub i64 [[D1]], [[S2]]			; CHECK-NEXT: [[TMP5:%.*]] = sub i64 [[D1]], [[S2]]
	; CHECK-NEXT: [[DIFF_CHECK:%.*]] = icmp ult i64 [[TMP5]], [[TMP4]]			; CHECK-NEXT: [[DIFF_CHECK:%.*]] = icmp ult i64 [[TMP5]], [[TMP4]]
	; CHECK-NEXT: br i1 [[DIFF_CHECK]], label [[SCALAR_PH]], label [[VECTOR_PH:%.*]]			; CHECK-NEXT: br i1 [[DIFF_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.*]]
	; CHECK: vector.ph:			; CHECK: vector.main.loop.iter.check:
	; CHECK-NEXT: [[TMP6:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP6:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP7:%.*]] = mul i64 [[TMP6]], 16			; CHECK-NEXT: [[TMP7:%.*]] = mul i64 [[TMP6]], 16
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[WIDE_TRIP_COUNT]], [[TMP7]]			; CHECK-NEXT: [[MIN_ITERS_CHECK3:%.*]] = icmp ult i64 [[WIDE_TRIP_COUNT]], [[TMP7]]
				; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK3]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]
				; CHECK: vector.ph:
				; CHECK-NEXT: [[TMP8:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP9:%.*]] = mul i64 [[TMP8]], 16
				; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[WIDE_TRIP_COUNT]], [[TMP9]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[WIDE_TRIP_COUNT]], [[N_MOD_VF]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[WIDE_TRIP_COUNT]], [[N_MOD_VF]]
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP8:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP10:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP9:%.*]] = getelementptr inbounds half, ptr [[S]], i64 [[TMP8]]			; CHECK-NEXT: [[TMP11:%.*]] = getelementptr inbounds half, ptr [[S]], i64 [[TMP10]]
	; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds half, ptr [[TMP9]], i32 0			; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds half, ptr [[TMP11]], i32 0
	; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x half>, ptr [[TMP10]], align 2			; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x half>, ptr [[TMP12]], align 2
	; CHECK-NEXT: [[TMP11:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP13:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP12:%.*]] = mul i64 [[TMP11]], 8			; CHECK-NEXT: [[TMP14:%.*]] = mul i64 [[TMP13]], 8
	; CHECK-NEXT: [[TMP13:%.*]] = getelementptr inbounds half, ptr [[TMP9]], i64 [[TMP12]]			; CHECK-NEXT: [[TMP15:%.*]] = getelementptr inbounds half, ptr [[TMP11]], i64 [[TMP14]]
	; CHECK-NEXT: [[WIDE_LOAD3:%.*]] = load <vscale x 8 x half>, ptr [[TMP13]], align 2			; CHECK-NEXT: [[WIDE_LOAD4:%.*]] = load <vscale x 8 x half>, ptr [[TMP15]], align 2
	; CHECK-NEXT: [[TMP14:%.*]] = fneg <vscale x 8 x half> [[WIDE_LOAD]]			; CHECK-NEXT: [[TMP16:%.*]] = fneg <vscale x 8 x half> [[WIDE_LOAD]]
	; CHECK-NEXT: [[TMP15:%.*]] = fneg <vscale x 8 x half> [[WIDE_LOAD3]]			; CHECK-NEXT: [[TMP17:%.*]] = fneg <vscale x 8 x half> [[WIDE_LOAD4]]
	; CHECK-NEXT: [[TMP16:%.*]] = getelementptr inbounds half, ptr [[D]], i64 [[TMP8]]			; CHECK-NEXT: [[TMP18:%.*]] = getelementptr inbounds half, ptr [[D]], i64 [[TMP10]]
	; CHECK-NEXT: [[TMP17:%.*]] = getelementptr inbounds half, ptr [[TMP16]], i32 0			; CHECK-NEXT: [[TMP19:%.*]] = getelementptr inbounds half, ptr [[TMP18]], i32 0
	; CHECK-NEXT: store <vscale x 8 x half> [[TMP14]], ptr [[TMP17]], align 2			; CHECK-NEXT: store <vscale x 8 x half> [[TMP16]], ptr [[TMP19]], align 2
	; CHECK-NEXT: [[TMP18:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP20:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP19:%.*]] = mul i64 [[TMP18]], 8			; CHECK-NEXT: [[TMP21:%.*]] = mul i64 [[TMP20]], 8
	; CHECK-NEXT: [[TMP20:%.*]] = getelementptr inbounds half, ptr [[TMP16]], i64 [[TMP19]]			; CHECK-NEXT: [[TMP22:%.*]] = getelementptr inbounds half, ptr [[TMP18]], i64 [[TMP21]]
	; CHECK-NEXT: store <vscale x 8 x half> [[TMP15]], ptr [[TMP20]], align 2			; CHECK-NEXT: store <vscale x 8 x half> [[TMP17]], ptr [[TMP22]], align 2
	; CHECK-NEXT: [[TMP21:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP23:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP22:%.*]] = mul i64 [[TMP21]], 16			; CHECK-NEXT: [[TMP24:%.*]] = mul i64 [[TMP23]], 16
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP22]]			; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP24]]
	; CHECK-NEXT: [[TMP23:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP25:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[TMP23]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]			; CHECK-NEXT: br i1 [[TMP25]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[WIDE_TRIP_COUNT]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[WIDE_TRIP_COUNT]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_COND_CLEANUP_LOOPEXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[FOR_COND_CLEANUP_LOOPEXIT:%.]], label [[VEC_EPILOG_ITER_CHECK:%.]]
	; CHECK: scalar.ph:			; CHECK: vec.epilog.iter.check:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[MIDDLE_BLOCK]] ], [ 0, [[FOR_BODY_PREHEADER]] ], [ 0, [[VECTOR_MEMCHECK]] ]			; CHECK-NEXT: [[N_VEC_REMAINING:%.*]] = sub i64 [[WIDE_TRIP_COUNT]], [[N_VEC]]
				; CHECK-NEXT: [[TMP26:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP27:%.*]] = mul i64 [[TMP26]], 4
				; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp ult i64 [[N_VEC_REMAINING]], [[TMP27]]
				; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]
				; CHECK: vec.epilog.ph:
				; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]
				; CHECK-NEXT: [[TMP28:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP29:%.*]] = mul i64 [[TMP28]], 4
				; CHECK-NEXT: [[N_MOD_VF5:%.*]] = urem i64 [[WIDE_TRIP_COUNT]], [[TMP29]]
				; CHECK-NEXT: [[N_VEC6:%.*]] = sub i64 [[WIDE_TRIP_COUNT]], [[N_MOD_VF5]]
				; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]
				; CHECK: vec.epilog.vector.body:
				; CHECK-NEXT: [[INDEX8:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT10:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
				; CHECK-NEXT: [[TMP30:%.*]] = add i64 [[INDEX8]], 0
				; CHECK-NEXT: [[TMP31:%.*]] = getelementptr inbounds half, ptr [[S]], i64 [[TMP30]]
				; CHECK-NEXT: [[TMP32:%.*]] = getelementptr inbounds half, ptr [[TMP31]], i32 0
				; CHECK-NEXT: [[WIDE_LOAD9:%.*]] = load <vscale x 4 x half>, ptr [[TMP32]], align 2
				; CHECK-NEXT: [[TMP33:%.*]] = fneg <vscale x 4 x half> [[WIDE_LOAD9]]
				; CHECK-NEXT: [[TMP34:%.*]] = getelementptr inbounds half, ptr [[D]], i64 [[TMP30]]
				; CHECK-NEXT: [[TMP35:%.*]] = getelementptr inbounds half, ptr [[TMP34]], i32 0
				; CHECK-NEXT: store <vscale x 4 x half> [[TMP33]], ptr [[TMP35]], align 2
				; CHECK-NEXT: [[TMP36:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP37:%.*]] = mul i64 [[TMP36]], 4
				; CHECK-NEXT: [[INDEX_NEXT10]] = add nuw i64 [[INDEX8]], [[TMP37]]
				; CHECK-NEXT: [[TMP38:%.*]] = icmp eq i64 [[INDEX_NEXT10]], [[N_VEC6]]
				; CHECK-NEXT: br i1 [[TMP38]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP3:![0-9]+]]
				; CHECK: vec.epilog.middle.block:
				; CHECK-NEXT: [[CMP_N7:%.*]] = icmp eq i64 [[WIDE_TRIP_COUNT]], [[N_VEC6]]
				; CHECK-NEXT: br i1 [[CMP_N7]], label [[FOR_COND_CLEANUP_LOOPEXIT]], label [[VEC_EPILOG_SCALAR_PH]]
				; CHECK: vec.epilog.scalar.ph:
				; CHECK-NEXT: [[BC_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC6]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MEMCHECK]] ], [ 0, [[ITER_CHECK]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.cond.cleanup.loopexit:			; CHECK: for.cond.cleanup.loopexit:
	; CHECK-NEXT: br label [[FOR_COND_CLEANUP]]			; CHECK-NEXT: br label [[FOR_COND_CLEANUP]]
	; CHECK: for.cond.cleanup:			; CHECK: for.cond.cleanup:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ], [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ]			; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ], [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ]
	; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds half, ptr [[S]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds half, ptr [[S]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: [[TMP24:%.*]] = load half, ptr [[ARRAYIDX]], align 2			; CHECK-NEXT: [[TMP39:%.*]] = load half, ptr [[ARRAYIDX]], align 2
	; CHECK-NEXT: [[FNEG:%.*]] = fneg half [[TMP24]]			; CHECK-NEXT: [[FNEG:%.*]] = fneg half [[TMP39]]
	; CHECK-NEXT: [[ARRAYIDX2:%.*]] = getelementptr inbounds half, ptr [[D]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX2:%.*]] = getelementptr inbounds half, ptr [[D]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: store half [[FNEG]], ptr [[ARRAYIDX2]], align 2			; CHECK-NEXT: store half [[FNEG]], ptr [[ARRAYIDX2]], align 2
	; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1			; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1
	; CHECK-NEXT: [[EXITCOND_NOT:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT]], [[WIDE_TRIP_COUNT]]			; CHECK-NEXT: [[EXITCOND_NOT:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT]], [[WIDE_TRIP_COUNT]]
	; CHECK-NEXT: br i1 [[EXITCOND_NOT]], label [[FOR_COND_CLEANUP_LOOPEXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP3:![0-9]+]]			; CHECK-NEXT: br i1 [[EXITCOND_NOT]], label [[FOR_COND_CLEANUP_LOOPEXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]
	;			;
	entry:			entry:
	%cmp6 = icmp sgt i32 %n, 0			%cmp6 = icmp sgt i32 %n, 0
	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup			br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup

	for.body.preheader: ; preds = %entry			for.body.preheader: ; preds = %entry
	%wide.trip.count = zext i32 %n to i64			%wide.trip.count = zext i32 %n to i64
	br label %for.body			br label %for.body
	Show All 15 Lines

llvm/test/Transforms/LoopVectorize/AArch64/type-shrinkage-zext-costs.ll

	Show All 13 Lines
	; CHECK-COST: LV: Found an estimated cost of 1 for VF 8 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF 8 For instruction: %conv = zext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 2 for VF 16 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 2 for VF 16 For instruction: %conv = zext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 1 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 1 For instruction: %conv = zext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 2 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 2 For instruction: %conv = zext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 4 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 4 For instruction: %conv = zext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 8 For instruction: %conv = zext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 8 For instruction: %conv = zext i8 %0 to i32
	; CHECK-LABEL: define void @zext_i8_i16			; CHECK-LABEL: define void @zext_i8_i16
	; CHECK-SAME: (ptr noalias nocapture readonly [[P:%.]], ptr noalias nocapture [[Q:%.]], i32 [[LEN:%.*]]) #[[ATTR0:[0-9]+]] {			; CHECK-SAME: (ptr noalias nocapture readonly [[P:%.]], ptr noalias nocapture [[Q:%.]], i32 [[LEN:%.*]]) #[[ATTR0:[0-9]+]] {
	; CHECK-NEXT: entry:			; CHECK-NEXT: iter.check:
	; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[LEN]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[LEN]], -1
	; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64			; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64
	; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1			; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1
	; CHECK-NEXT: [[TMP3:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP3:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 8			; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 4
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP2]], [[TMP4]]			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP2]], [[TMP4]]
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]
	; CHECK: vector.ph:			; CHECK: vector.main.loop.iter.check:
	; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 8			; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 8
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[TMP2]], [[TMP6]]			; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i64 [[TMP2]], [[TMP6]]
				; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]
				; CHECK: vector.ph:
				; CHECK-NEXT: [[TMP7:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP8:%.*]] = mul i64 [[TMP7]], 8
				; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[TMP2]], [[TMP8]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF]]
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX]]			; CHECK-NEXT: [[TMP9:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX]]
	; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x i8>, ptr [[TMP7]], align 1			; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x i8>, ptr [[TMP9]], align 1
	; CHECK-NEXT: [[TMP8:%.*]] = zext <vscale x 8 x i8> [[WIDE_LOAD]] to <vscale x 8 x i16>			; CHECK-NEXT: [[TMP10:%.*]] = zext <vscale x 8 x i8> [[WIDE_LOAD]] to <vscale x 8 x i16>
	; CHECK-NEXT: [[TMP9:%.*]] = add <vscale x 8 x i16> [[TMP8]], trunc (<vscale x 8 x i32> shufflevector (<vscale x 8 x i32> insertelement (<vscale x 8 x i32> poison, i32 2, i64 0), <vscale x 8 x i32> poison, <vscale x 8 x i32> zeroinitializer) to <vscale x 8 x i16>)			; CHECK-NEXT: [[TMP11:%.*]] = add <vscale x 8 x i16> [[TMP10]], trunc (<vscale x 8 x i32> shufflevector (<vscale x 8 x i32> insertelement (<vscale x 8 x i32> poison, i32 2, i64 0), <vscale x 8 x i32> poison, <vscale x 8 x i32> zeroinitializer) to <vscale x 8 x i16>)
	; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX]]			; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX]]
	; CHECK-NEXT: store <vscale x 8 x i16> [[TMP9]], ptr [[TMP10]], align 2			; CHECK-NEXT: store <vscale x 8 x i16> [[TMP11]], ptr [[TMP12]], align 2
	; CHECK-NEXT: [[TMP11:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP13:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP12:%.*]] = mul i64 [[TMP11]], 8			; CHECK-NEXT: [[TMP14:%.*]] = mul i64 [[TMP13]], 8
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP12]]			; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP14]]
	; CHECK-NEXT: [[TMP13:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP15:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[TMP13]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]			; CHECK-NEXT: br i1 [[TMP15]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP0:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[EXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[EXIT:%.]], label [[VEC_EPILOG_ITER_CHECK:%.]]
	; CHECK: scalar.ph:			; CHECK: vec.epilog.iter.check:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC]], [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[TMP16:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP17:%.*]] = mul i64 [[TMP16]], 4
				; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp ult i64 [[N_MOD_VF]], [[TMP17]]
				; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]
				; CHECK: vec.epilog.ph:
				; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]
				; CHECK-NEXT: [[TMP18:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP19:%.*]] = mul i64 [[TMP18]], 4
				; CHECK-NEXT: [[N_MOD_VF2:%.*]] = urem i64 [[TMP2]], [[TMP19]]
				; CHECK-NEXT: [[N_VEC3:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF2]]
				; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]
				; CHECK: vec.epilog.vector.body:
				; CHECK-NEXT: [[INDEX5:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT7:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
				; CHECK-NEXT: [[TMP20:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX5]]
				; CHECK-NEXT: [[WIDE_LOAD6:%.*]] = load <vscale x 4 x i8>, ptr [[TMP20]], align 1
				; CHECK-NEXT: [[TMP21:%.*]] = zext <vscale x 4 x i8> [[WIDE_LOAD6]] to <vscale x 4 x i16>
				; CHECK-NEXT: [[TMP22:%.*]] = add <vscale x 4 x i16> [[TMP21]], trunc (<vscale x 4 x i32> shufflevector (<vscale x 4 x i32> insertelement (<vscale x 4 x i32> poison, i32 2, i64 0), <vscale x 4 x i32> poison, <vscale x 4 x i32> zeroinitializer) to <vscale x 4 x i16>)
				; CHECK-NEXT: [[TMP23:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX5]]
				; CHECK-NEXT: store <vscale x 4 x i16> [[TMP22]], ptr [[TMP23]], align 2
				; CHECK-NEXT: [[TMP24:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP25:%.*]] = mul i64 [[TMP24]], 4
				; CHECK-NEXT: [[INDEX_NEXT7]] = add nuw i64 [[INDEX5]], [[TMP25]]
				; CHECK-NEXT: [[TMP26:%.*]] = icmp eq i64 [[INDEX_NEXT7]], [[N_VEC3]]
				; CHECK-NEXT: br i1 [[TMP26]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP3:![0-9]+]]
				; CHECK: vec.epilog.middle.block:
				; CHECK-NEXT: [[CMP_N4:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC3]]
				; CHECK-NEXT: br i1 [[CMP_N4]], label [[EXIT]], label [[VEC_EPILOG_SCALAR_PH]]
				; CHECK: vec.epilog.scalar.ph:
				; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC3]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[ITER_CHECK:%.]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: [[TMP14:%.*]] = load i8, ptr [[ARRAYIDX]], align 1			; CHECK-NEXT: [[TMP27:%.*]] = load i8, ptr [[ARRAYIDX]], align 1
	; CHECK-NEXT: [[CONV:%.*]] = zext i8 [[TMP14]] to i32			; CHECK-NEXT: [[CONV:%.*]] = zext i8 [[TMP27]] to i32
	; CHECK-NEXT: [[ADD:%.*]] = add nuw nsw i32 [[CONV]], 2			; CHECK-NEXT: [[ADD:%.*]] = add nuw nsw i32 [[CONV]], 2
	; CHECK-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16			; CHECK-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
	; CHECK-NEXT: [[ARRAYIDX3:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX3:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: store i16 [[CONV1]], ptr [[ARRAYIDX3]], align 2			; CHECK-NEXT: store i16 [[CONV1]], ptr [[ARRAYIDX3]], align 2
	; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1			; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1
	; CHECK-NEXT: [[LFTR_WIDEIV:%.*]] = trunc i64 [[INDVARS_IV_NEXT]] to i32			; CHECK-NEXT: [[LFTR_WIDEIV:%.*]] = trunc i64 [[INDVARS_IV_NEXT]] to i32
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i32 [[LFTR_WIDEIV]], [[LEN]]			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i32 [[LFTR_WIDEIV]], [[LEN]]
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[EXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP3:![0-9]+]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[EXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]
	; CHECK: exit:			; CHECK: exit:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body: ; preds = %entry, %for.body			for.body: ; preds = %entry, %for.body
	%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]			%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]
	Show All 21 Lines
	; CHECK-COST: LV: Found an estimated cost of 1 for VF 8 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF 8 For instruction: %conv = sext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 2 for VF 16 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 2 for VF 16 For instruction: %conv = sext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 1 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 1 For instruction: %conv = sext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 2 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 2 For instruction: %conv = sext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 4 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 4 For instruction: %conv = sext i8 %0 to i32
	; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 8 For instruction: %conv = sext i8 %0 to i32			; CHECK-COST: LV: Found an estimated cost of 1 for VF vscale x 8 For instruction: %conv = sext i8 %0 to i32
	; CHECK-LABEL: define void @sext_i8_i16			; CHECK-LABEL: define void @sext_i8_i16
	; CHECK-SAME: (ptr noalias nocapture readonly [[P:%.]], ptr noalias nocapture [[Q:%.]], i32 [[LEN:%.*]]) #[[ATTR0]] {			; CHECK-SAME: (ptr noalias nocapture readonly [[P:%.]], ptr noalias nocapture [[Q:%.]], i32 [[LEN:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: entry:			; CHECK-NEXT: iter.check:
	; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[LEN]], -1			; CHECK-NEXT: [[TMP0:%.*]] = add i32 [[LEN]], -1
	; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64			; CHECK-NEXT: [[TMP1:%.*]] = zext i32 [[TMP0]] to i64
	; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1			; CHECK-NEXT: [[TMP2:%.*]] = add nuw nsw i64 [[TMP1]], 1
	; CHECK-NEXT: [[TMP3:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP3:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 8			; CHECK-NEXT: [[TMP4:%.*]] = mul i64 [[TMP3]], 4
	; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP2]], [[TMP4]]			; CHECK-NEXT: [[MIN_ITERS_CHECK:%.*]] = icmp ult i64 [[TMP2]], [[TMP4]]
	; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH:%.]], label [[VECTOR_MAIN_LOOP_ITER_CHECK:%.]]
	; CHECK: vector.ph:			; CHECK: vector.main.loop.iter.check:
	; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP5:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 8			; CHECK-NEXT: [[TMP6:%.*]] = mul i64 [[TMP5]], 8
	; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[TMP2]], [[TMP6]]			; CHECK-NEXT: [[MIN_ITERS_CHECK1:%.*]] = icmp ult i64 [[TMP2]], [[TMP6]]
				; CHECK-NEXT: br i1 [[MIN_ITERS_CHECK1]], label [[VEC_EPILOG_PH:%.]], label [[VECTOR_PH:%.]]
				; CHECK: vector.ph:
				; CHECK-NEXT: [[TMP7:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP8:%.*]] = mul i64 [[TMP7]], 8
				; CHECK-NEXT: [[N_MOD_VF:%.*]] = urem i64 [[TMP2]], [[TMP8]]
	; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF]]			; CHECK-NEXT: [[N_VEC:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF]]
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX]]			; CHECK-NEXT: [[TMP9:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX]]
	; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x i8>, ptr [[TMP7]], align 1			; CHECK-NEXT: [[WIDE_LOAD:%.*]] = load <vscale x 8 x i8>, ptr [[TMP9]], align 1
	; CHECK-NEXT: [[TMP8:%.*]] = sext <vscale x 8 x i8> [[WIDE_LOAD]] to <vscale x 8 x i16>			; CHECK-NEXT: [[TMP10:%.*]] = sext <vscale x 8 x i8> [[WIDE_LOAD]] to <vscale x 8 x i16>
	; CHECK-NEXT: [[TMP9:%.*]] = add <vscale x 8 x i16> [[TMP8]], trunc (<vscale x 8 x i32> shufflevector (<vscale x 8 x i32> insertelement (<vscale x 8 x i32> poison, i32 2, i64 0), <vscale x 8 x i32> poison, <vscale x 8 x i32> zeroinitializer) to <vscale x 8 x i16>)			; CHECK-NEXT: [[TMP11:%.*]] = add <vscale x 8 x i16> [[TMP10]], trunc (<vscale x 8 x i32> shufflevector (<vscale x 8 x i32> insertelement (<vscale x 8 x i32> poison, i32 2, i64 0), <vscale x 8 x i32> poison, <vscale x 8 x i32> zeroinitializer) to <vscale x 8 x i16>)
	; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX]]			; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX]]
	; CHECK-NEXT: store <vscale x 8 x i16> [[TMP9]], ptr [[TMP10]], align 2			; CHECK-NEXT: store <vscale x 8 x i16> [[TMP11]], ptr [[TMP12]], align 2
	; CHECK-NEXT: [[TMP11:%.*]] = call i64 @llvm.vscale.i64()			; CHECK-NEXT: [[TMP13:%.*]] = call i64 @llvm.vscale.i64()
	; CHECK-NEXT: [[TMP12:%.*]] = mul i64 [[TMP11]], 8			; CHECK-NEXT: [[TMP14:%.*]] = mul i64 [[TMP13]], 8
	; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP12]]			; CHECK-NEXT: [[INDEX_NEXT]] = add nuw i64 [[INDEX]], [[TMP14]]
	; CHECK-NEXT: [[TMP13:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]			; CHECK-NEXT: [[TMP15:%.*]] = icmp eq i64 [[INDEX_NEXT]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[TMP13]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP4:![0-9]+]]			; CHECK-NEXT: br i1 [[TMP15]], label [[MIDDLE_BLOCK:%.*]], label [[VECTOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC]]
	; CHECK-NEXT: br i1 [[CMP_N]], label [[EXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[EXIT:%.]], label [[VEC_EPILOG_ITER_CHECK:%.]]
	; CHECK: scalar.ph:			; CHECK: vec.epilog.iter.check:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC]], [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[TMP16:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP17:%.*]] = mul i64 [[TMP16]], 4
				; CHECK-NEXT: [[MIN_EPILOG_ITERS_CHECK:%.*]] = icmp ult i64 [[N_MOD_VF]], [[TMP17]]
				; CHECK-NEXT: br i1 [[MIN_EPILOG_ITERS_CHECK]], label [[VEC_EPILOG_SCALAR_PH]], label [[VEC_EPILOG_PH]]
				; CHECK: vec.epilog.ph:
				; CHECK-NEXT: [[VEC_EPILOG_RESUME_VAL:%.*]] = phi i64 [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[VECTOR_MAIN_LOOP_ITER_CHECK]] ]
				; CHECK-NEXT: [[TMP18:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP19:%.*]] = mul i64 [[TMP18]], 4
				; CHECK-NEXT: [[N_MOD_VF2:%.*]] = urem i64 [[TMP2]], [[TMP19]]
				; CHECK-NEXT: [[N_VEC3:%.*]] = sub i64 [[TMP2]], [[N_MOD_VF2]]
				; CHECK-NEXT: br label [[VEC_EPILOG_VECTOR_BODY:%.*]]
				; CHECK: vec.epilog.vector.body:
				; CHECK-NEXT: [[INDEX5:%.]] = phi i64 [ [[VEC_EPILOG_RESUME_VAL]], [[VEC_EPILOG_PH]] ], [ [[INDEX_NEXT7:%.]], [[VEC_EPILOG_VECTOR_BODY]] ]
				; CHECK-NEXT: [[TMP20:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDEX5]]
				; CHECK-NEXT: [[WIDE_LOAD6:%.*]] = load <vscale x 4 x i8>, ptr [[TMP20]], align 1
				; CHECK-NEXT: [[TMP21:%.*]] = sext <vscale x 4 x i8> [[WIDE_LOAD6]] to <vscale x 4 x i16>
				; CHECK-NEXT: [[TMP22:%.*]] = add <vscale x 4 x i16> [[TMP21]], trunc (<vscale x 4 x i32> shufflevector (<vscale x 4 x i32> insertelement (<vscale x 4 x i32> poison, i32 2, i64 0), <vscale x 4 x i32> poison, <vscale x 4 x i32> zeroinitializer) to <vscale x 4 x i16>)
				; CHECK-NEXT: [[TMP23:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDEX5]]
				; CHECK-NEXT: store <vscale x 4 x i16> [[TMP22]], ptr [[TMP23]], align 2
				; CHECK-NEXT: [[TMP24:%.*]] = call i64 @llvm.vscale.i64()
				; CHECK-NEXT: [[TMP25:%.*]] = mul i64 [[TMP24]], 4
				; CHECK-NEXT: [[INDEX_NEXT7]] = add nuw i64 [[INDEX5]], [[TMP25]]
				; CHECK-NEXT: [[TMP26:%.*]] = icmp eq i64 [[INDEX_NEXT7]], [[N_VEC3]]
				; CHECK-NEXT: br i1 [[TMP26]], label [[VEC_EPILOG_MIDDLE_BLOCK:%.*]], label [[VEC_EPILOG_VECTOR_BODY]], !llvm.loop [[LOOP6:![0-9]+]]
				; CHECK: vec.epilog.middle.block:
				; CHECK-NEXT: [[CMP_N4:%.*]] = icmp eq i64 [[TMP2]], [[N_VEC3]]
				; CHECK-NEXT: br i1 [[CMP_N4]], label [[EXIT]], label [[VEC_EPILOG_SCALAR_PH]]
				; CHECK: vec.epilog.scalar.ph:
				; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ [[N_VEC3]], [[VEC_EPILOG_MIDDLE_BLOCK]] ], [ [[N_VEC]], [[VEC_EPILOG_ITER_CHECK]] ], [ 0, [[ITER_CHECK:%.]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[VEC_EPILOG_SCALAR_PH]] ]
	; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: [[TMP14:%.*]] = load i8, ptr [[ARRAYIDX]], align 1			; CHECK-NEXT: [[TMP27:%.*]] = load i8, ptr [[ARRAYIDX]], align 1
	; CHECK-NEXT: [[CONV:%.*]] = sext i8 [[TMP14]] to i32			; CHECK-NEXT: [[CONV:%.*]] = sext i8 [[TMP27]] to i32
	; CHECK-NEXT: [[ADD:%.*]] = add nuw nsw i32 [[CONV]], 2			; CHECK-NEXT: [[ADD:%.*]] = add nuw nsw i32 [[CONV]], 2
	; CHECK-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16			; CHECK-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
	; CHECK-NEXT: [[ARRAYIDX3:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDVARS_IV]]			; CHECK-NEXT: [[ARRAYIDX3:%.*]] = getelementptr inbounds i16, ptr [[Q]], i64 [[INDVARS_IV]]
	; CHECK-NEXT: store i16 [[CONV1]], ptr [[ARRAYIDX3]], align 2			; CHECK-NEXT: store i16 [[CONV1]], ptr [[ARRAYIDX3]], align 2
	; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1			; CHECK-NEXT: [[INDVARS_IV_NEXT]] = add nuw nsw i64 [[INDVARS_IV]], 1
	; CHECK-NEXT: [[LFTR_WIDEIV:%.*]] = trunc i64 [[INDVARS_IV_NEXT]] to i32			; CHECK-NEXT: [[LFTR_WIDEIV:%.*]] = trunc i64 [[INDVARS_IV_NEXT]] to i32
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i32 [[LFTR_WIDEIV]], [[LEN]]			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i32 [[LFTR_WIDEIV]], [[LEN]]
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[EXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP5:![0-9]+]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[EXIT]], label [[FOR_BODY]], !llvm.loop [[LOOP7:![0-9]+]]
	; CHECK: exit:			; CHECK: exit:
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body: ; preds = %entry, %for.body			for.body: ; preds = %entry, %for.body
	%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]			%indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]
	Show All 17 Lines