This is an archive of the discontinued LLVM Phabricator instance.

[LoopVectorizer] Leverage uniformity across unrolled iterations
AbandonedPublic

Authored by reames on Nov 13 2020, 11:35 AM.

Download Raw Diff

Details

Reviewers

anna
fhahn
greened

Summary

(Note, this extends D91398 and probably won't make any sense unless you've looked at that first.)

When scalarizing a uniform expression, we currently only consider uniformity within a single vector factor. For some expressions, we can exploit the fact that the expression is uniform across all lanes of all vector factors in the unrolling. This patch teaches the VPReplicateRecipe how to achieve this.

After this patch (and the previous one), we can lower a load from a loop invariant address as a single scalar load. (Instead of UF*VF scalar loads and rely on CSE cleaning it up later.)

I'd hoped to exercise this through code paths not involving uniform mem ops, but the cases I tried were mostly covered by existing scalarization logic. I believe this will sometimes trigger with existing code, but have struggled to find a clean example so I made the patch dependent on the uniform memory op work.

Diff Detail

Event Timeline

reames created this revision.Nov 13 2020, 11:35 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 13 2020, 11:35 AM

Herald added subscribers: dantrushin, rogfer01, bollu and 2 others. · View Herald Transcript

reames requested review of this revision.Nov 13 2020, 11:35 AM

Herald added a subscriber: vkmr. · View Herald TranscriptNov 13 2020, 11:35 AM

Harbormaster completed remote builds in B78799: Diff 305221.Nov 13 2020, 11:36 AM

reames added a parent revision: D91398: [LoopVectorizer] Lower uniform loads as a single load (instead of relying on CSE).Nov 13 2020, 11:36 AM

lebedev.ri added a subscriber: lebedev.ri.Nov 13 2020, 11:41 AM

lebedev.ri added inline comments.

llvm/test/Transforms/LoopVectorize/X86/uniform_mem_op.ll
122	Precommit this?

reames mentioned this in rGd6239b3ea6c1: [test] pre-comit test for D91451.Nov 23 2020, 3:36 PM

Rebase on landed test as requested.

Abandoning an old review I'm not going to return to any time soon.

Revision Contents

Path

Size

llvm/

lib/

Transforms/

Vectorize/

LoopVectorize.cpp

44 lines

VPlan.h

12 lines

test/

Transforms/

LoopVectorize/

X86/

uniform_mem_op.ll

102 lines

Diff 307228

llvm/lib/Transforms/Vectorize/LoopVectorize.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 497 Lines • ▼ Show 20 Lines	public:
/// Generates a sequence of scalar instances for each lane between \p MinLane		/// Generates a sequence of scalar instances for each lane between \p MinLane
/// and \p MaxLane, times each part between \p MinPart and \p MaxPart,		/// and \p MaxLane, times each part between \p MinPart and \p MaxPart,
/// inclusive. Uses the VPValue operands from \p Operands instead of \p		/// inclusive. Uses the VPValue operands from \p Operands instead of \p
/// Instr's operands.		/// Instr's operands.
void scalarizeInstruction(Instruction *Instr, VPUser &Operands,		void scalarizeInstruction(Instruction *Instr, VPUser &Operands,
const VPIteration &Instance, bool IfPredicateInstr,		const VPIteration &Instance, bool IfPredicateInstr,
VPTransformState &State);		VPTransformState &State);

		/// Record the fact that an existing scalar lane defined for DefInstance also
		/// produces a result which can be used for UseInstance. Used to avoid
		/// redundant computation during replication.
		void reuseScalarLane(Instruction *Instr, const VPIteration &DefInstance,
		const VPIteration &UseInstance);


/// Widen an integer or floating-point induction variable \p IV. If \p Trunc		/// Widen an integer or floating-point induction variable \p IV. If \p Trunc
/// is provided, the integer induction variable will first be truncated to		/// is provided, the integer induction variable will first be truncated to
/// the corresponding type.		/// the corresponding type.
void widenIntOrFpInduction(PHINode IV, TruncInst Trunc = nullptr);		void widenIntOrFpInduction(PHINode IV, TruncInst Trunc = nullptr);

/// getOrCreateVectorValue and getOrCreateScalarValue coordinate to generate a		/// getOrCreateVectorValue and getOrCreateScalarValue coordinate to generate a
/// vector or scalar value on-demand if one is not yet available. When		/// vector or scalar value on-demand if one is not yet available. When
/// vectorizing a loop, we visit the definition of an instruction before its		/// vectorizing a loop, we visit the definition of an instruction before its
▲ Show 20 Lines • Show All 2,168 Lines • ▼ Show 20 Lines	if (auto *II = dyn_cast<IntrinsicInst>(Cloned))
if (II->getIntrinsicID() == Intrinsic::assume)		if (II->getIntrinsicID() == Intrinsic::assume)
AC->registerAssumption(II);		AC->registerAssumption(II);

// End if-block.		// End if-block.
if (IfPredicateInstr)		if (IfPredicateInstr)
PredicatedInstructions.push_back(Cloned);		PredicatedInstructions.push_back(Cloned);
}		}

		void InnerLoopVectorizer::reuseScalarLane(Instruction *Instr,
		const VPIteration &DefInstance,
		const VPIteration &UseInstance) {
		auto *Def = VectorLoopValueMap.getScalarValue(Instr, DefInstance);
		VectorLoopValueMap.setScalarValue(Instr, UseInstance, Def);
		}

PHINode InnerLoopVectorizer::createInductionVariable(Loop L, Value *Start,		PHINode InnerLoopVectorizer::createInductionVariable(Loop L, Value *Start,
Value End, Value Step,		Value End, Value Step,
Instruction *DL) {		Instruction *DL) {
BasicBlock *Header = L->getHeader();		BasicBlock *Header = L->getHeader();
BasicBlock *Latch = L->getLoopLatch();		BasicBlock *Latch = L->getLoopLatch();
// As we're just creating this loop, it's possible no latch exists		// As we're just creating this loop, it's possible no latch exists
// yet. If so, use the header as this will be a single block loop.		// yet. If so, use the header as this will be a single block loop.
if (!Latch)		if (!Latch)
▲ Show 20 Lines • Show All 4,831 Lines • ▼ Show 20 Lines
VPBasicBlock *VPRecipeBuilder::handleReplication(		VPBasicBlock *VPRecipeBuilder::handleReplication(
Instruction I, VFRange &Range, VPBasicBlock VPBB,		Instruction I, VFRange &Range, VPBasicBlock VPBB,
DenseMap<Instruction , VPReplicateRecipe > &PredInst2Recipe,		DenseMap<Instruction , VPReplicateRecipe > &PredInst2Recipe,
VPlanPtr &Plan) {		VPlanPtr &Plan) {
bool IsUniform = LoopVectorizationPlanner::getDecisionAndClampRange(		bool IsUniform = LoopVectorizationPlanner::getDecisionAndClampRange(
[&](ElementCount VF) { return CM.isUniformAfterVectorization(I, VF); },		[&](ElementCount VF) { return CM.isUniformAfterVectorization(I, VF); },
Range);		Range);

		auto isGloballyUniform = [&](ElementCount VF) {
		if (!IsUniform)
		return false;
		if (isa<LoadInst>(I) && Legal->isUniformMemOp(*I))
		return true;
		return Legal->isUniform(I);
		};

		bool IsGloballyUniform =
		LoopVectorizationPlanner::getDecisionAndClampRange(isGloballyUniform,
		Range);

bool IsPredicated = LoopVectorizationPlanner::getDecisionAndClampRange(		bool IsPredicated = LoopVectorizationPlanner::getDecisionAndClampRange(
[&](ElementCount VF) { return CM.isScalarWithPredication(I, VF); },		[&](ElementCount VF) { return CM.isScalarWithPredication(I, VF); },
Range);		Range);

auto *Recipe = new VPReplicateRecipe(I, Plan->mapToVPValues(I->operands()),		auto *Recipe = new VPReplicateRecipe(I, Plan->mapToVPValues(I->operands()),
IsUniform, IsPredicated);		IsUniform, IsGloballyUniform,
		IsPredicated);
setRecipe(I, Recipe);		setRecipe(I, Recipe);

// Find if I uses a predicated instruction. If so, it will use its scalar		// Find if I uses a predicated instruction. If so, it will use its scalar
// value. Avoid hoisting the insert-element which packs the scalar value into		// value. Avoid hoisting the insert-element which packs the scalar value into
// a vector value, as that happens iff all users use the vector value.		// a vector value, as that happens iff all users use the vector value.
for (auto &Op : I->operands())		for (auto &Op : I->operands())
if (auto *PredInst = dyn_cast<Instruction>(Op))		if (auto *PredInst = dyn_cast<Instruction>(Op))
if (PredInst2Recipe.find(PredInst) != PredInst2Recipe.end())		if (PredInst2Recipe.find(PredInst) != PredInst2Recipe.end())
▲ Show 20 Lines • Show All 576 Lines • ▼ Show 20 Lines	if (AlsoPack && State.VF.isVector()) {
UndefValue::get(VectorType::get(Ingredient->getType(), State.VF));		UndefValue::get(VectorType::get(Ingredient->getType(), State.VF));
State.ValueMap.setVectorValue(Ingredient, State.Instance->Part, Undef);		State.ValueMap.setVectorValue(Ingredient, State.Instance->Part, Undef);
}		}
State.ILV->packScalarIntoVectorValue(Ingredient, *State.Instance);		State.ILV->packScalarIntoVectorValue(Ingredient, *State.Instance);
}		}
return;		return;
}		}

		// For a globally uniform instruction, we only need to compute a single lane
		// and reuse it across each unrolled iteration. For simplicity sake, we
		// preserve the invariant for per-unrolled iteration invariance and record
		// the instruction in the first lane of every vector. We could update all
		// the consuming logic to understand global uniformity, but this is less
		// error prone..
		if (IsGloballyUniform) {
		assert(IsUniform);
		State.ILV->scalarizeInstruction(Ingredient, *this, {0, 0},
		IsPredicated, State);
		for (unsigned Part = 1; Part < State.UF; ++Part)
		State.ILV->reuseScalarLane(Ingredient, {0, 0}, {Part, 0});
		return;
		}

// Generate scalar instances for all VF lanes of all UF parts, unless the		// Generate scalar instances for all VF lanes of all UF parts, unless the
// instruction is uniform inwhich case generate only the first lane for each		// instruction is uniform inwhich case generate only the first lane for each
// of the UF parts.		// of the UF parts.
unsigned EndLane = IsUniform ? 1 : State.VF.getKnownMinValue();		unsigned EndLane = IsUniform ? 1 : State.VF.getKnownMinValue();
for (unsigned Part = 0; Part < State.UF; ++Part)		for (unsigned Part = 0; Part < State.UF; ++Part)
for (unsigned Lane = 0; Lane < EndLane; ++Lane)		for (unsigned Lane = 0; Lane < EndLane; ++Lane)
State.ILV->scalarizeInstruction(Ingredient, *this, {Part, Lane},		State.ILV->scalarizeInstruction(Ingredient, *this, {Part, Lane},
IsPredicated, State);		IsPredicated, State);
▲ Show 20 Lines • Show All 589 Lines • Show Last 20 Lines

llvm/lib/Transforms/Vectorize/VPlan.h

	Show First 20 Lines • Show All 1,114 Lines • ▼ Show 20 Lines
	/// uniform only one copy, per lane zero, will be generated.			/// uniform only one copy, per lane zero, will be generated.
	class VPReplicateRecipe : public VPRecipeBase, public VPUser {			class VPReplicateRecipe : public VPRecipeBase, public VPUser {
	/// The instruction being replicated.			/// The instruction being replicated.
	Instruction *Ingredient;			Instruction *Ingredient;

	/// Indicator if only a single replica per lane is needed.			/// Indicator if only a single replica per lane is needed.
	bool IsUniform;			bool IsUniform;

				/// Does the expression compute the same value across all lanes of the
				/// unrolled computation? Note that expression can be uniform within a
				/// single vector bundle and not uniform across unrollings. This is common
				/// for e.g. widen loads where we need to materialize the base address for
				/// each vector load.
				bool IsGloballyUniform;

	/// Indicator if the replicas are also predicated.			/// Indicator if the replicas are also predicated.
	bool IsPredicated;			bool IsPredicated;

	/// Indicator if the scalar values should also be packed into a vector.			/// Indicator if the scalar values should also be packed into a vector.
	bool AlsoPack;			bool AlsoPack;

	public:			public:
	template <typename IterT>			template <typename IterT>
	VPReplicateRecipe(Instruction *I, iterator_range<IterT> Operands,			VPReplicateRecipe(Instruction *I, iterator_range<IterT> Operands,
	bool IsUniform, bool IsPredicated = false)			bool IsUniform, bool IsGloballyUniform, bool IsPredicated)
	: VPRecipeBase(VPReplicateSC), VPUser(Operands), Ingredient(I),			: VPRecipeBase(VPReplicateSC), VPUser(Operands), Ingredient(I),
	IsUniform(IsUniform), IsPredicated(IsPredicated) {			IsUniform(IsUniform), IsGloballyUniform(IsGloballyUniform),
				IsPredicated(IsPredicated) {
	// Retain the previous behavior of predicateInstructions(), where an			// Retain the previous behavior of predicateInstructions(), where an
	// insert-element of a predicated instruction got hoisted into the			// insert-element of a predicated instruction got hoisted into the
	// predicated basic block iff it was its only user. This is achieved by			// predicated basic block iff it was its only user. This is achieved by
	// having predicated instructions also pack their values into a vector by			// having predicated instructions also pack their values into a vector by
	// default unless they have a replicated user which uses their scalar value.			// default unless they have a replicated user which uses their scalar value.
	AlsoPack = IsPredicated && !I->use_empty();			AlsoPack = IsPredicated && !I->use_empty();
	}			}

	▲ Show 20 Lines • Show All 945 Lines • Show Last 20 Lines

llvm/test/Transforms/LoopVectorize/X86/uniform_mem_op.ll

	Show All 15 Lines
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4
	; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8			; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8
	; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12			; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12
	; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[ADDR:%.*]], align 4			; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[ADDR:%.*]], align 4
	; CHECK-NEXT: [[TMP5:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[TMP7:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16			; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16
	; CHECK-NEXT: [[TMP8:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096			; CHECK-NEXT: [[TMP5:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096
	; CHECK-NEXT: br i1 [[TMP8]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP0:!llvm.loop !.]]			; CHECK-NEXT: br i1 [[TMP5]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP0:!llvm.loop !.]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096
	; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[ADDR]], align 4			; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1			; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP2:!llvm.loop !.*]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP2:!llvm.loop !.*]]
	; CHECK: loopexit:			; CHECK: loopexit:
	; CHECK-NEXT: [[LOAD_LCSSA:%.*]] = phi i32 [ [[LOAD]], [[FOR_BODY]] ], [ [[TMP7]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[LOAD_LCSSA:%.*]] = phi i32 [ [[LOAD]], [[FOR_BODY]] ], [ [[TMP4]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: ret i32 [[LOAD_LCSSA]]			; CHECK-NEXT: ret i32 [[LOAD_LCSSA]]
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]			%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]
	%load = load i32, i32* %addr			%load = load i32, i32* %addr
	%iv.next = add nuw nsw i64 %iv, 1			%iv.next = add nuw nsw i64 %iv, 1
	%exitcond = icmp eq i64 %iv, 4096			%exitcond = icmp eq i64 %iv, 4096
	br i1 %exitcond, label %loopexit, label %for.body			br i1 %exitcond, label %loopexit, label %for.body

	loopexit:			loopexit:
	ret i32 %load			ret i32 %load
	}			}

	define i32 @uniform_load2(i32* align(4) %addr) {			define i32 @uniform_load2(i32* align(4) %addr) {
	; CHECK-LABEL: @uniform_load2(			; CHECK-LABEL: @uniform_load2(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br i1 false, label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 false, label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP8:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP5:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI1:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP9:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI1:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP6:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI2:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP10:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI2:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP7:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[VEC_PHI3:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP11:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[VEC_PHI3:%.]] = phi <4 x i32> [ zeroinitializer, [[VECTOR_PH]] ], [ [[TMP8:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4
	; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8			; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8
	; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12			; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12
	; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[ADDR:%.*]], align 4			; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[ADDR:%.*]], align 4
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT:%.*]] = insertelement <4 x i32> undef, i32 [[TMP4]], i32 0			; CHECK-NEXT: [[BROADCAST_SPLATINSERT8:%.*]] = insertelement <4 x i32> undef, i32 [[TMP4]], i32 0
	; CHECK-NEXT: [[BROADCAST_SPLAT:%.*]] = shufflevector <4 x i32> [[BROADCAST_SPLATINSERT]], <4 x i32> undef, <4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP5:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT4:%.*]] = insertelement <4 x i32> undef, i32 [[TMP5]], i32 0
	; CHECK-NEXT: [[BROADCAST_SPLAT5:%.*]] = shufflevector <4 x i32> [[BROADCAST_SPLATINSERT4]], <4 x i32> undef, <4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT6:%.*]] = insertelement <4 x i32> undef, i32 [[TMP6]], i32 0
	; CHECK-NEXT: [[BROADCAST_SPLAT7:%.*]] = shufflevector <4 x i32> [[BROADCAST_SPLATINSERT6]], <4 x i32> undef, <4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP7:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[BROADCAST_SPLATINSERT8:%.*]] = insertelement <4 x i32> undef, i32 [[TMP7]], i32 0
	; CHECK-NEXT: [[BROADCAST_SPLAT9:%.*]] = shufflevector <4 x i32> [[BROADCAST_SPLATINSERT8]], <4 x i32> undef, <4 x i32> zeroinitializer			; CHECK-NEXT: [[BROADCAST_SPLAT9:%.*]] = shufflevector <4 x i32> [[BROADCAST_SPLATINSERT8]], <4 x i32> undef, <4 x i32> zeroinitializer
	; CHECK-NEXT: [[TMP8]] = add <4 x i32> [[VEC_PHI]], [[BROADCAST_SPLAT]]			; CHECK-NEXT: [[TMP5]] = add <4 x i32> [[VEC_PHI]], [[BROADCAST_SPLAT9]]
	; CHECK-NEXT: [[TMP9]] = add <4 x i32> [[VEC_PHI1]], [[BROADCAST_SPLAT5]]			; CHECK-NEXT: [[TMP6]] = add <4 x i32> [[VEC_PHI1]], [[BROADCAST_SPLAT9]]
	; CHECK-NEXT: [[TMP10]] = add <4 x i32> [[VEC_PHI2]], [[BROADCAST_SPLAT7]]			; CHECK-NEXT: [[TMP7]] = add <4 x i32> [[VEC_PHI2]], [[BROADCAST_SPLAT9]]
	; CHECK-NEXT: [[TMP11]] = add <4 x i32> [[VEC_PHI3]], [[BROADCAST_SPLAT9]]			; CHECK-NEXT: [[TMP8]] = add <4 x i32> [[VEC_PHI3]], [[BROADCAST_SPLAT9]]
	; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16			; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16
	; CHECK-NEXT: [[TMP12:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096			; CHECK-NEXT: [[TMP9:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096
	; CHECK-NEXT: br i1 [[TMP12]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP4:!llvm.loop !.]]			; CHECK-NEXT: br i1 [[TMP9]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP4:!llvm.loop !.]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[BIN_RDX:%.*]] = add <4 x i32> [[TMP9]], [[TMP8]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = add <4 x i32> [[TMP6]], [[TMP5]]
	; CHECK-NEXT: [[BIN_RDX10:%.*]] = add <4 x i32> [[TMP10]], [[BIN_RDX]]			; CHECK-NEXT: [[BIN_RDX10:%.*]] = add <4 x i32> [[TMP7]], [[BIN_RDX]]
	; CHECK-NEXT: [[BIN_RDX11:%.*]] = add <4 x i32> [[TMP11]], [[BIN_RDX10]]			; CHECK-NEXT: [[BIN_RDX11:%.*]] = add <4 x i32> [[TMP8]], [[BIN_RDX10]]
	; CHECK-NEXT: [[TMP13:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> [[BIN_RDX11]])			; CHECK-NEXT: [[TMP10:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> [[BIN_RDX11]])
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096
	; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]
	; CHECK-NEXT: [[BC_MERGE_RDX:%.*]] = phi i32 [ 0, [[ENTRY]] ], [ [[TMP13]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[BC_MERGE_RDX:%.*]] = phi i32 [ 0, [[ENTRY]] ], [ [[TMP10]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[ACCUM:%.]] = phi i32 [ [[ACCUM_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_MERGE_RDX]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[ACCUM:%.]] = phi i32 [ [[ACCUM_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_MERGE_RDX]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[ADDR]], align 4			; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[ADDR]], align 4
	; CHECK-NEXT: [[ACCUM_NEXT]] = add i32 [[ACCUM]], [[LOAD]]			; CHECK-NEXT: [[ACCUM_NEXT]] = add i32 [[ACCUM]], [[LOAD]]
	; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1			; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP5:!llvm.loop !.*]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP5:!llvm.loop !.*]]
	; CHECK: loopexit:			; CHECK: loopexit:
	; CHECK-NEXT: [[ACCUM_NEXT_LCSSA:%.*]] = phi i32 [ [[ACCUM_NEXT]], [[FOR_BODY]] ], [ [[TMP13]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[ACCUM_NEXT_LCSSA:%.*]] = phi i32 [ [[ACCUM_NEXT]], [[FOR_BODY]] ], [ [[TMP10]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: ret i32 [[ACCUM_NEXT_LCSSA]]			; CHECK-NEXT: ret i32 [[ACCUM_NEXT_LCSSA]]
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]			%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]
	%accum = phi i32 [%accum.next, %for.body], [0, %entry]			%accum = phi i32 [%accum.next, %for.body], [0, %entry]
	%load = load i32, i32* %addr			%load = load i32, i32* %addr
	%accum.next = add i32 %accum, %load			%accum.next = add i32 %accum, %load
	%iv.next = add nuw nsw i64 %iv, 1			%iv.next = add nuw nsw i64 %iv, 1
	%exitcond = icmp eq i64 %iv, 4096			%exitcond = icmp eq i64 %iv, 4096
	br i1 %exitcond, label %loopexit, label %for.body			br i1 %exitcond, label %loopexit, label %for.body

	loopexit:			loopexit:
	ret i32 %accum.next			ret i32 %accum.next
	}			}

	define i32 @uniform_address(i32* align(4) %addr, i32 %byte_offset) {			define i32 @uniform_address(i32* align(4) %addr, i32 %byte_offset) {
				lebedev.riUnsubmitted Not Done Reply Inline Actions Precommit this? lebedev.ri: Precommit this?
	; CHECK-LABEL: @uniform_address(			; CHECK-LABEL: @uniform_address(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: br i1 false, label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]			; CHECK-NEXT: br i1 false, label [[SCALAR_PH:%.]], label [[VECTOR_PH:%.]]
	; CHECK: vector.ph:			; CHECK: vector.ph:
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4
	; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8			; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8
	; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12			; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12
	; CHECK-NEXT: [[TMP4:%.]] = udiv i32 [[BYTE_OFFSET:%.]], 4			; CHECK-NEXT: [[TMP4:%.]] = udiv i32 [[BYTE_OFFSET:%.]], 4
	; CHECK-NEXT: [[TMP5:%.*]] = udiv i32 [[BYTE_OFFSET]], 4			; CHECK-NEXT: [[TMP5:%.]] = getelementptr i32, i32 [[ADDR:%.*]], i32 [[TMP4]]
	; CHECK-NEXT: [[TMP6:%.*]] = udiv i32 [[BYTE_OFFSET]], 4			; CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
	; CHECK-NEXT: [[TMP7:%.*]] = udiv i32 [[BYTE_OFFSET]], 4
	; CHECK-NEXT: [[TMP8:%.]] = getelementptr i32, i32 [[ADDR:%.*]], i32 [[TMP4]]
	; CHECK-NEXT: [[TMP9:%.]] = getelementptr i32, i32 [[ADDR]], i32 [[TMP5]]
	; CHECK-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[ADDR]], i32 [[TMP6]]
	; CHECK-NEXT: [[TMP11:%.]] = getelementptr i32, i32 [[ADDR]], i32 [[TMP7]]
	; CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP8]], align 4
	; CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP9]], align 4
	; CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[TMP10]], align 4
	; CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP11]], align 4
	; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16			; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16
	; CHECK-NEXT: [[TMP16:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096			; CHECK-NEXT: [[TMP7:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096
	; CHECK-NEXT: br i1 [[TMP16]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP6:!llvm.loop !.]]			; CHECK-NEXT: br i1 [[TMP7]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP6:!llvm.loop !.]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096
	; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	; CHECK-NEXT: [[OFFSET:%.*]] = udiv i32 [[BYTE_OFFSET]], 4			; CHECK-NEXT: [[OFFSET:%.*]] = udiv i32 [[BYTE_OFFSET]], 4
	; CHECK-NEXT: [[GEP:%.]] = getelementptr i32, i32 [[ADDR]], i32 [[OFFSET]]			; CHECK-NEXT: [[GEP:%.]] = getelementptr i32, i32 [[ADDR]], i32 [[OFFSET]]
	; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[GEP]], align 4			; CHECK-NEXT: [[LOAD:%.]] = load i32, i32 [[GEP]], align 4
	; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1			; CHECK-NEXT: [[IV_NEXT]] = add nuw nsw i64 [[IV]], 1
	; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096			; CHECK-NEXT: [[EXITCOND:%.*]] = icmp eq i64 [[IV]], 4096
	; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP7:!llvm.loop !.*]]			; CHECK-NEXT: br i1 [[EXITCOND]], label [[LOOPEXIT]], label [[FOR_BODY]], [[LOOP7:!llvm.loop !.*]]
	; CHECK: loopexit:			; CHECK: loopexit:
	; CHECK-NEXT: [[LOAD_LCSSA:%.*]] = phi i32 [ [[LOAD]], [[FOR_BODY]] ], [ [[TMP15]], [[MIDDLE_BLOCK]] ]			; CHECK-NEXT: [[LOAD_LCSSA:%.*]] = phi i32 [ [[LOAD]], [[FOR_BODY]] ], [ [[TMP6]], [[MIDDLE_BLOCK]] ]
	; CHECK-NEXT: ret i32 [[LOAD_LCSSA]]			; CHECK-NEXT: ret i32 [[LOAD_LCSSA]]
	;			;
	entry:			entry:
	br label %for.body			br label %for.body

	for.body:			for.body:
	%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]			%iv = phi i64 [ %iv.next, %for.body ], [ 0, %entry ]
	%offset = udiv i32 %byte_offset, 4			%offset = udiv i32 %byte_offset, 4
	▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]			; CHECK-NEXT: br label [[VECTOR_BODY:%.*]]
	; CHECK: vector.body:			; CHECK: vector.body:
	; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]			; CHECK-NEXT: [[INDEX:%.]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ]
	; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0			; CHECK-NEXT: [[TMP0:%.*]] = add i64 [[INDEX]], 0
	; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4			; CHECK-NEXT: [[TMP1:%.*]] = add i64 [[INDEX]], 4
	; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8			; CHECK-NEXT: [[TMP2:%.*]] = add i64 [[INDEX]], 8
	; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12			; CHECK-NEXT: [[TMP3:%.*]] = add i64 [[INDEX]], 12
	; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[A]], align 4, !alias.scope !12			; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[A]], align 4, !alias.scope !12
	; CHECK-NEXT: [[TMP5:%.]] = load i32, i32 [[A]], align 4, !alias.scope !12
	; CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[A]], align 4, !alias.scope !12
	; CHECK-NEXT: [[TMP7:%.]] = load i32, i32 [[A]], align 4, !alias.scope !12
	; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP5]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP5]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP5]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP5]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP6]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP6]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP6]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP6]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP7]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP7]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP7]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: store i32 [[TMP7]], i32* [[B]], align 4, !alias.scope !15, !noalias !12			; CHECK-NEXT: store i32 [[TMP4]], i32* [[B]], align 4, !alias.scope !15, !noalias !12
	; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16			; CHECK-NEXT: [[INDEX_NEXT]] = add i64 [[INDEX]], 16
	; CHECK-NEXT: [[TMP8:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096			; CHECK-NEXT: [[TMP5:%.*]] = icmp eq i64 [[INDEX_NEXT]], 4096
	; CHECK-NEXT: br i1 [[TMP8]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP17:!llvm.loop !.]]			; CHECK-NEXT: br i1 [[TMP5]], label [[MIDDLE_BLOCK:%.]], label [[VECTOR_BODY]], [[LOOP17:!llvm.loop !.]]
	; CHECK: middle.block:			; CHECK: middle.block:
	; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096			; CHECK-NEXT: [[CMP_N:%.*]] = icmp eq i64 4097, 4096
	; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]			; CHECK-NEXT: br i1 [[CMP_N]], label [[LOOPEXIT:%.*]], label [[SCALAR_PH]]
	; CHECK: scalar.ph:			; CHECK: scalar.ph:
	; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ], [ 0, [[VECTOR_MEMCHECK]] ]			; CHECK-NEXT: [[BC_RESUME_VAL:%.]] = phi i64 [ 4096, [[MIDDLE_BLOCK]] ], [ 0, [[ENTRY:%.]] ], [ 0, [[VECTOR_MEMCHECK]] ]
	; CHECK-NEXT: br label [[FOR_BODY:%.*]]			; CHECK-NEXT: br label [[FOR_BODY:%.*]]
	; CHECK: for.body:			; CHECK: for.body:
	; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]			; CHECK-NEXT: [[IV:%.]] = phi i64 [ [[IV_NEXT:%.]], [[FOR_BODY]] ], [ [[BC_RESUME_VAL]], [[SCALAR_PH]] ]
	▲ Show 20 Lines • Show All 153 Lines • Show Last 20 Lines