Diff 463219

llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,776 Lines • ▼ Show 20 Lines	bool BoUpSLP::areAllUsersVectorized(Instruction *I,
return (I->hasOneUse() && is_contained(VectorizedVals, I)) \|\|		return (I->hasOneUse() && is_contained(VectorizedVals, I)) \|\|
all_of(I->users(), [this](User *U) {		all_of(I->users(), [this](User *U) {
return ScalarToTreeEntry.count(U) > 0 \|\|		return ScalarToTreeEntry.count(U) > 0 \|\|
isVectorLikeInstWithConstOps(U) \|\|		isVectorLikeInstWithConstOps(U) \|\|
(isa<ExtractElementInst>(U) && MustGather.contains(U));		(isa<ExtractElementInst>(U) && MustGather.contains(U));
});		});
}		}

		namespace {
		/// Helper to keep track of the extracted elements to compute an accumulated
		/// scalarization extraction cost.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		class ScalarizationOverheadBuilder {
		ABataevUnsubmitted Done Reply Inline Actions Class? ABataev: Class?
		/// Keep track of demanded elements by source vector or type.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		typedef DenseMap<Value *, APInt> ExtractByClass;
		typedef DenseMap<FixedVectorType *, APInt> ExtractByType;

		/// TODO: Add getExtractWithExtendCost support to getScalarizationOverhead.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		struct ExtractWithExtendOps {
		unsigned Opcode;
		VectorType *VecTy;
		Type *SclTy;
		unsigned Idx;
		};

		ExtractByClass m_ExtractsByClass;
		ExtractByType m_ExtractsByType;
		SmallVector<ExtractWithExtendOps> m_ExtractsWithExtends;

		public:
		/// Add an extraction from a specific source and element index.
		void addExtract(Value *Src, unsigned Idx) {
		if (m_ExtractsByClass.count(Src)) {
		m_ExtractsByClass[Src].setBit(Idx);
		return;
		}
		auto *Ty = cast<FixedVectorType>(Src->getType());
		unsigned NumElts = Ty->getNumElements();
		m_ExtractsByClass[Src] = APInt::getOneBitSet(NumElts, Idx);
		}

		/// Add an extraction from a vector type and specific element index.
		/// We assume that all extractions from a given type are from the same source.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		void addExtract(FixedVectorType *VecTy, unsigned Idx) {
		if (m_ExtractsByType.count(VecTy)) {
		m_ExtractsByType[VecTy].setBit(Idx);
		return;
		}
		unsigned NumElts = VecTy->getNumElements();
		m_ExtractsByType[VecTy] = APInt::getOneBitSet(NumElts, Idx);
		}

		/// Add an extended extraction from a specific source and element index.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		void addExtractWithExtend(unsigned Opcode, Type *SclTy,
		VectorType *VecTy,
		unsigned Idx) {
		m_ExtractsWithExtends.push_back({Opcode, VecTy, SclTy, Idx});
		}

		/// Determine the accumulated scalarization cost for the specified extractions.
		ABataevUnsubmitted Not Done Reply Inline Actions /// ABataev: ///
		InstructionCost getCost(const TargetTransformInfo *TTI) {
		InstructionCost Cost = 0;
		for (struct ExtractWithExtendOps &It : m_ExtractsWithExtends)
		Cost +=
		ABataevUnsubmitted Done Reply Inline Actions Expand auto ABataev: Expand auto
		TTI->getExtractWithExtendCost(It.Opcode, It.SclTy, It.VecTy, It.Idx);
		for (detail::DenseMapPair<FixedVectorType *, APInt> &It : m_ExtractsByType)
		Cost += TTI->getScalarizationOverhead(It.first, It.second, false, true);
		for (detail::DenseMapPair<Value *, APInt> &It : m_ExtractsByClass)
		Cost += TTI->getScalarizationOverhead(
		cast<VectorType>(It.first->getType()), It.second, false, true);
		return Cost;
		}
		};
		} // anonymous namespace

static std::pair<InstructionCost, InstructionCost>		static std::pair<InstructionCost, InstructionCost>
getVectorCallCosts(CallInst CI, FixedVectorType VecTy,		getVectorCallCosts(CallInst CI, FixedVectorType VecTy,
TargetTransformInfo TTI, TargetLibraryInfo TLI) {		TargetTransformInfo TTI, TargetLibraryInfo TLI) {
Intrinsic::ID ID = getVectorIntrinsicIDForCall(CI, TLI);		Intrinsic::ID ID = getVectorIntrinsicIDForCall(CI, TLI);

// Calculate the cost of the scalar and vector calls.		// Calculate the cost of the scalar and vector calls.
SmallVector<Type *, 4> VecTys;		SmallVector<Type *, 4> VecTys;
for (Use &Arg : CI->args())		for (Use &Arg : CI->args())
▲ Show 20 Lines • Show All 213 Lines • ▼ Show 20 Lines	InstructionCost BoUpSLP::getEntryCost(const TreeEntry *E,
unsigned EntryVF = E->getVectorFactor();		unsigned EntryVF = E->getVectorFactor();
auto *FinalVecTy = FixedVectorType::get(VecTy->getElementType(), EntryVF);		auto *FinalVecTy = FixedVectorType::get(VecTy->getElementType(), EntryVF);

bool NeedToShuffleReuses = !E->ReuseShuffleIndices.empty();		bool NeedToShuffleReuses = !E->ReuseShuffleIndices.empty();
// FIXME: it tries to fix a problem with MSVC buildbots.		// FIXME: it tries to fix a problem with MSVC buildbots.
TargetTransformInfo &TTIRef = *TTI;		TargetTransformInfo &TTIRef = *TTI;
auto &&AdjustExtractsCost = [this, &TTIRef, CostKind, VL, VecTy,		auto &&AdjustExtractsCost = [this, &TTIRef, CostKind, VL, VecTy,
VectorizedVals, E](InstructionCost &Cost) {		VectorizedVals, E](InstructionCost &Cost) {
DenseMap<Value *, int> ExtractVectorsTys;		ScalarizationOverheadBuilder ScalarizationCost;
SmallPtrSet<Value *, 4> CheckedExtracts;		SmallPtrSet<Value *, 4> CheckedExtracts;
for (auto *V : VL) {		for (auto *V : VL) {
if (isa<UndefValue>(V))		if (isa<UndefValue>(V))
continue;		continue;
// If all users of instruction are going to be vectorized and this		// If all users of instruction are going to be vectorized and this
// instruction itself is not going to be vectorized, consider this		// instruction itself is not going to be vectorized, consider this
// instruction as dead and remove its cost from the final cost of the		// instruction as dead and remove its cost from the final cost of the
// vectorized tree.		// vectorized tree.
// Also, avoid adjusting the cost for extractelements with multiple uses		// Also, avoid adjusting the cost for extractelements with multiple uses
// in different graph entries.		// in different graph entries.
const TreeEntry *VE = getTreeEntry(V);		const TreeEntry *VE = getTreeEntry(V);
if (!CheckedExtracts.insert(V).second \|\|		if (!CheckedExtracts.insert(V).second \|\|
!areAllUsersVectorized(cast<Instruction>(V), VectorizedVals) \|\|		!areAllUsersVectorized(cast<Instruction>(V), VectorizedVals) \|\|
(VE && VE != E))		(VE && VE != E))
continue;		continue;
auto *EE = cast<ExtractElementInst>(V);		auto *EE = cast<ExtractElementInst>(V);
Optional<unsigned> EEIdx = getExtractIndex(EE);		Optional<unsigned> EEIdx = getExtractIndex(EE);
if (!EEIdx)		if (!EEIdx)
continue;		continue;
unsigned Idx = *EEIdx;		unsigned Idx = *EEIdx;
if (TTIRef.getNumberOfParts(VecTy) !=
TTIRef.getNumberOfParts(EE->getVectorOperandType())) {
auto It =
ExtractVectorsTys.try_emplace(EE->getVectorOperand(), Idx).first;
It->getSecond() = std::min<int>(It->second, Idx);
}
// Take credit for instruction that will become dead.		// Take credit for instruction that will become dead.
if (EE->hasOneUse()) {		if (EE->hasOneUse()) {
Instruction *Ext = EE->user_back();		Instruction *Ext = EE->user_back();
if (isa<SExtInst, ZExtInst>(Ext) && all_of(Ext->users(), [](User *U) {		if (isa<SExtInst, ZExtInst>(Ext) && all_of(Ext->users(), [](User *U) {
return isa<GetElementPtrInst>(U);		return isa<GetElementPtrInst>(U);
})) {		})) {
// Use getExtractWithExtendCost() to calculate the cost of		// Use getExtractWithExtendCost() to calculate the cost of
// extractelement/ext pair.		// extractelement/ext pair.
Cost -=		ScalarizationCost.addExtractWithExtend(
TTIRef.getExtractWithExtendCost(Ext->getOpcode(), Ext->getType(),		Ext->getOpcode(), Ext->getType(), EE->getVectorOperandType(),
EE->getVectorOperandType(), Idx);		Idx);
// Add back the cost of s\|zext which is subtracted separately.		// Add back the cost of s\|zext which is subtracted separately.
Cost += TTIRef.getCastInstrCost(		Cost += TTIRef.getCastInstrCost(
Ext->getOpcode(), Ext->getType(), EE->getType(),		Ext->getOpcode(), Ext->getType(), EE->getType(),
TTI::getCastContextHint(Ext), CostKind, Ext);		TTI::getCastContextHint(Ext), CostKind, Ext);
continue;		continue;
}		}
}		}
Cost -= TTIRef.getVectorInstrCost(*EE, EE->getVectorOperandType(), Idx);		ScalarizationCost.addExtract(EE->getVectorOperand(), Idx);
		ABataevUnsubmitted Not Done Reply Inline Actions Does it support extract subvector? ABataev: Does it support extract subvector?
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions getScalarizationOverhead should handle it there - however the getExtractWithExtendCost case doesn't handle subvectors yet - I really want to replace getExtractWithExtendCost with a getScalarizationOverhead equivalent tbh as this is the only user of it. RKSimon: getScalarizationOverhead should handle it there - however the getExtractWithExtendCost case…
}
// Add a cost for subvector extracts/inserts if required.
for (const auto &Data : ExtractVectorsTys) {
auto *EEVTy = cast<FixedVectorType>(Data.first->getType());
unsigned NumElts = VecTy->getNumElements();
if (Data.second % NumElts == 0)
continue;
if (TTIRef.getNumberOfParts(EEVTy) > TTIRef.getNumberOfParts(VecTy)) {
unsigned Idx = (Data.second / NumElts) * NumElts;
unsigned EENumElts = EEVTy->getNumElements();
if (Idx + NumElts <= EENumElts) {
Cost +=
TTIRef.getShuffleCost(TargetTransformInfo::SK_ExtractSubvector,
EEVTy, None, CostKind, Idx, VecTy);
} else {
// Need to round up the subvector type vectorization factor to avoid a
// crash in cost model functions. Make SubVT so that Idx + VF of SubVT
// <= EENumElts.
auto *SubVT =
FixedVectorType::get(VecTy->getElementType(), EENumElts - Idx);
Cost +=
TTIRef.getShuffleCost(TargetTransformInfo::SK_ExtractSubvector,
EEVTy, None, CostKind, Idx, SubVT);
}
} else {
Cost += TTIRef.getShuffleCost(TargetTransformInfo::SK_InsertSubvector,
VecTy, None, CostKind, 0, EEVTy);
}
}		}
		Cost -= ScalarizationCost.getCost(&TTIRef);
};		};
if (E->State == TreeEntry::NeedToGather) {		if (E->State == TreeEntry::NeedToGather) {
if (allConstant(VL))		if (allConstant(VL))
return 0;		return 0;
if (isa<InsertElementInst>(VL[0]))		if (isa<InsertElementInst>(VL[0]))
return InstructionCost::getInvalid();		return InstructionCost::getInvalid();
SmallVector<int> Mask;		SmallVector<int> Mask;
SmallVector<const TreeEntry *> Entries;		SmallVector<const TreeEntry *> Entries;
▲ Show 20 Lines • Show All 184 Lines • ▼ Show 20 Lines	InstructionCost BoUpSLP::getEntryCost(const TreeEntry *E,
switch (ShuffleOrOp) {		switch (ShuffleOrOp) {
case Instruction::PHI:		case Instruction::PHI:
return 0;		return 0;

case Instruction::ExtractValue:		case Instruction::ExtractValue:
case Instruction::ExtractElement: {		case Instruction::ExtractElement: {
// The common cost of removal ExtractElement/ExtractValue instructions +		// The common cost of removal ExtractElement/ExtractValue instructions +
// the cost of shuffles, if required to resuffle the original vector.		// the cost of shuffles, if required to resuffle the original vector.
		ScalarizationOverheadBuilder ScalarizationCost, ReuseScalarizationCost;
if (NeedToShuffleReuses) {		if (NeedToShuffleReuses) {
unsigned Idx = 0;		unsigned Idx = 0;
for (unsigned I : E->ReuseShuffleIndices) {		for (unsigned I : E->ReuseShuffleIndices) {
if (ShuffleOrOp == Instruction::ExtractElement) {		if (ShuffleOrOp == Instruction::ExtractElement) {
auto *EE = cast<ExtractElementInst>(VL[I]);		auto *EE = cast<ExtractElementInst>(VL[I]);
CommonCost -= TTI->getVectorInstrCost(		ReuseScalarizationCost.addExtract(EE->getVectorOperand(),
EE, EE->getVectorOperandType(), getExtractIndex(EE));		*getExtractIndex(EE));
} else {		} else {
CommonCost -= TTI->getVectorInstrCost(Instruction::ExtractElement,		ReuseScalarizationCost.addExtract(VecTy, Idx);
VecTy, Idx);
++Idx;		++Idx;
}		}
}		}
Idx = EntryVF;		Idx = EntryVF;
for (Value *V : VL) {		for (Value *V : VL) {
if (ShuffleOrOp == Instruction::ExtractElement) {		if (ShuffleOrOp == Instruction::ExtractElement) {
auto *EE = cast<ExtractElementInst>(V);		auto *EE = cast<ExtractElementInst>(V);
CommonCost += TTI->getVectorInstrCost(		ScalarizationCost.addExtract(EE->getVectorOperand(),
EE, EE->getVectorOperandType(), getExtractIndex(EE));		*getExtractIndex(EE));
} else {		} else {
--Idx;		--Idx;
CommonCost += TTI->getVectorInstrCost(Instruction::ExtractElement,		ScalarizationCost.addExtract(VecTy, Idx);
VecTy, Idx);
}		}
}		}
		CommonCost -= ReuseScalarizationCost.getCost(TTI);
		CommonCost += ScalarizationCost.getCost(TTI);
}		}
if (ShuffleOrOp == Instruction::ExtractValue) {		if (ShuffleOrOp == Instruction::ExtractValue) {
		ScalarizationOverheadBuilder ValueScalarizationCost;
for (unsigned I = 0, E = VL.size(); I < E; ++I) {		for (unsigned I = 0, E = VL.size(); I < E; ++I) {
auto *EI = cast<Instruction>(VL[I]);		auto *EI = cast<Instruction>(VL[I]);
// Take credit for instruction that will become dead.		// Take credit for instruction that will become dead.
if (EI->hasOneUse()) {		if (EI->hasOneUse()) {
Instruction *Ext = EI->user_back();		Instruction *Ext = EI->user_back();
if (isa<SExtInst, ZExtInst>(Ext) &&		if (isa<SExtInst, ZExtInst>(Ext) &&
all_of(Ext->users(),		all_of(Ext->users(),
[](User *U) { return isa<GetElementPtrInst>(U); })) {		[](User *U) { return isa<GetElementPtrInst>(U); })) {
// Use getExtractWithExtendCost() to calculate the cost of		// Use getExtractWithExtendCost() to calculate the cost of
// extractelement/ext pair.		// extractelement/ext pair.
CommonCost -= TTI->getExtractWithExtendCost(		ValueScalarizationCost.addExtractWithExtend(
Ext->getOpcode(), Ext->getType(), VecTy, I);		Ext->getOpcode(), Ext->getType(), VecTy, I);
// Add back the cost of s\|zext which is subtracted separately.		// Add back the cost of s\|zext which is subtracted separately.
CommonCost += TTI->getCastInstrCost(		CommonCost += TTI->getCastInstrCost(
Ext->getOpcode(), Ext->getType(), EI->getType(),		Ext->getOpcode(), Ext->getType(), EI->getType(),
TTI::getCastContextHint(Ext), CostKind, Ext);		TTI::getCastContextHint(Ext), CostKind, Ext);
continue;		continue;
}		}
}		}
CommonCost -=		ValueScalarizationCost.addExtract(VecTy, I);
TTI->getVectorInstrCost(Instruction::ExtractElement, VecTy, I);
}		}
		CommonCost -= ValueScalarizationCost.getCost(TTI);
} else {		} else {
AdjustExtractsCost(CommonCost);		AdjustExtractsCost(CommonCost);
}		}
return CommonCost;		return CommonCost;
}		}
case Instruction::InsertElement: {		case Instruction::InsertElement: {
assert(E->ReuseShuffleIndices.empty() &&		assert(E->ReuseShuffleIndices.empty() &&
"Unique insertelements only are expected.");		"Unique insertelements only are expected.");
▲ Show 20 Lines • Show All 883 Lines • ▼ Show 20 Lines	LLVM_DEBUG(dbgs() << "SLP: Adding cost " << C
<< "SLP: Current total cost = " << Cost << "\n");		<< "SLP: Current total cost = " << Cost << "\n");
}		}

SmallPtrSet<Value *, 16> ExtractCostCalculated;		SmallPtrSet<Value *, 16> ExtractCostCalculated;
InstructionCost ExtractCost = 0;		InstructionCost ExtractCost = 0;
SmallVector<MapVector<const TreeEntry *, SmallVector<int>>> ShuffleMasks;		SmallVector<MapVector<const TreeEntry *, SmallVector<int>>> ShuffleMasks;
SmallVector<std::pair<Value , const TreeEntry >> FirstUsers;		SmallVector<std::pair<Value , const TreeEntry >> FirstUsers;
SmallVector<APInt> DemandedElts;		SmallVector<APInt> DemandedElts;
		ScalarizationOverheadBuilder ScalarizationCost;
for (ExternalUser &EU : ExternalUses) {		for (ExternalUser &EU : ExternalUses) {
// We only add extract cost once for the same scalar.		// We only add extract cost once for the same scalar.
if (!isa_and_nonnull<InsertElementInst>(EU.User) &&		if (!isa_and_nonnull<InsertElementInst>(EU.User) &&
!ExtractCostCalculated.insert(EU.Scalar).second)		!ExtractCostCalculated.insert(EU.Scalar).second)
continue;		continue;

// Uses by ephemeral values are free (because the ephemeral value will be		// Uses by ephemeral values are free (because the ephemeral value will be
// removed prior to code generation, and so the extraction will be		// removed prior to code generation, and so the extraction will be
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	if (auto *VU = dyn_cast_or_null<InsertElementInst>(EU.User)) {
continue;		continue;
}		}
}		}
}		}

// If we plan to rewrite the tree in a smaller type, we will need to sign		// If we plan to rewrite the tree in a smaller type, we will need to sign
// extend the extracted value back to the original type. Here, we account		// extend the extracted value back to the original type. Here, we account
// for the extract and the added cost of the sign extend if needed.		// for the extract and the added cost of the sign extend if needed.
auto *VecTy = FixedVectorType::get(EU.Scalar->getType(), BundleWidth);
auto *ScalarRoot = VectorizableTree[0]->Scalars[0];		auto *ScalarRoot = VectorizableTree[0]->Scalars[0];
if (MinBWs.count(ScalarRoot)) {		if (MinBWs.count(ScalarRoot)) {
auto *MinTy = IntegerType::get(F->getContext(), MinBWs[ScalarRoot].first);		auto *MinTy = IntegerType::get(F->getContext(), MinBWs[ScalarRoot].first);
auto Extend =		auto Extend =
MinBWs[ScalarRoot].second ? Instruction::SExt : Instruction::ZExt;		MinBWs[ScalarRoot].second ? Instruction::SExt : Instruction::ZExt;
VecTy = FixedVectorType::get(MinTy, BundleWidth);		auto *VecTy = FixedVectorType::get(MinTy, BundleWidth);
ExtractCost += TTI->getExtractWithExtendCost(Extend, EU.Scalar->getType(),		ScalarizationCost.addExtractWithExtend(Extend, EU.Scalar->getType(),
VecTy, EU.Lane);		VecTy, EU.Lane);
} else {		} else {
ExtractCost +=		auto *VecTy = FixedVectorType::get(EU.Scalar->getType(), BundleWidth);
TTI->getVectorInstrCost(Instruction::ExtractElement, VecTy, EU.Lane);		ScalarizationCost.addExtract(VecTy, EU.Lane);
}		}
}		}
		ExtractCost += ScalarizationCost.getCost(TTI);

InstructionCost SpillCost = getSpillCost();		InstructionCost SpillCost = getSpillCost();
Cost += SpillCost + ExtractCost;		Cost += SpillCost + ExtractCost;
auto &&ResizeToVF = [this, &Cost](const TreeEntry *TE, ArrayRef<int> Mask,		auto &&ResizeToVF = [this, &Cost](const TreeEntry *TE, ArrayRef<int> Mask,
bool) {		bool) {
InstructionCost C = 0;		InstructionCost C = 0;
unsigned VF = Mask.size();		unsigned VF = Mask.size();
unsigned VecVF = TE->getVectorFactor();		unsigned VecVF = TE->getVectorFactor();
▲ Show 20 Lines • Show All 5,369 Lines • Show Last 20 Lines

llvm/test/Transforms/Coroutines/coro-retcon-resume-values.ll

	Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[INPUT_RELOAD14_I:%.]] = load i32, i32 [[INPUT_RELOAD_ADDR13_I]], align 4, !noalias !3			; CHECK-NEXT: [[INPUT_RELOAD14_I:%.]] = load i32, i32 [[INPUT_RELOAD_ADDR13_I]], align 4, !noalias !3
	; CHECK-NEXT: [[N_VAL3_RELOAD_ADDR11_I:%.]] = getelementptr inbounds [[F_FRAME]], %f.Frame [[FRAMEPTR_I1]], i64 0, i32 1			; CHECK-NEXT: [[N_VAL3_RELOAD_ADDR11_I:%.]] = getelementptr inbounds [[F_FRAME]], %f.Frame [[FRAMEPTR_I1]], i64 0, i32 1
	; CHECK-NEXT: [[N_VAL3_RELOAD12_I:%.]] = load i32, i32 [[N_VAL3_RELOAD_ADDR11_I]], align 4, !noalias !3			; CHECK-NEXT: [[N_VAL3_RELOAD12_I:%.]] = load i32, i32 [[N_VAL3_RELOAD_ADDR11_I]], align 4, !noalias !3
	; CHECK-NEXT: [[SUM7_I:%.*]] = add i32 [[N_VAL3_RELOAD12_I]], [[INPUT_RELOAD14_I]]			; CHECK-NEXT: [[SUM7_I:%.*]] = add i32 [[N_VAL3_RELOAD12_I]], [[INPUT_RELOAD14_I]]
	; CHECK-NEXT: store i32 [[SUM7_I]], i32* [[N_VAL3_RELOAD_ADDR11_I]], align 4, !noalias !3			; CHECK-NEXT: store i32 [[SUM7_I]], i32* [[N_VAL3_RELOAD_ADDR11_I]], align 4, !noalias !3
	; CHECK-NEXT: store i32 4, i32* [[INPUT_RELOAD_ADDR13_I]], align 4, !noalias !3			; CHECK-NEXT: store i32 4, i32* [[INPUT_RELOAD_ADDR13_I]], align 4, !noalias !3
	; CHECK-NEXT: tail call void @llvm.experimental.noalias.scope.decl(metadata [[META6:![0-9]+]])			; CHECK-NEXT: tail call void @llvm.experimental.noalias.scope.decl(metadata [[META6:![0-9]+]])
	; CHECK-NEXT: [[FRAMEPTR_I2:%.]] = load %f.Frame, %f.Frame** [[TMP2]], align 8, !alias.scope !6			; CHECK-NEXT: [[FRAMEPTR_I2:%.]] = load %f.Frame, %f.Frame** [[TMP2]], align 8, !alias.scope !6
	; CHECK-NEXT: [[INPUT_RELOAD_ADDR13_I3:%.]] = getelementptr inbounds [[F_FRAME]], %f.Frame [[FRAMEPTR_I2]], i64 0, i32 2
	; CHECK-NEXT: [[INPUT_RELOAD14_I4:%.]] = load i32, i32 [[INPUT_RELOAD_ADDR13_I3]], align 4, !noalias !6
	; CHECK-NEXT: [[N_VAL3_RELOAD_ADDR11_I5:%.]] = getelementptr inbounds [[F_FRAME]], %f.Frame [[FRAMEPTR_I2]], i64 0, i32 1			; CHECK-NEXT: [[N_VAL3_RELOAD_ADDR11_I5:%.]] = getelementptr inbounds [[F_FRAME]], %f.Frame [[FRAMEPTR_I2]], i64 0, i32 1
	; CHECK-NEXT: [[N_VAL3_RELOAD12_I6:%.]] = load i32, i32 [[N_VAL3_RELOAD_ADDR11_I5]], align 4, !noalias !6			; CHECK-NEXT: [[TMP5:%.]] = load i32, i32 [[N_VAL3_RELOAD_ADDR11_I5]], align 4
	; CHECK-NEXT: [[SUM7_I7:%.*]] = add i32 [[N_VAL3_RELOAD12_I6]], [[INPUT_RELOAD14_I4]]			; CHECK-NEXT: [[TMP6:%.]] = getelementptr inbounds i32, i32 [[N_VAL3_RELOAD_ADDR11_I5]], i64 1
				; CHECK-NEXT: [[TMP7:%.]] = load i32, i32 [[TMP6]], align 4
				; CHECK-NEXT: [[SUM7_I7:%.*]] = add i32 [[TMP5]], [[TMP7]]
	; CHECK-NEXT: tail call void @print(i32 [[SUM7_I7]]), !noalias !6			; CHECK-NEXT: tail call void @print(i32 [[SUM7_I7]]), !noalias !6
	; CHECK-NEXT: [[TMP5:%.]] = bitcast %f.Frame [[FRAMEPTR_I2]] to i8*			; CHECK-NEXT: [[TMP8:%.]] = bitcast %f.Frame [[FRAMEPTR_I2]] to i8*
	; CHECK-NEXT: tail call void @deallocate(i8* [[TMP5]]), !noalias !6			; CHECK-NEXT: tail call void @deallocate(i8* [[TMP8]]), !noalias !6
	; CHECK-NEXT: ret i32 0			; CHECK-NEXT: ret i32 0
	;			;
	entry:			entry:
	%0 = alloca [8 x i8], align 4			%0 = alloca [8 x i8], align 4
	%buffer = bitcast [8 x i8]* %0 to i8*			%buffer = bitcast [8 x i8]* %0 to i8*
	%prepare = call i8* @llvm.coro.prepare.retcon(i8* bitcast (i8* (i8, i32) @f to i8*))			%prepare = call i8* @llvm.coro.prepare.retcon(i8* bitcast (i8* (i8, i32) @f to i8*))
	%f = bitcast i8* %prepare to i8* (i8, i32)			%f = bitcast i8* %prepare to i8* (i8, i32)
	%cont0 = call i8* %f(i8* %buffer, i32 1)			%cont0 = call i8* %f(i8* %buffer, i32 1)
	Show All 25 Lines

llvm/test/Transforms/PhaseOrdering/X86/vector-reductions.ll

Show First 20 Lines • Show All 268 Lines • ▼ Show 20 Lines	for.end:
%cmp3 = fcmp fast ole float %sum.0, %Tolerance		%cmp3 = fcmp fast ole float %sum.0, %Tolerance
%2 = zext i1 %cmp3 to i64		%2 = zext i1 %cmp3 to i64
%cond = select i1 %cmp3, i32 1, i32 0		%cond = select i1 %cmp3, i32 1, i32 0
ret i32 %cond		ret i32 %cond
}		}

; PR43745 - https://bugs.llvm.org/show_bug.cgi?id=43745		; PR43745 - https://bugs.llvm.org/show_bug.cgi?id=43745

; FIXME: this should be vectorized
define i1 @cmp_lt_gt(double %a, double %b, double %c) {		define i1 @cmp_lt_gt(double %a, double %b, double %c) {
; CHECK-LABEL: @cmp_lt_gt(		; CHECK-LABEL: @cmp_lt_gt(
; CHECK-NEXT: entry:		; CHECK-NEXT: entry:
; CHECK-NEXT: [[FNEG:%.]] = fneg double [[B:%.]]		; CHECK-NEXT: [[FNEG:%.]] = fneg double [[B:%.]]
; CHECK-NEXT: [[MUL:%.]] = fmul double [[A:%.]], 2.000000e+00		; CHECK-NEXT: [[MUL:%.]] = fmul double [[A:%.]], 2.000000e+00
; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x double> poison, double [[C:%.]], i64 1		; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x double> poison, double [[C:%.]], i64 1
; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> [[TMP0]], double [[FNEG]], i64 0		; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> [[TMP0]], double [[FNEG]], i64 0
; CHECK-NEXT: [[TMP2:%.*]] = insertelement <2 x double> poison, double [[C]], i64 0		; CHECK-NEXT: [[TMP2:%.*]] = insertelement <2 x double> poison, double [[C]], i64 0
; CHECK-NEXT: [[TMP3:%.*]] = insertelement <2 x double> [[TMP2]], double [[B]], i64 1		; CHECK-NEXT: [[TMP3:%.*]] = insertelement <2 x double> [[TMP2]], double [[B]], i64 1
; CHECK-NEXT: [[TMP4:%.*]] = fsub <2 x double> [[TMP1]], [[TMP3]]		; CHECK-NEXT: [[TMP4:%.*]] = fsub <2 x double> [[TMP1]], [[TMP3]]
; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x double> poison, double [[MUL]], i64 0		; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x double> poison, double [[MUL]], i64 0
; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <2 x double> [[TMP5]], <2 x double> poison, <2 x i32> zeroinitializer		; CHECK-NEXT: [[TMP6:%.*]] = shufflevector <2 x double> [[TMP5]], <2 x double> poison, <2 x i32> zeroinitializer
; CHECK-NEXT: [[TMP7:%.*]] = fdiv <2 x double> [[TMP4]], [[TMP6]]		; CHECK-NEXT: [[TMP7:%.*]] = fdiv <2 x double> [[TMP4]], [[TMP6]]
; CHECK-NEXT: [[TMP8:%.*]] = extractelement <2 x double> [[TMP7]], i64 1		; CHECK-NEXT: [[TMP8:%.*]] = fcmp olt <2 x double> [[TMP7]], <double 0x3EB0C6F7A0B5ED8D, double 0x3EB0C6F7A0B5ED8D>
; CHECK-NEXT: [[CMP:%.*]] = fcmp olt double [[TMP8]], 0x3EB0C6F7A0B5ED8D		; CHECK-NEXT: [[TMP9:%.*]] = extractelement <2 x i1> [[TMP8]], i64 0
; CHECK-NEXT: [[TMP9:%.*]] = extractelement <2 x double> [[TMP7]], i64 0		; CHECK-NEXT: [[TMP10:%.*]] = extractelement <2 x i1> [[TMP8]], i64 1
; CHECK-NEXT: [[CMP4:%.*]] = fcmp olt double [[TMP9]], 0x3EB0C6F7A0B5ED8D		; CHECK-NEXT: [[OR_COND:%.*]] = select i1 [[TMP10]], i1 [[TMP9]], i1 false
; CHECK-NEXT: [[OR_COND:%.*]] = select i1 [[CMP]], i1 [[CMP4]], i1 false
; CHECK-NEXT: br i1 [[OR_COND]], label [[CLEANUP:%.]], label [[LOR_LHS_FALSE:%.]]		; CHECK-NEXT: br i1 [[OR_COND]], label [[CLEANUP:%.]], label [[LOR_LHS_FALSE:%.]]
; CHECK: lor.lhs.false:		; CHECK: lor.lhs.false:
; CHECK-NEXT: [[TMP10:%.*]] = fcmp ule <2 x double> [[TMP7]], <double 1.000000e+00, double 1.000000e+00>		; CHECK-NEXT: [[TMP11:%.*]] = fcmp ule <2 x double> [[TMP7]], <double 1.000000e+00, double 1.000000e+00>
; CHECK-NEXT: [[TMP11:%.*]] = extractelement <2 x i1> [[TMP10]], i64 0		; CHECK-NEXT: [[TMP12:%.*]] = extractelement <2 x i1> [[TMP11]], i64 0
; CHECK-NEXT: [[TMP12:%.*]] = extractelement <2 x i1> [[TMP10]], i64 1		; CHECK-NEXT: [[TMP13:%.*]] = extractelement <2 x i1> [[TMP11]], i64 1
; CHECK-NEXT: [[OR_COND1:%.*]] = select i1 [[TMP12]], i1 true, i1 [[TMP11]]		; CHECK-NEXT: [[OR_COND1:%.*]] = select i1 [[TMP13]], i1 true, i1 [[TMP12]]
; CHECK-NEXT: br label [[CLEANUP]]		; CHECK-NEXT: br label [[CLEANUP]]
; CHECK: cleanup:		; CHECK: cleanup:
; CHECK-NEXT: [[RETVAL_0:%.]] = phi i1 [ false, [[ENTRY:%.]] ], [ [[OR_COND1]], [[LOR_LHS_FALSE]] ]		; CHECK-NEXT: [[RETVAL_0:%.]] = phi i1 [ false, [[ENTRY:%.]] ], [ [[OR_COND1]], [[LOR_LHS_FALSE]] ]
; CHECK-NEXT: ret i1 [[RETVAL_0]]		; CHECK-NEXT: ret i1 [[RETVAL_0]]
;		;
entry:		entry:
%fneg = fneg double %b		%fneg = fneg double %b
%add = fadd double %fneg, %c		%add = fadd double %fneg, %c
Show All 31 Lines

llvm/test/Transforms/SLPVectorizer/X86/bool-mask.ll

	Show All 23 Lines
	; SSE-NEXT: [[TMP1:%.*]] = load <8 x i8>, ptr [[ARRAYIDX_1]], align 1			; SSE-NEXT: [[TMP1:%.*]] = load <8 x i8>, ptr [[ARRAYIDX_1]], align 1
	; SSE-NEXT: [[TMP2:%.*]] = icmp eq <8 x i8> [[TMP1]], zeroinitializer			; SSE-NEXT: [[TMP2:%.*]] = icmp eq <8 x i8> [[TMP1]], zeroinitializer
	; SSE-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> zeroinitializer, <8 x i64> <i64 2, i64 4, i64 8, i64 16, i64 32, i64 64, i64 128, i64 256>			; SSE-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> zeroinitializer, <8 x i64> <i64 2, i64 4, i64 8, i64 16, i64 32, i64 64, i64 128, i64 256>
	; SSE-NEXT: [[ARRAYIDX_9:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 9			; SSE-NEXT: [[ARRAYIDX_9:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 9
	; SSE-NEXT: [[TMP4:%.*]] = load <4 x i8>, ptr [[ARRAYIDX_9]], align 1			; SSE-NEXT: [[TMP4:%.*]] = load <4 x i8>, ptr [[ARRAYIDX_9]], align 1
	; SSE-NEXT: [[TMP5:%.*]] = icmp eq <4 x i8> [[TMP4]], zeroinitializer			; SSE-NEXT: [[TMP5:%.*]] = icmp eq <4 x i8> [[TMP4]], zeroinitializer
	; SSE-NEXT: [[TMP6:%.*]] = select <4 x i1> [[TMP5]], <4 x i64> zeroinitializer, <4 x i64> <i64 512, i64 1024, i64 2048, i64 4096>			; SSE-NEXT: [[TMP6:%.*]] = select <4 x i1> [[TMP5]], <4 x i64> zeroinitializer, <4 x i64> <i64 512, i64 1024, i64 2048, i64 4096>
	; SSE-NEXT: [[ARRAYIDX_13:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 13			; SSE-NEXT: [[ARRAYIDX_13:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 13
	; SSE-NEXT: [[TMP7:%.*]] = load i8, ptr [[ARRAYIDX_13]], align 1			; SSE-NEXT: [[TMP7:%.*]] = load <2 x i8>, ptr [[ARRAYIDX_13]], align 1
	; SSE-NEXT: [[TOBOOL_NOT_13:%.*]] = icmp eq i8 [[TMP7]], 0			; SSE-NEXT: [[TMP8:%.*]] = icmp eq <2 x i8> [[TMP7]], zeroinitializer
	; SSE-NEXT: [[OR_13:%.*]] = select i1 [[TOBOOL_NOT_13]], i64 0, i64 8192			; SSE-NEXT: [[TMP9:%.*]] = extractelement <2 x i1> [[TMP8]], i32 0
	; SSE-NEXT: [[ARRAYIDX_14:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 14			; SSE-NEXT: [[OR_13:%.*]] = select i1 [[TMP9]], i64 0, i64 8192
	; SSE-NEXT: [[TMP8:%.*]] = load i8, ptr [[ARRAYIDX_14]], align 1			; SSE-NEXT: [[TMP10:%.*]] = extractelement <2 x i1> [[TMP8]], i32 1
	; SSE-NEXT: [[TOBOOL_NOT_14:%.*]] = icmp eq i8 [[TMP8]], 0			; SSE-NEXT: [[OR_14:%.*]] = select i1 [[TMP10]], i64 0, i64 16384
	; SSE-NEXT: [[OR_14:%.*]] = select i1 [[TOBOOL_NOT_14]], i64 0, i64 16384
	; SSE-NEXT: [[ARRAYIDX_15:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 15			; SSE-NEXT: [[ARRAYIDX_15:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 15
	; SSE-NEXT: [[TMP9:%.*]] = load i8, ptr [[ARRAYIDX_15]], align 1			; SSE-NEXT: [[TMP11:%.*]] = load i8, ptr [[ARRAYIDX_15]], align 1
	; SSE-NEXT: [[TOBOOL_NOT_15:%.*]] = icmp eq i8 [[TMP9]], 0			; SSE-NEXT: [[TOBOOL_NOT_15:%.*]] = icmp eq i8 [[TMP11]], 0
	; SSE-NEXT: [[OR_15:%.*]] = select i1 [[TOBOOL_NOT_15]], i64 0, i64 32768			; SSE-NEXT: [[OR_15:%.*]] = select i1 [[TOBOOL_NOT_15]], i64 0, i64 32768
	; SSE-NEXT: [[TMP10:%.*]] = call i64 @llvm.vector.reduce.or.v8i64(<8 x i64> [[TMP3]])			; SSE-NEXT: [[TMP12:%.*]] = call i64 @llvm.vector.reduce.or.v8i64(<8 x i64> [[TMP3]])
	; SSE-NEXT: [[TMP11:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP6]])			; SSE-NEXT: [[TMP13:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP6]])
	; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP10]], [[TMP11]]			; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP12]], [[TMP13]]
	; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OP_RDX]], [[OR_13]]			; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OP_RDX]], [[OR_13]]
	; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OR_14]], [[OR_15]]			; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OR_14]], [[OR_15]]
	; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX1]], [[OP_RDX2]]			; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX1]], [[OP_RDX2]]
	; SSE-NEXT: [[OP_RDX4:%.*]] = or i64 [[OP_RDX3]], [[OR]]			; SSE-NEXT: [[OP_RDX4:%.*]] = or i64 [[OP_RDX3]], [[OR]]
	; SSE-NEXT: ret i64 [[OP_RDX4]]			; SSE-NEXT: ret i64 [[OP_RDX4]]
	;			;
	; AVX-LABEL: @bitmask_16xi8(			; AVX-LABEL: @bitmask_16xi8(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[TMP0:%.]] = load i8, ptr [[SRC:%.]], align 1			; AVX-NEXT: [[TMP0:%.]] = load i8, ptr [[SRC:%.]], align 1
	; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i8 [[TMP0]], 0			; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i8 [[TMP0]], 0
	; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 1			; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 1
	; AVX-NEXT: [[TMP1:%.*]] = load <8 x i8>, ptr [[ARRAYIDX_1]], align 1			; AVX-NEXT: [[TMP1:%.*]] = load <8 x i8>, ptr [[ARRAYIDX_1]], align 1
	; AVX-NEXT: [[TMP2:%.*]] = icmp eq <8 x i8> [[TMP1]], zeroinitializer			; AVX-NEXT: [[TMP2:%.*]] = icmp eq <8 x i8> [[TMP1]], zeroinitializer
	; AVX-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> zeroinitializer, <8 x i64> <i64 2, i64 4, i64 8, i64 16, i64 32, i64 64, i64 128, i64 256>			; AVX-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> zeroinitializer, <8 x i64> <i64 2, i64 4, i64 8, i64 16, i64 32, i64 64, i64 128, i64 256>
	; AVX-NEXT: [[ARRAYIDX_9:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 9			; AVX-NEXT: [[ARRAYIDX_9:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 9
	; AVX-NEXT: [[TMP4:%.*]] = load <4 x i8>, ptr [[ARRAYIDX_9]], align 1			; AVX-NEXT: [[TMP4:%.*]] = load <4 x i8>, ptr [[ARRAYIDX_9]], align 1
	; AVX-NEXT: [[TMP5:%.*]] = icmp eq <4 x i8> [[TMP4]], zeroinitializer			; AVX-NEXT: [[TMP5:%.*]] = icmp eq <4 x i8> [[TMP4]], zeroinitializer
	; AVX-NEXT: [[TMP6:%.*]] = select <4 x i1> [[TMP5]], <4 x i64> zeroinitializer, <4 x i64> <i64 512, i64 1024, i64 2048, i64 4096>			; AVX-NEXT: [[TMP6:%.*]] = select <4 x i1> [[TMP5]], <4 x i64> zeroinitializer, <4 x i64> <i64 512, i64 1024, i64 2048, i64 4096>
	; AVX-NEXT: [[ARRAYIDX_13:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 13			; AVX-NEXT: [[ARRAYIDX_13:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 13
	; AVX-NEXT: [[TMP7:%.*]] = load i8, ptr [[ARRAYIDX_13]], align 1			; AVX-NEXT: [[TMP7:%.*]] = load <2 x i8>, ptr [[ARRAYIDX_13]], align 1
	; AVX-NEXT: [[TOBOOL_NOT_13:%.*]] = icmp eq i8 [[TMP7]], 0			; AVX-NEXT: [[TMP8:%.*]] = icmp eq <2 x i8> [[TMP7]], zeroinitializer
	; AVX-NEXT: [[OR_13:%.*]] = select i1 [[TOBOOL_NOT_13]], i64 0, i64 8192			; AVX-NEXT: [[TMP9:%.*]] = extractelement <2 x i1> [[TMP8]], i32 0
	; AVX-NEXT: [[ARRAYIDX_14:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 14			; AVX-NEXT: [[OR_13:%.*]] = select i1 [[TMP9]], i64 0, i64 8192
	; AVX-NEXT: [[TMP8:%.*]] = load i8, ptr [[ARRAYIDX_14]], align 1			; AVX-NEXT: [[TMP10:%.*]] = extractelement <2 x i1> [[TMP8]], i32 1
	; AVX-NEXT: [[TOBOOL_NOT_14:%.*]] = icmp eq i8 [[TMP8]], 0			; AVX-NEXT: [[OR_14:%.*]] = select i1 [[TMP10]], i64 0, i64 16384
	; AVX-NEXT: [[OR_14:%.*]] = select i1 [[TOBOOL_NOT_14]], i64 0, i64 16384
	; AVX-NEXT: [[ARRAYIDX_15:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 15			; AVX-NEXT: [[ARRAYIDX_15:%.*]] = getelementptr inbounds i8, ptr [[SRC]], i64 15
	; AVX-NEXT: [[TMP9:%.*]] = load i8, ptr [[ARRAYIDX_15]], align 1			; AVX-NEXT: [[TMP11:%.*]] = load i8, ptr [[ARRAYIDX_15]], align 1
	; AVX-NEXT: [[TOBOOL_NOT_15:%.*]] = icmp eq i8 [[TMP9]], 0			; AVX-NEXT: [[TOBOOL_NOT_15:%.*]] = icmp eq i8 [[TMP11]], 0
	; AVX-NEXT: [[OR_15:%.*]] = select i1 [[TOBOOL_NOT_15]], i64 0, i64 32768			; AVX-NEXT: [[OR_15:%.*]] = select i1 [[TOBOOL_NOT_15]], i64 0, i64 32768
	; AVX-NEXT: [[TMP10:%.*]] = call i64 @llvm.vector.reduce.or.v8i64(<8 x i64> [[TMP3]])			; AVX-NEXT: [[TMP12:%.*]] = call i64 @llvm.vector.reduce.or.v8i64(<8 x i64> [[TMP3]])
	; AVX-NEXT: [[TMP11:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP6]])			; AVX-NEXT: [[TMP13:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP6]])
	; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP10]], [[TMP11]]			; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP12]], [[TMP13]]
	; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OP_RDX]], [[OR_13]]			; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OP_RDX]], [[OR_13]]
	; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OR_14]], [[OR_15]]			; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OR_14]], [[OR_15]]
	; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX1]], [[OP_RDX2]]			; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX1]], [[OP_RDX2]]
	; AVX-NEXT: [[OP_RDX4:%.*]] = or i64 [[OP_RDX3]], [[OR]]			; AVX-NEXT: [[OP_RDX4:%.*]] = or i64 [[OP_RDX3]], [[OR]]
	; AVX-NEXT: ret i64 [[OP_RDX4]]			; AVX-NEXT: ret i64 [[OP_RDX4]]
	;			;
	; AVX512-LABEL: @bitmask_16xi8(			; AVX512-LABEL: @bitmask_16xi8(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; SSE-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2			; SSE-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2
	; SSE-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i16 [[TMP0]], 0			; SSE-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i16 [[TMP0]], 0
	; SSE-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; SSE-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; SSE-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 1			; SSE-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 1
	; SSE-NEXT: [[TMP1:%.*]] = load <4 x i16>, ptr [[ARRAYIDX_1]], align 2			; SSE-NEXT: [[TMP1:%.*]] = load <4 x i16>, ptr [[ARRAYIDX_1]], align 2
	; SSE-NEXT: [[TMP2:%.*]] = icmp eq <4 x i16> [[TMP1]], zeroinitializer			; SSE-NEXT: [[TMP2:%.*]] = icmp eq <4 x i16> [[TMP1]], zeroinitializer
	; SSE-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; SSE-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; SSE-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 5			; SSE-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 5
	; SSE-NEXT: [[TMP4:%.*]] = load i16, ptr [[ARRAYIDX_5]], align 2			; SSE-NEXT: [[TMP4:%.*]] = load <2 x i16>, ptr [[ARRAYIDX_5]], align 2
	; SSE-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i16 [[TMP4]], 0			; SSE-NEXT: [[TMP5:%.*]] = icmp eq <2 x i16> [[TMP4]], zeroinitializer
	; SSE-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; SSE-NEXT: [[TMP6:%.*]] = extractelement <2 x i1> [[TMP5]], i32 0
	; SSE-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 6			; SSE-NEXT: [[OR_5:%.*]] = select i1 [[TMP6]], i64 0, i64 32
	; SSE-NEXT: [[TMP5:%.*]] = load i16, ptr [[ARRAYIDX_6]], align 2			; SSE-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP5]], i32 1
	; SSE-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i16 [[TMP5]], 0			; SSE-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; SSE-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64
	; SSE-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 7			; SSE-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 7
	; SSE-NEXT: [[TMP6:%.*]] = load i16, ptr [[ARRAYIDX_7]], align 2			; SSE-NEXT: [[TMP8:%.*]] = load i16, ptr [[ARRAYIDX_7]], align 2
	; SSE-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i16 [[TMP6]], 0			; SSE-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i16 [[TMP8]], 0
	; SSE-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; SSE-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128
	; SSE-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; SSE-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]			; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; SSE-NEXT: ret i64 [[OP_RDX3]]			; SSE-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX-LABEL: @bitmask_4xi16(			; AVX-LABEL: @bitmask_4xi16(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2			; AVX-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2
	; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i16 [[TMP0]], 0			; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i16 [[TMP0]], 0
	; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 1			; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 1
	; AVX-NEXT: [[TMP1:%.*]] = load <4 x i16>, ptr [[ARRAYIDX_1]], align 2			; AVX-NEXT: [[TMP1:%.*]] = load <4 x i16>, ptr [[ARRAYIDX_1]], align 2
	; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i16> [[TMP1]], zeroinitializer			; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i16> [[TMP1]], zeroinitializer
	; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 5			; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 5
	; AVX-NEXT: [[TMP4:%.*]] = load i16, ptr [[ARRAYIDX_5]], align 2			; AVX-NEXT: [[TMP4:%.*]] = load <2 x i16>, ptr [[ARRAYIDX_5]], align 2
	; AVX-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i16 [[TMP4]], 0			; AVX-NEXT: [[TMP5:%.*]] = icmp eq <2 x i16> [[TMP4]], zeroinitializer
	; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; AVX-NEXT: [[TMP6:%.*]] = extractelement <2 x i1> [[TMP5]], i32 0
	; AVX-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 6			; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TMP6]], i64 0, i64 32
	; AVX-NEXT: [[TMP5:%.*]] = load i16, ptr [[ARRAYIDX_6]], align 2			; AVX-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP5]], i32 1
	; AVX-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i16 [[TMP5]], 0			; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64
	; AVX-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 7			; AVX-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i16, ptr [[SRC]], i64 7
	; AVX-NEXT: [[TMP6:%.*]] = load i16, ptr [[ARRAYIDX_7]], align 2			; AVX-NEXT: [[TMP8:%.*]] = load i16, ptr [[ARRAYIDX_7]], align 2
	; AVX-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i16 [[TMP6]], 0			; AVX-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i16 [[TMP8]], 0
	; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128
	; AVX-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; AVX-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]			; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; AVX-NEXT: ret i64 [[OP_RDX3]]			; AVX-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX512-LABEL: @bitmask_4xi16(			; AVX512-LABEL: @bitmask_4xi16(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2			; AVX512-NEXT: [[TMP0:%.]] = load i16, ptr [[SRC:%.]], align 2
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; SSE-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4			; SSE-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4
	; SSE-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i32 [[TMP0]], 0			; SSE-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i32 [[TMP0]], 0
	; SSE-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; SSE-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; SSE-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 1			; SSE-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 1
	; SSE-NEXT: [[TMP1:%.*]] = load <4 x i32>, ptr [[ARRAYIDX_1]], align 4			; SSE-NEXT: [[TMP1:%.*]] = load <4 x i32>, ptr [[ARRAYIDX_1]], align 4
	; SSE-NEXT: [[TMP2:%.*]] = icmp eq <4 x i32> [[TMP1]], zeroinitializer			; SSE-NEXT: [[TMP2:%.*]] = icmp eq <4 x i32> [[TMP1]], zeroinitializer
	; SSE-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; SSE-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; SSE-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 5			; SSE-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 5
	; SSE-NEXT: [[TMP4:%.*]] = load i32, ptr [[ARRAYIDX_5]], align 4			; SSE-NEXT: [[TMP4:%.*]] = load <2 x i32>, ptr [[ARRAYIDX_5]], align 4
	; SSE-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i32 [[TMP4]], 0			; SSE-NEXT: [[TMP5:%.*]] = icmp eq <2 x i32> [[TMP4]], zeroinitializer
	; SSE-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; SSE-NEXT: [[TMP6:%.*]] = extractelement <2 x i1> [[TMP5]], i32 0
	; SSE-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 6			; SSE-NEXT: [[OR_5:%.*]] = select i1 [[TMP6]], i64 0, i64 32
	; SSE-NEXT: [[TMP5:%.*]] = load i32, ptr [[ARRAYIDX_6]], align 4			; SSE-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP5]], i32 1
	; SSE-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i32 [[TMP5]], 0			; SSE-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; SSE-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64
	; SSE-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 7			; SSE-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 7
	; SSE-NEXT: [[TMP6:%.*]] = load i32, ptr [[ARRAYIDX_7]], align 4			; SSE-NEXT: [[TMP8:%.*]] = load i32, ptr [[ARRAYIDX_7]], align 4
	; SSE-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i32 [[TMP6]], 0			; SSE-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i32 [[TMP8]], 0
	; SSE-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; SSE-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128
	; SSE-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; SSE-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]			; SSE-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; SSE-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; SSE-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; SSE-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; SSE-NEXT: ret i64 [[OP_RDX3]]			; SSE-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX-LABEL: @bitmask_8xi32(			; AVX-LABEL: @bitmask_8xi32(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4			; AVX-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4
	; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i32 [[TMP0]], 0			; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i32 [[TMP0]], 0
	; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 1			; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 1
	; AVX-NEXT: [[TMP1:%.*]] = load <4 x i32>, ptr [[ARRAYIDX_1]], align 4			; AVX-NEXT: [[TMP1:%.*]] = load <4 x i32>, ptr [[ARRAYIDX_1]], align 4
	; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i32> [[TMP1]], zeroinitializer			; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i32> [[TMP1]], zeroinitializer
	; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 5			; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 5
	; AVX-NEXT: [[TMP4:%.*]] = load i32, ptr [[ARRAYIDX_5]], align 4			; AVX-NEXT: [[TMP4:%.*]] = load <2 x i32>, ptr [[ARRAYIDX_5]], align 4
	; AVX-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i32 [[TMP4]], 0			; AVX-NEXT: [[TMP5:%.*]] = icmp eq <2 x i32> [[TMP4]], zeroinitializer
	; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; AVX-NEXT: [[TMP6:%.*]] = extractelement <2 x i1> [[TMP5]], i32 0
	; AVX-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 6			; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TMP6]], i64 0, i64 32
	; AVX-NEXT: [[TMP5:%.*]] = load i32, ptr [[ARRAYIDX_6]], align 4			; AVX-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP5]], i32 1
	; AVX-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i32 [[TMP5]], 0			; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64
	; AVX-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 7			; AVX-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i32, ptr [[SRC]], i64 7
	; AVX-NEXT: [[TMP6:%.*]] = load i32, ptr [[ARRAYIDX_7]], align 4			; AVX-NEXT: [[TMP8:%.*]] = load i32, ptr [[ARRAYIDX_7]], align 4
	; AVX-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i32 [[TMP6]], 0			; AVX-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i32 [[TMP8]], 0
	; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128
	; AVX-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; AVX-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]			; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; AVX-NEXT: ret i64 [[OP_RDX3]]			; AVX-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX512-LABEL: @bitmask_8xi32(			; AVX512-LABEL: @bitmask_8xi32(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4			; AVX512-NEXT: [[TMP0:%.]] = load i32, ptr [[SRC:%.]], align 4
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; SSE4-NEXT: [[TMP1:%.*]] = load <4 x i64>, ptr [[ARRAYIDX_1]], align 8			; SSE4-NEXT: [[TMP1:%.*]] = load <4 x i64>, ptr [[ARRAYIDX_1]], align 8
	; SSE4-NEXT: [[TMP2:%.*]] = icmp eq <4 x i64> [[TMP1]], zeroinitializer			; SSE4-NEXT: [[TMP2:%.*]] = icmp eq <4 x i64> [[TMP1]], zeroinitializer
	; SSE4-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; SSE4-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; SSE4-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 5			; SSE4-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 5
	; SSE4-NEXT: [[TMP4:%.*]] = load i64, ptr [[ARRAYIDX_5]], align 8			; SSE4-NEXT: [[TMP4:%.*]] = load i64, ptr [[ARRAYIDX_5]], align 8
	; SSE4-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i64 [[TMP4]], 0			; SSE4-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i64 [[TMP4]], 0
	; SSE4-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; SSE4-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32
	; SSE4-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 6			; SSE4-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 6
	; SSE4-NEXT: [[TMP5:%.*]] = load i64, ptr [[ARRAYIDX_6]], align 8			; SSE4-NEXT: [[TMP5:%.*]] = load <2 x i64>, ptr [[ARRAYIDX_6]], align 8
	; SSE4-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i64 [[TMP5]], 0			; SSE4-NEXT: [[TMP6:%.*]] = icmp eq <2 x i64> [[TMP5]], zeroinitializer
	; SSE4-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64			; SSE4-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP6]], i32 0
	; SSE4-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 7			; SSE4-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; SSE4-NEXT: [[TMP6:%.*]] = load i64, ptr [[ARRAYIDX_7]], align 8			; SSE4-NEXT: [[TMP8:%.*]] = extractelement <2 x i1> [[TMP6]], i32 1
	; SSE4-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i64 [[TMP6]], 0			; SSE4-NEXT: [[OR_7:%.*]] = select i1 [[TMP8]], i64 0, i64 128
	; SSE4-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; SSE4-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; SSE4-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; SSE4-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; SSE4-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]
	; SSE4-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; SSE4-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; SSE4-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; SSE4-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; SSE4-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; SSE4-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; SSE4-NEXT: ret i64 [[OP_RDX3]]			; SSE4-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX-LABEL: @bitmask_8xi64(			; AVX-LABEL: @bitmask_8xi64(
	; AVX-NEXT: entry:			; AVX-NEXT: entry:
	; AVX-NEXT: [[TMP0:%.]] = load i64, ptr [[SRC:%.]], align 8			; AVX-NEXT: [[TMP0:%.]] = load i64, ptr [[SRC:%.]], align 8
	; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i64 [[TMP0]], 0			; AVX-NEXT: [[TOBOOL_NOT:%.*]] = icmp ne i64 [[TMP0]], 0
	; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64			; AVX-NEXT: [[OR:%.*]] = zext i1 [[TOBOOL_NOT]] to i64
	; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 1			; AVX-NEXT: [[ARRAYIDX_1:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 1
	; AVX-NEXT: [[TMP1:%.*]] = load <4 x i64>, ptr [[ARRAYIDX_1]], align 8			; AVX-NEXT: [[TMP1:%.*]] = load <4 x i64>, ptr [[ARRAYIDX_1]], align 8
	; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i64> [[TMP1]], zeroinitializer			; AVX-NEXT: [[TMP2:%.*]] = icmp eq <4 x i64> [[TMP1]], zeroinitializer
	; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>			; AVX-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> zeroinitializer, <4 x i64> <i64 2, i64 4, i64 8, i64 16>
	; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 5			; AVX-NEXT: [[ARRAYIDX_5:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 5
	; AVX-NEXT: [[TMP4:%.*]] = load i64, ptr [[ARRAYIDX_5]], align 8			; AVX-NEXT: [[TMP4:%.*]] = load i64, ptr [[ARRAYIDX_5]], align 8
	; AVX-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i64 [[TMP4]], 0			; AVX-NEXT: [[TOBOOL_NOT_5:%.*]] = icmp eq i64 [[TMP4]], 0
	; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32			; AVX-NEXT: [[OR_5:%.*]] = select i1 [[TOBOOL_NOT_5]], i64 0, i64 32
	; AVX-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 6			; AVX-NEXT: [[ARRAYIDX_6:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 6
	; AVX-NEXT: [[TMP5:%.*]] = load i64, ptr [[ARRAYIDX_6]], align 8			; AVX-NEXT: [[TMP5:%.*]] = load <2 x i64>, ptr [[ARRAYIDX_6]], align 8
	; AVX-NEXT: [[TOBOOL_NOT_6:%.*]] = icmp eq i64 [[TMP5]], 0			; AVX-NEXT: [[TMP6:%.*]] = icmp eq <2 x i64> [[TMP5]], zeroinitializer
	; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TOBOOL_NOT_6]], i64 0, i64 64			; AVX-NEXT: [[TMP7:%.*]] = extractelement <2 x i1> [[TMP6]], i32 0
	; AVX-NEXT: [[ARRAYIDX_7:%.*]] = getelementptr inbounds i64, ptr [[SRC]], i64 7			; AVX-NEXT: [[OR_6:%.*]] = select i1 [[TMP7]], i64 0, i64 64
	; AVX-NEXT: [[TMP6:%.*]] = load i64, ptr [[ARRAYIDX_7]], align 8			; AVX-NEXT: [[TMP8:%.*]] = extractelement <2 x i1> [[TMP6]], i32 1
	; AVX-NEXT: [[TOBOOL_NOT_7:%.*]] = icmp eq i64 [[TMP6]], 0			; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TMP8]], i64 0, i64 128
	; AVX-NEXT: [[OR_7:%.*]] = select i1 [[TOBOOL_NOT_7]], i64 0, i64 128			; AVX-NEXT: [[TMP9:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])
	; AVX-NEXT: [[TMP7:%.*]] = call i64 @llvm.vector.reduce.or.v4i64(<4 x i64> [[TMP3]])			; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP9]], [[OR_5]]
	; AVX-NEXT: [[OP_RDX:%.*]] = or i64 [[TMP7]], [[OR_5]]
	; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]			; AVX-NEXT: [[OP_RDX1:%.*]] = or i64 [[OR_6]], [[OR_7]]
	; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]			; AVX-NEXT: [[OP_RDX2:%.*]] = or i64 [[OP_RDX]], [[OP_RDX1]]
	; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]			; AVX-NEXT: [[OP_RDX3:%.*]] = or i64 [[OP_RDX2]], [[OR]]
	; AVX-NEXT: ret i64 [[OP_RDX3]]			; AVX-NEXT: ret i64 [[OP_RDX3]]
	;			;
	; AVX512-LABEL: @bitmask_8xi64(			; AVX512-LABEL: @bitmask_8xi64(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[TMP0:%.]] = load i64, ptr [[SRC:%.]], align 8			; AVX512-NEXT: [[TMP0:%.]] = load i64, ptr [[SRC:%.]], align 8
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/c-ray.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -mtriple=x86_64-unknown -slp-vectorizer -S \| FileCheck %s			; RUN: opt < %s -mtriple=x86_64-unknown -slp-vectorizer -S \| FileCheck %s --check-prefixes=SSE
	; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=corei7-avx -slp-vectorizer -S \| FileCheck %s			; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=corei7-avx -slp-vectorizer -S \| FileCheck %s --check-prefixes=AVX
	; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -slp-vectorizer -S \| FileCheck %s			; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -slp-vectorizer -S \| FileCheck %s --check-prefixes=AVX

	%struct.ray = type { %struct.vec3, %struct.vec3 }			%struct.ray = type { %struct.vec3, %struct.vec3 }
	%struct.vec3 = type { double, double, double }			%struct.vec3 = type { double, double, double }
	%struct.sphere = type { %struct.vec3, double, %struct.material, ptr }			%struct.sphere = type { %struct.vec3, double, %struct.material, ptr }
	%struct.material = type { %struct.vec3, double, double }			%struct.material = type { %struct.vec3, double, double }

	define i32 @ray_sphere(ptr nocapture noundef readonly %sph, ptr nocapture noundef readonly byval(%struct.ray) align 8 %ray, ptr nocapture noundef readnone %sp) {			define i32 @ray_sphere(ptr nocapture noundef readonly %sph, ptr nocapture noundef readonly byval(%struct.ray) align 8 %ray, ptr nocapture noundef readnone %sp) {
	; CHECK-LABEL: @ray_sphere(			; SSE-LABEL: @ray_sphere(
	; CHECK-NEXT: entry:			; SSE-NEXT: entry:
	; CHECK-NEXT: [[DIR:%.]] = getelementptr inbounds [[STRUCT_RAY:%.]], ptr [[RAY:%.*]], i64 0, i32 1			; SSE-NEXT: [[DIR:%.]] = getelementptr inbounds [[STRUCT_RAY:%.]], ptr [[RAY:%.*]], i64 0, i32 1
	; CHECK-NEXT: [[TMP0:%.*]] = load double, ptr [[DIR]], align 8			; SSE-NEXT: [[TMP0:%.*]] = load double, ptr [[DIR]], align 8
	; CHECK-NEXT: [[Y:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 1			; SSE-NEXT: [[Y:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 1
	; CHECK-NEXT: [[TMP1:%.*]] = load double, ptr [[Y]], align 8			; SSE-NEXT: [[TMP1:%.*]] = load double, ptr [[Y]], align 8
	; CHECK-NEXT: [[MUL6:%.*]] = fmul double [[TMP1]], [[TMP1]]			; SSE-NEXT: [[MUL6:%.*]] = fmul double [[TMP1]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP0]], double [[TMP0]], double [[MUL6]])			; SSE-NEXT: [[TMP2:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP0]], double [[TMP0]], double [[MUL6]])
	; CHECK-NEXT: [[Z:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 2			; SSE-NEXT: [[Z:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 2
	; CHECK-NEXT: [[TMP3:%.*]] = load double, ptr [[Z]], align 8			; SSE-NEXT: [[TMP3:%.*]] = load double, ptr [[Z]], align 8
	; CHECK-NEXT: [[TMP4:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP3]], double [[TMP3]], double [[TMP2]])			; SSE-NEXT: [[TMP4:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP3]], double [[TMP3]], double [[TMP2]])
	; CHECK-NEXT: [[MUL:%.*]] = fmul double [[TMP0]], 2.000000e+00			; SSE-NEXT: [[MUL:%.*]] = fmul double [[TMP0]], 2.000000e+00
	; CHECK-NEXT: [[TMP5:%.*]] = load double, ptr [[RAY]], align 8			; SSE-NEXT: [[TMP5:%.*]] = load double, ptr [[RAY]], align 8
	; CHECK-NEXT: [[TMP6:%.]] = load double, ptr [[SPH:%.]], align 8			; SSE-NEXT: [[TMP6:%.]] = load double, ptr [[SPH:%.]], align 8
	; CHECK-NEXT: [[SUB:%.*]] = fsub double [[TMP5]], [[TMP6]]			; SSE-NEXT: [[SUB:%.*]] = fsub double [[TMP5]], [[TMP6]]
	; CHECK-NEXT: [[MUL17:%.*]] = fmul double [[TMP1]], 2.000000e+00			; SSE-NEXT: [[MUL17:%.*]] = fmul double [[TMP1]], 2.000000e+00
	; CHECK-NEXT: [[Y19:%.]] = getelementptr inbounds [[STRUCT_VEC3:%.]], ptr [[RAY]], i64 0, i32 1			; SSE-NEXT: [[Y19:%.]] = getelementptr inbounds [[STRUCT_VEC3:%.]], ptr [[RAY]], i64 0, i32 1
	; CHECK-NEXT: [[TMP7:%.*]] = load double, ptr [[Y19]], align 8			; SSE-NEXT: [[TMP7:%.*]] = load double, ptr [[Y19]], align 8
	; CHECK-NEXT: [[Y21:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 1			; SSE-NEXT: [[Y21:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 1
	; CHECK-NEXT: [[TMP8:%.*]] = load double, ptr [[Y21]], align 8			; SSE-NEXT: [[TMP8:%.*]] = load double, ptr [[Y21]], align 8
	; CHECK-NEXT: [[SUB22:%.*]] = fsub double [[TMP7]], [[TMP8]]			; SSE-NEXT: [[SUB22:%.*]] = fsub double [[TMP7]], [[TMP8]]
	; CHECK-NEXT: [[MUL23:%.*]] = fmul double [[MUL17]], [[SUB22]]			; SSE-NEXT: [[MUL23:%.*]] = fmul double [[MUL17]], [[SUB22]]
	; CHECK-NEXT: [[TMP9:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL]], double [[SUB]], double [[MUL23]])			; SSE-NEXT: [[TMP9:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL]], double [[SUB]], double [[MUL23]])
	; CHECK-NEXT: [[MUL26:%.*]] = fmul double [[TMP3]], 2.000000e+00			; SSE-NEXT: [[MUL26:%.*]] = fmul double [[TMP3]], 2.000000e+00
	; CHECK-NEXT: [[Z28:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[RAY]], i64 0, i32 2			; SSE-NEXT: [[Z28:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[RAY]], i64 0, i32 2
	; CHECK-NEXT: [[TMP10:%.*]] = load double, ptr [[Z28]], align 8			; SSE-NEXT: [[TMP10:%.*]] = load double, ptr [[Z28]], align 8
	; CHECK-NEXT: [[Z30:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 2			; SSE-NEXT: [[Z30:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 2
	; CHECK-NEXT: [[TMP11:%.*]] = load double, ptr [[Z30]], align 8			; SSE-NEXT: [[TMP11:%.*]] = load double, ptr [[Z30]], align 8
	; CHECK-NEXT: [[SUB31:%.*]] = fsub double [[TMP10]], [[TMP11]]			; SSE-NEXT: [[SUB31:%.*]] = fsub double [[TMP10]], [[TMP11]]
	; CHECK-NEXT: [[TMP12:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL26]], double [[SUB31]], double [[TMP9]])			; SSE-NEXT: [[TMP12:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL26]], double [[SUB31]], double [[TMP9]])
	; CHECK-NEXT: [[MUL42:%.*]] = fmul double [[TMP8]], [[TMP8]]			; SSE-NEXT: [[MUL42:%.*]] = fmul double [[TMP8]], [[TMP8]]
	; CHECK-NEXT: [[TMP13:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP6]], double [[TMP6]], double [[MUL42]])			; SSE-NEXT: [[TMP13:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP6]], double [[TMP6]], double [[MUL42]])
	; CHECK-NEXT: [[TMP14:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP11]], double [[TMP11]], double [[TMP13]])			; SSE-NEXT: [[TMP14:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP11]], double [[TMP11]], double [[TMP13]])
	; CHECK-NEXT: [[TMP15:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP5]], double [[TMP5]], double [[TMP14]])			; SSE-NEXT: [[TMP15:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP5]], double [[TMP5]], double [[TMP14]])
	; CHECK-NEXT: [[TMP16:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP7]], double [[TMP7]], double [[TMP15]])			; SSE-NEXT: [[TMP16:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP7]], double [[TMP7]], double [[TMP15]])
	; CHECK-NEXT: [[TMP17:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP10]], double [[TMP10]], double [[TMP16]])			; SSE-NEXT: [[TMP17:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP10]], double [[TMP10]], double [[TMP16]])
	; CHECK-NEXT: [[FNEG:%.*]] = fneg double [[TMP6]]			; SSE-NEXT: [[FNEG:%.*]] = fneg double [[TMP6]]
	; CHECK-NEXT: [[TMP18:%.*]] = fneg double [[TMP8]]			; SSE-NEXT: [[TMP18:%.*]] = fneg double [[TMP8]]
	; CHECK-NEXT: [[NEG:%.*]] = fmul double [[TMP7]], [[TMP18]]			; SSE-NEXT: [[NEG:%.*]] = fmul double [[TMP7]], [[TMP18]]
	; CHECK-NEXT: [[TMP19:%.*]] = tail call double @llvm.fmuladd.f64(double [[FNEG]], double [[TMP5]], double [[NEG]])			; SSE-NEXT: [[TMP19:%.*]] = tail call double @llvm.fmuladd.f64(double [[FNEG]], double [[TMP5]], double [[NEG]])
	; CHECK-NEXT: [[NEG78:%.*]] = fneg double [[TMP11]]			; SSE-NEXT: [[NEG78:%.*]] = fneg double [[TMP11]]
	; CHECK-NEXT: [[TMP20:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG78]], double [[TMP10]], double [[TMP19]])			; SSE-NEXT: [[TMP20:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG78]], double [[TMP10]], double [[TMP19]])
	; CHECK-NEXT: [[TMP21:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP20]], double 2.000000e+00, double [[TMP17]])			; SSE-NEXT: [[TMP21:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP20]], double 2.000000e+00, double [[TMP17]])
	; CHECK-NEXT: [[RAD:%.]] = getelementptr inbounds [[STRUCT_SPHERE:%.]], ptr [[SPH]], i64 0, i32 1			; SSE-NEXT: [[RAD:%.]] = getelementptr inbounds [[STRUCT_SPHERE:%.]], ptr [[SPH]], i64 0, i32 1
	; CHECK-NEXT: [[TMP22:%.*]] = load double, ptr [[RAD]], align 8			; SSE-NEXT: [[TMP22:%.*]] = load double, ptr [[RAD]], align 8
	; CHECK-NEXT: [[NEG82:%.*]] = fneg double [[TMP22]]			; SSE-NEXT: [[NEG82:%.*]] = fneg double [[TMP22]]
	; CHECK-NEXT: [[TMP23:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG82]], double [[TMP22]], double [[TMP21]])			; SSE-NEXT: [[TMP23:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG82]], double [[TMP22]], double [[TMP21]])
	; CHECK-NEXT: [[TMP24:%.*]] = fmul double [[TMP4]], -4.000000e+00			; SSE-NEXT: [[TMP24:%.*]] = fmul double [[TMP4]], -4.000000e+00
	; CHECK-NEXT: [[NEG86:%.*]] = fmul double [[TMP24]], [[TMP23]]			; SSE-NEXT: [[NEG86:%.*]] = fmul double [[TMP24]], [[TMP23]]
	; CHECK-NEXT: [[TMP25:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP12]], double [[TMP12]], double [[NEG86]])			; SSE-NEXT: [[TMP25:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP12]], double [[TMP12]], double [[NEG86]])
	; CHECK-NEXT: [[CMP:%.*]] = fcmp olt double [[TMP25]], 0.000000e+00			; SSE-NEXT: [[CMP:%.*]] = fcmp olt double [[TMP25]], 0.000000e+00
	; CHECK-NEXT: br i1 [[CMP]], label [[CLEANUP:%.]], label [[IF_END:%.]]			; SSE-NEXT: br i1 [[CMP]], label [[CLEANUP:%.]], label [[IF_END:%.]]
	; CHECK: if.end:			; SSE: if.end:
	; CHECK-NEXT: [[CALL:%.*]] = tail call double @sqrt(double noundef [[TMP25]])			; SSE-NEXT: [[CALL:%.*]] = tail call double @sqrt(double noundef [[TMP25]])
	; CHECK-NEXT: [[FNEG87:%.*]] = fneg double [[TMP12]]			; SSE-NEXT: [[FNEG87:%.*]] = fneg double [[TMP12]]
	; CHECK-NEXT: [[MUL88:%.*]] = fmul double [[TMP4]], 2.000000e+00			; SSE-NEXT: [[MUL88:%.*]] = fmul double [[TMP4]], 2.000000e+00
	; CHECK-NEXT: [[TMP26:%.*]] = insertelement <2 x double> poison, double [[FNEG87]], i32 0			; SSE-NEXT: [[TMP26:%.*]] = insertelement <2 x double> poison, double [[FNEG87]], i32 0
	; CHECK-NEXT: [[TMP27:%.*]] = insertelement <2 x double> [[TMP26]], double [[CALL]], i32 1			; SSE-NEXT: [[TMP27:%.*]] = insertelement <2 x double> [[TMP26]], double [[CALL]], i32 1
	; CHECK-NEXT: [[TMP28:%.*]] = insertelement <2 x double> poison, double [[CALL]], i32 0			; SSE-NEXT: [[TMP28:%.*]] = insertelement <2 x double> poison, double [[CALL]], i32 0
	; CHECK-NEXT: [[TMP29:%.*]] = insertelement <2 x double> [[TMP28]], double [[TMP12]], i32 1			; SSE-NEXT: [[TMP29:%.*]] = insertelement <2 x double> [[TMP28]], double [[TMP12]], i32 1
	; CHECK-NEXT: [[TMP30:%.*]] = fsub <2 x double> [[TMP27]], [[TMP29]]			; SSE-NEXT: [[TMP30:%.*]] = fsub <2 x double> [[TMP27]], [[TMP29]]
	; CHECK-NEXT: [[TMP31:%.*]] = insertelement <2 x double> poison, double [[MUL88]], i32 0			; SSE-NEXT: [[TMP31:%.*]] = insertelement <2 x double> poison, double [[MUL88]], i32 0
	; CHECK-NEXT: [[TMP32:%.*]] = insertelement <2 x double> [[TMP31]], double [[MUL88]], i32 1			; SSE-NEXT: [[TMP32:%.*]] = insertelement <2 x double> [[TMP31]], double [[MUL88]], i32 1
	; CHECK-NEXT: [[TMP33:%.*]] = fdiv <2 x double> [[TMP30]], [[TMP32]]			; SSE-NEXT: [[TMP33:%.*]] = fdiv <2 x double> [[TMP30]], [[TMP32]]
	; CHECK-NEXT: [[TMP34:%.*]] = extractelement <2 x double> [[TMP33]], i32 1			; SSE-NEXT: [[TMP34:%.*]] = extractelement <2 x double> [[TMP33]], i32 1
	; CHECK-NEXT: [[CMP93:%.*]] = fcmp olt double [[TMP34]], 0x3EB0C6F7A0B5ED8D			; SSE-NEXT: [[CMP93:%.*]] = fcmp olt double [[TMP34]], 0x3EB0C6F7A0B5ED8D
	; CHECK-NEXT: [[TMP35:%.*]] = extractelement <2 x double> [[TMP33]], i32 0			; SSE-NEXT: [[TMP35:%.*]] = extractelement <2 x double> [[TMP33]], i32 0
	; CHECK-NEXT: [[CMP94:%.*]] = fcmp olt double [[TMP35]], 0x3EB0C6F7A0B5ED8D			; SSE-NEXT: [[CMP94:%.*]] = fcmp olt double [[TMP35]], 0x3EB0C6F7A0B5ED8D
	; CHECK-NEXT: [[OR_COND:%.*]] = select i1 [[CMP93]], i1 [[CMP94]], i1 false			; SSE-NEXT: [[OR_COND:%.*]] = select i1 [[CMP93]], i1 [[CMP94]], i1 false
	; CHECK-NEXT: br i1 [[OR_COND]], label [[CLEANUP]], label [[LOR_LHS_FALSE:%.*]]			; SSE-NEXT: br i1 [[OR_COND]], label [[CLEANUP]], label [[LOR_LHS_FALSE:%.*]]
	; CHECK: lor.lhs.false:			; SSE: lor.lhs.false:
	; CHECK-NEXT: [[TMP36:%.*]] = fcmp ule <2 x double> [[TMP33]], <double 1.000000e+00, double 1.000000e+00>			; SSE-NEXT: [[TMP36:%.*]] = fcmp ule <2 x double> [[TMP33]], <double 1.000000e+00, double 1.000000e+00>
	; CHECK-NEXT: [[TMP37:%.*]] = extractelement <2 x i1> [[TMP36]], i32 0			; SSE-NEXT: [[TMP37:%.*]] = extractelement <2 x i1> [[TMP36]], i32 0
	; CHECK-NEXT: [[TMP38:%.*]] = extractelement <2 x i1> [[TMP36]], i32 1			; SSE-NEXT: [[TMP38:%.*]] = extractelement <2 x i1> [[TMP36]], i32 1
	; CHECK-NEXT: [[OR_COND106:%.*]] = select i1 [[TMP38]], i1 true, i1 [[TMP37]]			; SSE-NEXT: [[OR_COND106:%.*]] = select i1 [[TMP38]], i1 true, i1 [[TMP37]]
	; CHECK-NEXT: [[SPEC_SELECT:%.*]] = zext i1 [[OR_COND106]] to i32			; SSE-NEXT: [[SPEC_SELECT:%.*]] = zext i1 [[OR_COND106]] to i32
	; CHECK-NEXT: br label [[CLEANUP]]			; SSE-NEXT: br label [[CLEANUP]]
	; CHECK: cleanup:			; SSE: cleanup:
	; CHECK-NEXT: [[RETVAL_0:%.]] = phi i32 [ 0, [[ENTRY:%.]] ], [ 0, [[IF_END]] ], [ [[SPEC_SELECT]], [[LOR_LHS_FALSE]] ]			; SSE-NEXT: [[RETVAL_0:%.]] = phi i32 [ 0, [[ENTRY:%.]] ], [ 0, [[IF_END]] ], [ [[SPEC_SELECT]], [[LOR_LHS_FALSE]] ]
	; CHECK-NEXT: ret i32 [[RETVAL_0]]			; SSE-NEXT: ret i32 [[RETVAL_0]]
				;
				; AVX-LABEL: @ray_sphere(
				; AVX-NEXT: entry:
				; AVX-NEXT: [[DIR:%.]] = getelementptr inbounds [[STRUCT_RAY:%.]], ptr [[RAY:%.*]], i64 0, i32 1
				; AVX-NEXT: [[TMP0:%.*]] = load double, ptr [[DIR]], align 8
				; AVX-NEXT: [[Y:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 1
				; AVX-NEXT: [[TMP1:%.*]] = load double, ptr [[Y]], align 8
				; AVX-NEXT: [[MUL6:%.*]] = fmul double [[TMP1]], [[TMP1]]
				; AVX-NEXT: [[TMP2:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP0]], double [[TMP0]], double [[MUL6]])
				; AVX-NEXT: [[Z:%.*]] = getelementptr inbounds [[STRUCT_RAY]], ptr [[RAY]], i64 0, i32 1, i32 2
				; AVX-NEXT: [[TMP3:%.*]] = load double, ptr [[Z]], align 8
				; AVX-NEXT: [[TMP4:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP3]], double [[TMP3]], double [[TMP2]])
				; AVX-NEXT: [[MUL:%.*]] = fmul double [[TMP0]], 2.000000e+00
				; AVX-NEXT: [[TMP5:%.*]] = load double, ptr [[RAY]], align 8
				; AVX-NEXT: [[TMP6:%.]] = load double, ptr [[SPH:%.]], align 8
				; AVX-NEXT: [[SUB:%.*]] = fsub double [[TMP5]], [[TMP6]]
				; AVX-NEXT: [[MUL17:%.*]] = fmul double [[TMP1]], 2.000000e+00
				; AVX-NEXT: [[Y19:%.]] = getelementptr inbounds [[STRUCT_VEC3:%.]], ptr [[RAY]], i64 0, i32 1
				; AVX-NEXT: [[TMP7:%.*]] = load double, ptr [[Y19]], align 8
				; AVX-NEXT: [[Y21:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 1
				; AVX-NEXT: [[TMP8:%.*]] = load double, ptr [[Y21]], align 8
				; AVX-NEXT: [[SUB22:%.*]] = fsub double [[TMP7]], [[TMP8]]
				; AVX-NEXT: [[MUL23:%.*]] = fmul double [[MUL17]], [[SUB22]]
				; AVX-NEXT: [[TMP9:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL]], double [[SUB]], double [[MUL23]])
				; AVX-NEXT: [[MUL26:%.*]] = fmul double [[TMP3]], 2.000000e+00
				; AVX-NEXT: [[Z28:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[RAY]], i64 0, i32 2
				; AVX-NEXT: [[TMP10:%.*]] = load double, ptr [[Z28]], align 8
				; AVX-NEXT: [[Z30:%.*]] = getelementptr inbounds [[STRUCT_VEC3]], ptr [[SPH]], i64 0, i32 2
				; AVX-NEXT: [[TMP11:%.*]] = load double, ptr [[Z30]], align 8
				; AVX-NEXT: [[SUB31:%.*]] = fsub double [[TMP10]], [[TMP11]]
				; AVX-NEXT: [[TMP12:%.*]] = tail call double @llvm.fmuladd.f64(double [[MUL26]], double [[SUB31]], double [[TMP9]])
				; AVX-NEXT: [[MUL42:%.*]] = fmul double [[TMP8]], [[TMP8]]
				; AVX-NEXT: [[TMP13:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP6]], double [[TMP6]], double [[MUL42]])
				; AVX-NEXT: [[TMP14:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP11]], double [[TMP11]], double [[TMP13]])
				; AVX-NEXT: [[TMP15:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP5]], double [[TMP5]], double [[TMP14]])
				; AVX-NEXT: [[TMP16:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP7]], double [[TMP7]], double [[TMP15]])
				; AVX-NEXT: [[TMP17:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP10]], double [[TMP10]], double [[TMP16]])
				; AVX-NEXT: [[FNEG:%.*]] = fneg double [[TMP6]]
				; AVX-NEXT: [[TMP18:%.*]] = fneg double [[TMP8]]
				; AVX-NEXT: [[NEG:%.*]] = fmul double [[TMP7]], [[TMP18]]
				; AVX-NEXT: [[TMP19:%.*]] = tail call double @llvm.fmuladd.f64(double [[FNEG]], double [[TMP5]], double [[NEG]])
				; AVX-NEXT: [[NEG78:%.*]] = fneg double [[TMP11]]
				; AVX-NEXT: [[TMP20:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG78]], double [[TMP10]], double [[TMP19]])
				; AVX-NEXT: [[TMP21:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP20]], double 2.000000e+00, double [[TMP17]])
				; AVX-NEXT: [[RAD:%.]] = getelementptr inbounds [[STRUCT_SPHERE:%.]], ptr [[SPH]], i64 0, i32 1
				; AVX-NEXT: [[TMP22:%.*]] = load double, ptr [[RAD]], align 8
				; AVX-NEXT: [[NEG82:%.*]] = fneg double [[TMP22]]
				; AVX-NEXT: [[TMP23:%.*]] = tail call double @llvm.fmuladd.f64(double [[NEG82]], double [[TMP22]], double [[TMP21]])
				; AVX-NEXT: [[TMP24:%.*]] = fmul double [[TMP4]], -4.000000e+00
				; AVX-NEXT: [[NEG86:%.*]] = fmul double [[TMP24]], [[TMP23]]
				; AVX-NEXT: [[TMP25:%.*]] = tail call double @llvm.fmuladd.f64(double [[TMP12]], double [[TMP12]], double [[NEG86]])
				; AVX-NEXT: [[CMP:%.*]] = fcmp olt double [[TMP25]], 0.000000e+00
				; AVX-NEXT: br i1 [[CMP]], label [[CLEANUP:%.]], label [[IF_END:%.]]
				; AVX: if.end:
				; AVX-NEXT: [[CALL:%.*]] = tail call double @sqrt(double noundef [[TMP25]])
				; AVX-NEXT: [[FNEG87:%.*]] = fneg double [[TMP12]]
				; AVX-NEXT: [[MUL88:%.*]] = fmul double [[TMP4]], 2.000000e+00
				; AVX-NEXT: [[TMP26:%.*]] = insertelement <2 x double> poison, double [[FNEG87]], i32 0
				; AVX-NEXT: [[TMP27:%.*]] = insertelement <2 x double> [[TMP26]], double [[CALL]], i32 1
				; AVX-NEXT: [[TMP28:%.*]] = insertelement <2 x double> poison, double [[CALL]], i32 0
				; AVX-NEXT: [[TMP29:%.*]] = insertelement <2 x double> [[TMP28]], double [[TMP12]], i32 1
				; AVX-NEXT: [[TMP30:%.*]] = fsub <2 x double> [[TMP27]], [[TMP29]]
				; AVX-NEXT: [[TMP31:%.*]] = insertelement <2 x double> poison, double [[MUL88]], i32 0
				; AVX-NEXT: [[TMP32:%.*]] = insertelement <2 x double> [[TMP31]], double [[MUL88]], i32 1
				; AVX-NEXT: [[TMP33:%.*]] = fdiv <2 x double> [[TMP30]], [[TMP32]]
				; AVX-NEXT: [[TMP34:%.*]] = fcmp olt <2 x double> [[TMP33]], <double 0x3EB0C6F7A0B5ED8D, double 0x3EB0C6F7A0B5ED8D>
				; AVX-NEXT: [[TMP35:%.*]] = extractelement <2 x i1> [[TMP34]], i32 0
				; AVX-NEXT: [[TMP36:%.*]] = extractelement <2 x i1> [[TMP34]], i32 1
				; AVX-NEXT: [[OR_COND:%.*]] = select i1 [[TMP36]], i1 [[TMP35]], i1 false
				; AVX-NEXT: br i1 [[OR_COND]], label [[CLEANUP]], label [[LOR_LHS_FALSE:%.*]]
				; AVX: lor.lhs.false:
				; AVX-NEXT: [[TMP37:%.*]] = fcmp ule <2 x double> [[TMP33]], <double 1.000000e+00, double 1.000000e+00>
				; AVX-NEXT: [[TMP38:%.*]] = extractelement <2 x i1> [[TMP37]], i32 0
				; AVX-NEXT: [[TMP39:%.*]] = extractelement <2 x i1> [[TMP37]], i32 1
				; AVX-NEXT: [[OR_COND106:%.*]] = select i1 [[TMP39]], i1 true, i1 [[TMP38]]
				; AVX-NEXT: [[SPEC_SELECT:%.*]] = zext i1 [[OR_COND106]] to i32
				; AVX-NEXT: br label [[CLEANUP]]
				; AVX: cleanup:
				; AVX-NEXT: [[RETVAL_0:%.]] = phi i32 [ 0, [[ENTRY:%.]] ], [ 0, [[IF_END]] ], [ [[SPEC_SELECT]], [[LOR_LHS_FALSE]] ]
				; AVX-NEXT: ret i32 [[RETVAL_0]]
	;			;
	entry:			entry:
	%dir = getelementptr inbounds %struct.ray, ptr %ray, i64 0, i32 1			%dir = getelementptr inbounds %struct.ray, ptr %ray, i64 0, i32 1
	%0 = load double, ptr %dir, align 8			%0 = load double, ptr %dir, align 8
	%y = getelementptr inbounds %struct.ray, ptr %ray, i64 0, i32 1, i32 1			%y = getelementptr inbounds %struct.ray, ptr %ray, i64 0, i32 1, i32 1
	%1 = load double, ptr %y, align 8			%1 = load double, ptr %y, align 8
	%mul6 = fmul double %1, %1			%mul6 = fmul double %1, %1
	%2 = tail call double @llvm.fmuladd.f64(double %0, double %0, double %mul6)			%2 = tail call double @llvm.fmuladd.f64(double %0, double %0, double %mul6)
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/crash_reordering_undefs.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux -mcpu=corei7-avx \| FileCheck %s			; RUN: opt -slp-vectorizer -S < %s -mtriple=x86_64-unknown-linux -mcpu=corei7-avx \| FileCheck %s

	define i32 @crash_reordering_undefs() {			define i32 @crash_reordering_undefs() {
	; CHECK-LABEL: @crash_reordering_undefs(			; CHECK-LABEL: @crash_reordering_undefs(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[OR0:%.*]] = or i64 undef, undef
	; CHECK-NEXT: [[CMP0:%.*]] = icmp eq i64 undef, [[OR0]]
	; CHECK-NEXT: [[ADD0:%.*]] = select i1 [[CMP0]], i32 65536, i32 65537
	; CHECK-NEXT: [[CMP1:%.*]] = icmp eq i64 undef, undef			; CHECK-NEXT: [[CMP1:%.*]] = icmp eq i64 undef, undef
	; CHECK-NEXT: [[ADD2:%.*]] = select i1 [[CMP1]], i32 65536, i32 65537			; CHECK-NEXT: [[ADD2:%.*]] = select i1 [[CMP1]], i32 65536, i32 65537
	; CHECK-NEXT: [[CMP2:%.*]] = icmp eq i64 undef, undef			; CHECK-NEXT: [[CMP2:%.*]] = icmp eq i64 undef, undef
	; CHECK-NEXT: [[ADD4:%.*]] = select i1 [[CMP2]], i32 65536, i32 65537			; CHECK-NEXT: [[ADD4:%.*]] = select i1 [[CMP2]], i32 65536, i32 65537
	; CHECK-NEXT: [[OR1:%.*]] = or i64 undef, undef			; CHECK-NEXT: [[ADD0:%.*]] = select i1 undef, i32 65536, i32 65537
	; CHECK-NEXT: [[CMP3:%.*]] = icmp eq i64 undef, [[OR1]]			; CHECK-NEXT: [[ADD9:%.*]] = select i1 undef, i32 65536, i32 65537
	; CHECK-NEXT: [[ADD9:%.*]] = select i1 [[CMP3]], i32 65536, i32 65537
	; CHECK-NEXT: [[TMP0:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> undef)			; CHECK-NEXT: [[TMP0:%.*]] = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> undef)
	; CHECK-NEXT: [[OP_RDX:%.*]] = add i32 [[TMP0]], undef			; CHECK-NEXT: [[OP_RDX:%.*]] = add i32 [[TMP0]], undef
	; CHECK-NEXT: [[OP_RDX1:%.*]] = add i32 [[ADD0]], [[ADD2]]			; CHECK-NEXT: [[OP_RDX1:%.*]] = add i32 [[ADD0]], [[ADD2]]
	; CHECK-NEXT: [[OP_RDX2:%.*]] = add i32 [[ADD4]], [[ADD9]]			; CHECK-NEXT: [[OP_RDX2:%.*]] = add i32 [[ADD4]], [[ADD9]]
	; CHECK-NEXT: [[OP_RDX3:%.*]] = add i32 [[OP_RDX]], [[OP_RDX1]]			; CHECK-NEXT: [[OP_RDX3:%.*]] = add i32 [[OP_RDX]], [[OP_RDX1]]
	; CHECK-NEXT: [[OP_RDX4:%.*]] = add i32 [[OP_RDX3]], [[OP_RDX2]]			; CHECK-NEXT: [[OP_RDX4:%.*]] = add i32 [[OP_RDX3]], [[OP_RDX2]]
	; CHECK-NEXT: ret i32 [[OP_RDX4]]			; CHECK-NEXT: ret i32 [[OP_RDX4]]
	;			;
	Show All 21 Lines

llvm/test/Transforms/SLPVectorizer/X86/geps-non-pow-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -slp-vectorizer -S -o - -mtriple=x86_64-unknown-linux -mcpu=haswell < %s \| FileCheck %s			; RUN: opt -slp-vectorizer -S -o - -mtriple=x86_64-unknown-linux -mcpu=haswell < %s \| FileCheck %s
	@e = dso_local local_unnamed_addr global i32 0, align 4			@e = dso_local local_unnamed_addr global i32 0, align 4
	@f = dso_local local_unnamed_addr global i32 0, align 4			@f = dso_local local_unnamed_addr global i32 0, align 4

	; Function Attrs: nofree norecurse nounwind uwtable			; Function Attrs: nofree norecurse nounwind uwtable
	define dso_local i32 @g() local_unnamed_addr {			define dso_local i32 @g() local_unnamed_addr {
	; CHECK-LABEL: @g(			; CHECK-LABEL: @g(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 @e, align 4			; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 @e, align 4
	; CHECK-NEXT: [[TOBOOL_NOT19:%.*]] = icmp eq i32 [[TMP0]], 0			; CHECK-NEXT: [[TOBOOL_NOT19:%.*]] = icmp eq i32 [[TMP0]], 0
	; CHECK-NEXT: br i1 [[TOBOOL_NOT19]], label [[WHILE_END:%.]], label [[WHILE_BODY:%.]]			; CHECK-NEXT: br i1 [[TOBOOL_NOT19]], label [[WHILE_END:%.]], label [[WHILE_BODY:%.]]
	; CHECK: while.body:			; CHECK: while.body:
	; CHECK-NEXT: [[C_022:%.]] = phi i32 [ [[C_022_BE:%.]], [[WHILE_BODY_BACKEDGE:%.]] ], [ undef, [[ENTRY:%.*]] ]			; CHECK-NEXT: [[A_020:%.]] = phi i32 [ [[A_020_BE:%.]], [[WHILE_BODY_BACKEDGE:%.]] ], [ undef, [[ENTRY:%.*]] ]
	; CHECK-NEXT: [[TMP1:%.]] = phi <2 x i32> [ [[TMP14:%.*]], [[WHILE_BODY_BACKEDGE]] ], [ undef, [[ENTRY]] ]			; CHECK-NEXT: [[TMP1:%.]] = phi <2 x i32> [ [[TMP15:%.*]], [[WHILE_BODY_BACKEDGE]] ], [ undef, [[ENTRY]] ]
	; CHECK-NEXT: [[INCDEC_PTR:%.]] = getelementptr inbounds i32, i32 [[C_022]], i64 1			; CHECK-NEXT: [[TMP2:%.]] = extractelement <2 x i32> [[TMP1]], i32 0
	; CHECK-NEXT: [[TMP2:%.]] = ptrtoint i32 [[C_022]] to i64			; CHECK-NEXT: [[TMP3:%.]] = ptrtoint i32 [[TMP2]] to i64
	; CHECK-NEXT: [[TMP3:%.*]] = trunc i64 [[TMP2]] to i32			; CHECK-NEXT: [[TMP4:%.*]] = trunc i64 [[TMP3]] to i32
	; CHECK-NEXT: [[TMP4:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 1, i64 1>			; CHECK-NEXT: [[INCDEC_PTR1:%.]] = getelementptr inbounds i32, i32 [[A_020]], i64 1
	; CHECK-NEXT: switch i32 [[TMP3]], label [[WHILE_BODY_BACKEDGE]] [			; CHECK-NEXT: [[TMP5:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 1, i64 1>
				; CHECK-NEXT: switch i32 [[TMP4]], label [[WHILE_BODY_BACKEDGE]] [
	; CHECK-NEXT: i32 2, label [[SW_BB:%.*]]			; CHECK-NEXT: i32 2, label [[SW_BB:%.*]]
	; CHECK-NEXT: i32 4, label [[SW_BB6:%.*]]			; CHECK-NEXT: i32 4, label [[SW_BB6:%.*]]
	; CHECK-NEXT: ]			; CHECK-NEXT: ]
	; CHECK: sw.bb:			; CHECK: sw.bb:
	; CHECK-NEXT: [[TMP5:%.]] = extractelement <2 x i32> [[TMP4]], i32 0			; CHECK-NEXT: [[TMP6:%.]] = extractelement <2 x i32> [[TMP5]], i32 1
	; CHECK-NEXT: [[TMP6:%.]] = ptrtoint i32 [[TMP5]] to i64			; CHECK-NEXT: [[TMP7:%.]] = ptrtoint i32 [[TMP6]] to i64
	; CHECK-NEXT: [[TMP7:%.*]] = trunc i64 [[TMP6]] to i32			; CHECK-NEXT: [[TMP8:%.*]] = trunc i64 [[TMP7]] to i32
	; CHECK-NEXT: [[TMP8:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 2, i64 2>			; CHECK-NEXT: [[INCDEC_PTR4:%.]] = getelementptr inbounds i32, i32 [[A_020]], i64 2
	; CHECK-NEXT: [[TMP9:%.]] = extractelement <2 x i32> [[TMP4]], i32 1			; CHECK-NEXT: store i32 [[TMP8]], i32* [[INCDEC_PTR1]], align 4
	; CHECK-NEXT: store i32 [[TMP7]], i32* [[TMP9]], align 4			; CHECK-NEXT: [[TMP9:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 2, i64 2>
	; CHECK-NEXT: [[INCDEC_PTR5:%.]] = getelementptr inbounds i32, i32 [[C_022]], i64 2
	; CHECK-NEXT: br label [[WHILE_BODY_BACKEDGE]]			; CHECK-NEXT: br label [[WHILE_BODY_BACKEDGE]]
	; CHECK: sw.bb6:			; CHECK: sw.bb6:
	; CHECK-NEXT: [[INCDEC_PTR8:%.]] = getelementptr inbounds i32, i32 [[C_022]], i64 2			; CHECK-NEXT: [[INCDEC_PTR7:%.]] = getelementptr inbounds i32, i32 [[A_020]], i64 2
	; CHECK-NEXT: [[TMP10:%.]] = ptrtoint i32 [[INCDEC_PTR]] to i64			; CHECK-NEXT: [[TMP10:%.]] = extractelement <2 x i32> [[TMP5]], i32 0
	; CHECK-NEXT: [[TMP11:%.*]] = trunc i64 [[TMP10]] to i32			; CHECK-NEXT: [[TMP11:%.]] = ptrtoint i32 [[TMP10]] to i64
	; CHECK-NEXT: [[TMP12:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 2, i64 2>			; CHECK-NEXT: [[TMP12:%.*]] = trunc i64 [[TMP11]] to i32
	; CHECK-NEXT: [[TMP13:%.]] = extractelement <2 x i32> [[TMP4]], i32 0			; CHECK-NEXT: [[TMP13:%.]] = getelementptr i32, <2 x i32> [[TMP1]], <2 x i64> <i64 2, i64 2>
	; CHECK-NEXT: store i32 [[TMP11]], i32* [[TMP13]], align 4			; CHECK-NEXT: [[TMP14:%.]] = extractelement <2 x i32> [[TMP5]], i32 1
				; CHECK-NEXT: store i32 [[TMP12]], i32* [[TMP14]], align 4
	; CHECK-NEXT: br label [[WHILE_BODY_BACKEDGE]]			; CHECK-NEXT: br label [[WHILE_BODY_BACKEDGE]]
	; CHECK: while.body.backedge:			; CHECK: while.body.backedge:
	; CHECK-NEXT: [[C_022_BE]] = phi i32* [ [[INCDEC_PTR]], [[WHILE_BODY]] ], [ [[INCDEC_PTR8]], [[SW_BB6]] ], [ [[INCDEC_PTR5]], [[SW_BB]] ]			; CHECK-NEXT: [[A_020_BE]] = phi i32* [ [[INCDEC_PTR1]], [[WHILE_BODY]] ], [ [[INCDEC_PTR7]], [[SW_BB6]] ], [ [[INCDEC_PTR4]], [[SW_BB]] ]
	; CHECK-NEXT: [[TMP14]] = phi <2 x i32*> [ [[TMP4]], [[WHILE_BODY]] ], [ [[TMP12]], [[SW_BB6]] ], [ [[TMP8]], [[SW_BB]] ]			; CHECK-NEXT: [[TMP15]] = phi <2 x i32*> [ [[TMP5]], [[WHILE_BODY]] ], [ [[TMP13]], [[SW_BB6]] ], [ [[TMP9]], [[SW_BB]] ]
	; CHECK-NEXT: br label [[WHILE_BODY]]			; CHECK-NEXT: br label [[WHILE_BODY]]
	; CHECK: while.end:			; CHECK: while.end:
	; CHECK-NEXT: ret i32 undef			; CHECK-NEXT: ret i32 undef
	;			;
	entry:			entry:
	%0 = load i32, i32* @e, align 4			%0 = load i32, i32* @e, align 4
	%tobool.not19 = icmp eq i32 %0, 0			%tobool.not19 = icmp eq i32 %0, 0
	br i1 %tobool.not19, label %while.end, label %while.body			br i1 %tobool.not19, label %while.end, label %while.body
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/test/Transforms/SLPVectorizer/X86/reduction2.ll

	Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x double> poison, double [[C:%.]], i32 1			; CHECK-NEXT: [[TMP0:%.]] = insertelement <2 x double> poison, double [[C:%.]], i32 1
	; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> [[TMP0]], double [[FNEG]], i32 0			; CHECK-NEXT: [[TMP1:%.*]] = insertelement <2 x double> [[TMP0]], double [[FNEG]], i32 0
	; CHECK-NEXT: [[TMP2:%.*]] = insertelement <2 x double> poison, double [[C]], i32 0			; CHECK-NEXT: [[TMP2:%.*]] = insertelement <2 x double> poison, double [[C]], i32 0
	; CHECK-NEXT: [[TMP3:%.*]] = insertelement <2 x double> [[TMP2]], double [[B]], i32 1			; CHECK-NEXT: [[TMP3:%.*]] = insertelement <2 x double> [[TMP2]], double [[B]], i32 1
	; CHECK-NEXT: [[TMP4:%.*]] = fsub <2 x double> [[TMP1]], [[TMP3]]			; CHECK-NEXT: [[TMP4:%.*]] = fsub <2 x double> [[TMP1]], [[TMP3]]
	; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x double> poison, double [[MUL]], i32 0			; CHECK-NEXT: [[TMP5:%.*]] = insertelement <2 x double> poison, double [[MUL]], i32 0
	; CHECK-NEXT: [[TMP6:%.*]] = insertelement <2 x double> [[TMP5]], double [[MUL]], i32 1			; CHECK-NEXT: [[TMP6:%.*]] = insertelement <2 x double> [[TMP5]], double [[MUL]], i32 1
	; CHECK-NEXT: [[TMP7:%.*]] = fdiv <2 x double> [[TMP4]], [[TMP6]]			; CHECK-NEXT: [[TMP7:%.*]] = fdiv <2 x double> [[TMP4]], [[TMP6]]
	; CHECK-NEXT: [[TMP8:%.*]] = extractelement <2 x double> [[TMP7]], i32 1			; CHECK-NEXT: [[TMP8:%.*]] = fcmp olt <2 x double> [[TMP7]], <double 0x3EB0C6F7A0B5ED8D, double 0x3EB0C6F7A0B5ED8D>
	; CHECK-NEXT: [[CMP:%.*]] = fcmp olt double [[TMP8]], 0x3EB0C6F7A0B5ED8D			; CHECK-NEXT: [[TMP9:%.*]] = extractelement <2 x i1> [[TMP8]], i32 0
	; CHECK-NEXT: [[TMP9:%.*]] = extractelement <2 x double> [[TMP7]], i32 0			; CHECK-NEXT: [[TMP10:%.*]] = extractelement <2 x i1> [[TMP8]], i32 1
	; CHECK-NEXT: [[CMP4:%.*]] = fcmp olt double [[TMP9]], 0x3EB0C6F7A0B5ED8D			; CHECK-NEXT: [[OR_COND:%.*]] = and i1 [[TMP10]], [[TMP9]]
	; CHECK-NEXT: [[OR_COND:%.*]] = and i1 [[CMP]], [[CMP4]]
	; CHECK-NEXT: br i1 [[OR_COND]], label [[CLEANUP:%.]], label [[LOR_LHS_FALSE:%.]]			; CHECK-NEXT: br i1 [[OR_COND]], label [[CLEANUP:%.]], label [[LOR_LHS_FALSE:%.]]
	; CHECK: lor.lhs.false:			; CHECK: lor.lhs.false:
	; CHECK-NEXT: [[TMP10:%.*]] = fcmp ule <2 x double> [[TMP7]], <double 1.000000e+00, double 1.000000e+00>			; CHECK-NEXT: [[TMP11:%.*]] = fcmp ule <2 x double> [[TMP7]], <double 1.000000e+00, double 1.000000e+00>
	; CHECK-NEXT: [[TMP11:%.*]] = extractelement <2 x i1> [[TMP10]], i32 0			; CHECK-NEXT: [[TMP12:%.*]] = extractelement <2 x i1> [[TMP11]], i32 0
	; CHECK-NEXT: [[TMP12:%.*]] = extractelement <2 x i1> [[TMP10]], i32 1			; CHECK-NEXT: [[TMP13:%.*]] = extractelement <2 x i1> [[TMP11]], i32 1
	; CHECK-NEXT: [[NOT_OR_COND9:%.*]] = or i1 [[TMP11]], [[TMP12]]			; CHECK-NEXT: [[NOT_OR_COND9:%.*]] = or i1 [[TMP12]], [[TMP13]]
	; CHECK-NEXT: ret i1 [[NOT_OR_COND9]]			; CHECK-NEXT: ret i1 [[NOT_OR_COND9]]
	; CHECK: cleanup:			; CHECK: cleanup:
	; CHECK-NEXT: ret i1 false			; CHECK-NEXT: ret i1 false
	;			;
	entry:			entry:
	%fneg = fneg double %b			%fneg = fneg double %b
	%add = fsub double %c, %b			%add = fsub double %c, %b
	%mul = fmul double %a, 2.000000e+00			%mul = fmul double %a, 2.000000e+00
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[SLP] Add ScalarizationOverheadBuilder helper to track vector extractions
Changes PlannedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 463219

llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp

llvm/test/Transforms/Coroutines/coro-retcon-resume-values.ll

llvm/test/Transforms/PhaseOrdering/X86/vector-reductions.ll

llvm/test/Transforms/SLPVectorizer/X86/bool-mask.ll

llvm/test/Transforms/SLPVectorizer/X86/c-ray.ll

llvm/test/Transforms/SLPVectorizer/X86/crash_reordering_undefs.ll

llvm/test/Transforms/SLPVectorizer/X86/geps-non-pow-2.ll

llvm/test/Transforms/SLPVectorizer/X86/reduction2.ll

This is an archive of the discontinued LLVM Phabricator instance.

[SLP] Add ScalarizationOverheadBuilder helper to track vector extractionsChanges PlannedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 463219

llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp

llvm/test/Transforms/Coroutines/coro-retcon-resume-values.ll

llvm/test/Transforms/PhaseOrdering/X86/vector-reductions.ll

llvm/test/Transforms/SLPVectorizer/X86/bool-mask.ll

llvm/test/Transforms/SLPVectorizer/X86/c-ray.ll

llvm/test/Transforms/SLPVectorizer/X86/crash_reordering_undefs.ll

llvm/test/Transforms/SLPVectorizer/X86/geps-non-pow-2.ll

llvm/test/Transforms/SLPVectorizer/X86/reduction2.ll

[SLP] Add ScalarizationOverheadBuilder helper to track vector extractions
Changes PlannedPublic