Diff 312417

llvm/include/llvm/CodeGen/SelectionDAG.h

	Show First 20 Lines • Show All 1,585 Lines • ▼ Show 20 Lines
	void ReplaceAllUsesOfValuesWith(const SDValue From, const SDValue To,			void ReplaceAllUsesOfValuesWith(const SDValue From, const SDValue To,
	unsigned Num);			unsigned Num);

	/// If an existing load has uses of its chain, create a token factor node with			/// If an existing load has uses of its chain, create a token factor node with
	/// that chain and the new memory node's chain and update users of the old			/// that chain and the new memory node's chain and update users of the old
	/// chain to the token factor. This ensures that the new memory node will have			/// chain to the token factor. This ensures that the new memory node will have
	/// the same relative memory dependency position as the old load. Returns the			/// the same relative memory dependency position as the old load. Returns the
	/// new merged load chain.			/// new merged load chain.
	SDValue makeEquivalentMemoryOrdering(LoadSDNode *Old, SDValue New);			SDValue makeEquivalentMemoryOrdering(SDValue OldChain, SDValue NewMemOpChain);

				/// If an existing load has uses of its chain, create a token factor node with
				/// that chain and the new memory node's chain and update users of the old
				/// chain to the token factor. This ensures that the new memory node will have
				/// the same relative memory dependency position as the old load. Returns the
				/// new merged load chain.
				SDValue makeEquivalentMemoryOrdering(LoadSDNode *OldLoad, SDValue NewMemOp);

	/// Topological-sort the AllNodes list and a			/// Topological-sort the AllNodes list and a
	/// assign a unique node id for each node in the DAG based on their			/// assign a unique node id for each node in the DAG based on their
	/// topological order. Returns the number of nodes.			/// topological order. Returns the number of nodes.
	unsigned AssignTopologicalOrder();			unsigned AssignTopologicalOrder();

	/// Move node N in the AllNodes list to be immediately			/// Move node N in the AllNodes list to be immediately
	/// before the given iterator Position. This may be used to update the			/// before the given iterator Position. This may be used to update the
	▲ Show 20 Lines • Show All 470 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,960 Lines • ▼ Show 20 Lines	void SelectionDAG::AddDbgValue(SDDbgValue DB, SDNode SD, bool isParameter) {
}		}
DbgInfo->add(DB, SD, isParameter);		DbgInfo->add(DB, SD, isParameter);
}		}

void SelectionDAG::AddDbgLabel(SDDbgLabel *DB) {		void SelectionDAG::AddDbgLabel(SDDbgLabel *DB) {
DbgInfo->add(DB);		DbgInfo->add(DB);
}		}

SDValue SelectionDAG::makeEquivalentMemoryOrdering(LoadSDNode *OldLoad,		SDValue SelectionDAG::makeEquivalentMemoryOrdering(SDValue OldChain,
SDValue NewMemOp) {		SDValue NewMemOpChain) {
assert(isa<MemSDNode>(NewMemOp.getNode()) && "Expected a memop node");		assert(isa<MemSDNode>(NewMemOpChain) && "Expected a memop node");
		craig.topperUnsubmitted Not Done Reply Inline Actions Can you assert that the types for the inputs are MVT::Other? craig.topper: Can you assert that the types for the inputs are MVT::Other?
		assert(NewMemOpChain.getValueType() == MVT::Other && "Expected a token VT");
// The new memory operation must have the same position as the old load in		// The new memory operation must have the same position as the old load in
// terms of memory dependency. Create a TokenFactor for the old load and new		// terms of memory dependency. Create a TokenFactor for the old load and new
// memory operation and update uses of the old load's output chain to use that		// memory operation and update uses of the old load's output chain to use that
// TokenFactor.		// TokenFactor.
SDValue OldChain = SDValue(OldLoad, 1);		if (OldChain == NewMemOpChain \|\| OldChain.use_empty())
		craig.topperUnsubmitted Not Done Reply Inline Actions Shouldn't this just be OldChain.hasAnyUseOfValue()? We shouldn't assume "1" and should get it from the SDValue. Not sure what to do with the 1 on the line above. craig.topper: Shouldn't this just be OldChain.hasAnyUseOfValue()? We shouldn't assume "1" and should get it…
		RKSimonAuthorUnsubmitted Done Reply Inline Actions Nice catch - I've explicitly changed this to take the chains directly and used the SDValue::use_empty() wrapper to hasAnyUseOfValue RKSimon: Nice catch - I've explicitly changed this to take the chains directly and used the SDValue…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions @craig.topper Do you think we would be better off just replacing the old makeEquivalentMemoryOrdering(LoadSDNode,SDValue) version entirely with the new makeEquivalentMemoryOrdering(SDValue,SDValue) one? RKSimon:* @craig.topper Do you think we would be better off just replacing the old…
		craig.topperUnsubmitted Not Done Reply Inline Actions We can look at removing it as a follow up. craig.topper: We can look at removing it as a follow up.
SDValue NewChain = SDValue(NewMemOp.getNode(), 1);		return NewMemOpChain;
if (OldChain == NewChain \|\| !OldLoad->hasAnyUseOfValue(1))
return NewChain;

SDValue TokenFactor =		SDValue TokenFactor = getNode(ISD::TokenFactor, SDLoc(OldChain), MVT::Other,
getNode(ISD::TokenFactor, SDLoc(OldLoad), MVT::Other, OldChain, NewChain);		OldChain, NewMemOpChain);
ReplaceAllUsesOfValueWith(OldChain, TokenFactor);		ReplaceAllUsesOfValueWith(OldChain, TokenFactor);
UpdateNodeOperands(TokenFactor.getNode(), OldChain, NewChain);		UpdateNodeOperands(TokenFactor.getNode(), OldChain, NewMemOpChain);
return TokenFactor;		return TokenFactor;
}		}

		SDValue SelectionDAG::makeEquivalentMemoryOrdering(LoadSDNode *OldLoad,
		SDValue NewMemOp) {
		assert(isa<MemSDNode>(NewMemOp.getNode()) && "Expected a memop node");
		SDValue OldChain = SDValue(OldLoad, 1);
		SDValue NewMemOpChain = NewMemOp.getValue(1);
		return makeEquivalentMemoryOrdering(OldChain, NewMemOpChain);
		}

SDValue SelectionDAG::getSymbolFunctionGlobalAddress(SDValue Op,		SDValue SelectionDAG::getSymbolFunctionGlobalAddress(SDValue Op,
Function **OutFunction) {		Function **OutFunction) {
assert(isa<ExternalSymbolSDNode>(Op) && "Node should be an ExternalSymbol");		assert(isa<ExternalSymbolSDNode>(Op) && "Node should be an ExternalSymbol");

auto *Symbol = cast<ExternalSymbolSDNode>(Op)->getSymbol();		auto *Symbol = cast<ExternalSymbolSDNode>(Op)->getSymbol();
auto *Module = MF->getFunction().getParent();		auto *Module = MF->getFunction().getParent();
auto *Function = Module->getFunction(Symbol);		auto *Function = Module->getFunction(Symbol);

▲ Show 20 Lines • Show All 1,149 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.h

Show First 20 Lines • Show All 770 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
LAND,		LAND,

// Load, scalar_to_vector, and zero extend.		// Load, scalar_to_vector, and zero extend.
VZEXT_LOAD,		VZEXT_LOAD,

// extract_vector_elt, store.		// extract_vector_elt, store.
VEXTRACT_STORE,		VEXTRACT_STORE,

// scalar broadcast from memory		// scalar broadcast from memory.
VBROADCAST_LOAD,		VBROADCAST_LOAD,

		// subvector broadcast from memory.
		SUBV_BROADCAST_LOAD,

// Store FP control world into i16 memory.		// Store FP control world into i16 memory.
FNSTCW16m,		FNSTCW16m,

/// This instruction implements FP_TO_SINT with the		/// This instruction implements FP_TO_SINT with the
/// integer destination in memory and a FP reg source. This corresponds		/// integer destination in memory and a FP reg source. This corresponds
/// to the X86::FIST*m instructions and the rounding mode change stuff. It		/// to the X86::FIST*m instructions and the rounding mode change stuff. It
/// has two inputs (token chain and address) and two outputs (int value		/// has two inputs (token chain and address) and two outputs (int value
/// and token chain). Memory VT specifies the type to store to.		/// and token chain). Memory VT specifies the type to store to.
▲ Show 20 Lines • Show All 920 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,638 Lines • ▼ Show 20 Lines	if (const Constant *C = getTargetConstantFromBasePtr(Ptr)) {
UndefSrcElts.setBits(0, NumSrcElts);		UndefSrcElts.setBits(0, NumSrcElts);
SrcEltBits.append(NumSrcElts - 1, SrcEltBits[0]);		SrcEltBits.append(NumSrcElts - 1, SrcEltBits[0]);
return CastBitData(UndefSrcElts, SrcEltBits);		return CastBitData(UndefSrcElts, SrcEltBits);
}		}
}		}
}		}

// Extract constant bits from a subvector broadcast.		// Extract constant bits from a subvector broadcast.
if (Op.getOpcode() == X86ISD::SUBV_BROADCAST) {		if (Op.getOpcode() == X86ISD::SUBV_BROADCAST_LOAD) {
SmallVector<APInt, 16> SubEltBits;		auto *MemIntr = cast<MemIntrinsicSDNode>(Op);
if (getTargetConstantBitsFromNode(Op.getOperand(0), EltSizeInBits,		SDValue Ptr = MemIntr->getBasePtr();
UndefElts, SubEltBits, AllowWholeUndefs,		if (const Constant *Cst = getTargetConstantFromBasePtr(Ptr)) {
AllowPartialUndefs)) {		Type *CstTy = Cst->getType();
UndefElts = APInt::getSplat(NumElts, UndefElts);		unsigned CstSizeInBits = CstTy->getPrimitiveSizeInBits();
while (EltBits.size() < NumElts)		if (!CstTy->isVectorTy() \|\| (SizeInBits % CstSizeInBits) != 0)
EltBits.append(SubEltBits.begin(), SubEltBits.end());		return false;
return true;		unsigned SubEltSizeInBits = CstTy->getScalarSizeInBits();
		unsigned NumSubElts = CstSizeInBits / SubEltSizeInBits;
		unsigned NumSubVecs = SizeInBits / CstSizeInBits;
		APInt UndefSubElts(NumSubElts, 0);
		SmallVector<APInt, 64> SubEltBits(NumSubElts * NumSubVecs,
		APInt(SubEltSizeInBits, 0));
		for (unsigned i = 0; i != NumSubElts; ++i) {
		if (!CollectConstantBits(Cst->getAggregateElement(i), SubEltBits[i],
		UndefSubElts, i))
		return false;
		for (unsigned j = 1; j != NumSubVecs; ++j)
		SubEltBits[i + (j * NumSubElts)] = SubEltBits[i];
		}
		UndefSubElts = APInt::getSplat(NumSubVecs * UndefSubElts.getBitWidth(),
		UndefSubElts);
		return CastBitData(UndefSubElts, SubEltBits);
}		}
}		}

// Extract a rematerialized scalar constant insertion.		// Extract a rematerialized scalar constant insertion.
if (Op.getOpcode() == X86ISD::VZEXT_MOVL &&		if (Op.getOpcode() == X86ISD::VZEXT_MOVL &&
Op.getOperand(0).getOpcode() == ISD::SCALAR_TO_VECTOR &&		Op.getOperand(0).getOpcode() == ISD::SCALAR_TO_VECTOR &&
isa<ConstantSDNode>(Op.getOperand(0).getOperand(0))) {		isa<ConstantSDNode>(Op.getOperand(0).getOperand(0))) {
unsigned SrcEltSizeInBits = VT.getScalarSizeInBits();		unsigned SrcEltSizeInBits = VT.getScalarSizeInBits();
▲ Show 20 Lines • Show All 2,133 Lines • ▼ Show 20 Lines	if (BVOp->isConstantSplat(SplatValue, Undef, SplatBitSize, HasUndef) &&
MachinePointerInfo::getConstantPool(DAG.getMachineFunction());		MachinePointerInfo::getConstantPool(DAG.getMachineFunction());
SDValue Brdcst = DAG.getMemIntrinsicNode(		SDValue Brdcst = DAG.getMemIntrinsicNode(
X86ISD::VBROADCAST_LOAD, dl, Tys, Ops, CVT, MPI, Alignment,		X86ISD::VBROADCAST_LOAD, dl, Tys, Ops, CVT, MPI, Alignment,
MachineMemOperand::MOLoad);		MachineMemOperand::MOLoad);
return DAG.getBitcast(VT, Brdcst);		return DAG.getBitcast(VT, Brdcst);
}		}
if (SplatBitSize > 64) {		if (SplatBitSize > 64) {
// Load the vector of constants and broadcast it.		// Load the vector of constants and broadcast it.
MVT CVT = VT.getScalarType();
Constant *VecC = getConstantVector(VT, SplatValue, SplatBitSize,		Constant *VecC = getConstantVector(VT, SplatValue, SplatBitSize,
*Ctx);		*Ctx);
SDValue VCP = DAG.getConstantPool(VecC, PVT);		SDValue VCP = DAG.getConstantPool(VecC, PVT);
unsigned NumElm = SplatBitSize / VT.getScalarSizeInBits();		unsigned NumElm = SplatBitSize / VT.getScalarSizeInBits();
		MVT VVT = MVT::getVectorVT(VT.getScalarType(), NumElm);
Align Alignment = cast<ConstantPoolSDNode>(VCP)->getAlign();		Align Alignment = cast<ConstantPoolSDNode>(VCP)->getAlign();
Ld = DAG.getLoad(		SDVTList Tys = DAG.getVTList(VT, MVT::Other);
MVT::getVectorVT(CVT, NumElm), dl, DAG.getEntryNode(), VCP,		SDValue Ops[] = {DAG.getEntryNode(), VCP};
MachinePointerInfo::getConstantPool(DAG.getMachineFunction()),		MachinePointerInfo MPI =
Alignment);		MachinePointerInfo::getConstantPool(DAG.getMachineFunction());
return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, VT, Ld);		return DAG.getMemIntrinsicNode(
		X86ISD::SUBV_BROADCAST_LOAD, dl, Tys, Ops, VVT, MPI, Alignment,
		MachineMemOperand::MOLoad);
}		}
}		}
}		}

// If we are moving a scalar into a vector (Ld must be set and all elements		// If we are moving a scalar into a vector (Ld must be set and all elements
// but 1 are undef) and that operation is not obviously supported by		// but 1 are undef) and that operation is not obviously supported by
// vmovd/vmovq/vmovss/vmovsd, then keep trying to form a broadcast.		// vmovd/vmovq/vmovss/vmovsd, then keep trying to form a broadcast.
// That's better than general shuffling and may eliminate a load to GPR and		// That's better than general shuffling and may eliminate a load to GPR and
▲ Show 20 Lines • Show All 22,100 Lines • ▼ Show 20 Lines	#define NODE_NAME_CASE(NODE) case X86ISD::NODE: return "X86ISD::" #NODE;
NODE_NAME_CASE(MOVSD)		NODE_NAME_CASE(MOVSD)
NODE_NAME_CASE(MOVSS)		NODE_NAME_CASE(MOVSS)
NODE_NAME_CASE(UNPCKL)		NODE_NAME_CASE(UNPCKL)
NODE_NAME_CASE(UNPCKH)		NODE_NAME_CASE(UNPCKH)
NODE_NAME_CASE(VBROADCAST)		NODE_NAME_CASE(VBROADCAST)
NODE_NAME_CASE(VBROADCAST_LOAD)		NODE_NAME_CASE(VBROADCAST_LOAD)
NODE_NAME_CASE(VBROADCASTM)		NODE_NAME_CASE(VBROADCASTM)
NODE_NAME_CASE(SUBV_BROADCAST)		NODE_NAME_CASE(SUBV_BROADCAST)
		NODE_NAME_CASE(SUBV_BROADCAST_LOAD)
NODE_NAME_CASE(VPERMILPV)		NODE_NAME_CASE(VPERMILPV)
NODE_NAME_CASE(VPERMILPI)		NODE_NAME_CASE(VPERMILPI)
NODE_NAME_CASE(VPERM2X128)		NODE_NAME_CASE(VPERM2X128)
NODE_NAME_CASE(VPERMV)		NODE_NAME_CASE(VPERMV)
NODE_NAME_CASE(VPERMV3)		NODE_NAME_CASE(VPERMV3)
NODE_NAME_CASE(VPERMI)		NODE_NAME_CASE(VPERMI)
NODE_NAME_CASE(VPTERNLOG)		NODE_NAME_CASE(VPTERNLOG)
NODE_NAME_CASE(VFIXUPIMM)		NODE_NAME_CASE(VFIXUPIMM)
▲ Show 20 Lines • Show All 7,112 Lines • ▼ Show 20 Lines	case X86ISD::SUBV_BROADCAST: {
MVT SrcSVT = Src.getSimpleValueType().getScalarType();		MVT SrcSVT = Src.getSimpleValueType().getScalarType();
MVT SrcVT =		MVT SrcVT =
MVT::getVectorVT(SrcSVT, ExtSizeInBits / SrcSVT.getSizeInBits());		MVT::getVectorVT(SrcSVT, ExtSizeInBits / SrcSVT.getSizeInBits());
Src = TLO.DAG.getNode(X86ISD::SUBV_BROADCAST, DL, SrcVT, Src);		Src = TLO.DAG.getNode(X86ISD::SUBV_BROADCAST, DL, SrcVT, Src);
}		}
return TLO.CombineTo(Op, insertSubVector(TLO.DAG.getUNDEF(VT), Src, 0,		return TLO.CombineTo(Op, insertSubVector(TLO.DAG.getUNDEF(VT), Src, 0,
TLO.DAG, DL, ExtSizeInBits));		TLO.DAG, DL, ExtSizeInBits));
}		}
		case X86ISD::SUBV_BROADCAST_LOAD: {
		auto *MemIntr = cast<MemIntrinsicSDNode>(Op);
		EVT MemVT = MemIntr->getMemoryVT();
		if (ExtSizeInBits == MemVT.getStoreSizeInBits()) {
		SDLoc DL(Op);
		SDValue Ld =
		TLO.DAG.getLoad(MemVT, DL, MemIntr->getChain(),
		MemIntr->getBasePtr(), MemIntr->getMemOperand());
		TLO.DAG.makeEquivalentMemoryOrdering(SDValue(MemIntr, 1),
		Ld.getValue(1));
		return TLO.CombineTo(Op, insertSubVector(TLO.DAG.getUNDEF(VT), Ld, 0,
		TLO.DAG, DL, ExtSizeInBits));
		} else if ((ExtSizeInBits % MemVT.getStoreSizeInBits()) == 0) {
		SDLoc DL(Op);
		EVT BcstVT = EVT::getVectorVT(*TLO.DAG.getContext(), VT.getScalarType(),
		ExtSizeInBits / VT.getScalarSizeInBits());
		SDVTList Tys = TLO.DAG.getVTList(BcstVT, MVT::Other);
		SDValue Ops[] = {MemIntr->getOperand(0), MemIntr->getOperand(1)};
		SDValue Bcst =
		TLO.DAG.getMemIntrinsicNode(X86ISD::SUBV_BROADCAST_LOAD, DL, Tys,
		Ops, MemVT, MemIntr->getMemOperand());
		TLO.DAG.makeEquivalentMemoryOrdering(SDValue(MemIntr, 1),
		Bcst.getValue(1));
		return TLO.CombineTo(Op, insertSubVector(TLO.DAG.getUNDEF(VT), Bcst, 0,
		TLO.DAG, DL, ExtSizeInBits));
		}
		break;
		}
// Byte shifts by immediate.		// Byte shifts by immediate.
case X86ISD::VSHLDQ:		case X86ISD::VSHLDQ:
case X86ISD::VSRLDQ:		case X86ISD::VSRLDQ:
// Shift by uniform.		// Shift by uniform.
case X86ISD::VSHL:		case X86ISD::VSHL:
case X86ISD::VSRL:		case X86ISD::VSRL:
case X86ISD::VSRA:		case X86ISD::VSRA:
// Shift by immediate.		// Shift by immediate.
Show All 23 Lines	case X86ISD::VPERMI: {
SDValue Insert = insertSubVector(UndefVec, Ext, 0, TLO.DAG, DL, 128);		SDValue Insert = insertSubVector(UndefVec, Ext, 0, TLO.DAG, DL, 128);
return TLO.CombineTo(Op, Insert);		return TLO.CombineTo(Op, Insert);
}		}
}		}
break;		break;
}		}
// Zero upper elements.		// Zero upper elements.
case X86ISD::VZEXT_MOVL:		case X86ISD::VZEXT_MOVL:
// Target unary shuffles by immediate:		// Target unary shuffles by immediate:
		craig.topperUnsubmitted Not Done Reply Inline Actions Ld.getValue(1)? craig.topper: Ld.getValue(1)?
case X86ISD::PSHUFD:		case X86ISD::PSHUFD:
case X86ISD::PSHUFLW:		case X86ISD::PSHUFLW:
case X86ISD::PSHUFHW:		case X86ISD::PSHUFHW:
case X86ISD::VPERMILPI:		case X86ISD::VPERMILPI:
// (Non-Lane Crossing) Target Shuffles.		// (Non-Lane Crossing) Target Shuffles.
case X86ISD::VPERMILPV:		case X86ISD::VPERMILPV:
case X86ISD::VPERMIL2:		case X86ISD::VPERMIL2:
case X86ISD::PSHUFB:		case X86ISD::PSHUFB:
▲ Show 20 Lines • Show All 6,411 Lines • ▼ Show 20 Lines	static SDValue detectAVGPattern(SDValue In, EVT VT, SelectionDAG &DAG,
else if (!FindAddLike(Operands[1], Op0, Op1))		else if (!FindAddLike(Operands[1], Op0, Op1))
return SDValue();		return SDValue();
Operands[2] = Op0;		Operands[2] = Op0;
Operands[1] = Op1;		Operands[1] = Op1;

// Now we have three operands of two additions. Check that one of them is a		// Now we have three operands of two additions. Check that one of them is a
// constant vector with ones, and the other two can be promoted from i8/i16.		// constant vector with ones, and the other two can be promoted from i8/i16.
for (int i = 0; i < 3; ++i) {		for (int i = 0; i < 3; ++i) {
if (!IsConstVectorInRange(Operands[i], 1, 1))		if (!IsConstVectorInRange(Operands[i], 1, 1))
		yubingUnsubmitted Not Done Reply Inline Actions Hi, Simon. If we have a load and subv_broadcast_load which has the same SRC, the load will be combined into a extract_subv from subv_broadcast_load. But If some optimization delete subv_broadcast_load's other users and make it has only one user i.e. extract_subv, will extract_subv(subv_broadcast_load) roll back to a simple load? yubing: Hi, Simon. If we have a load and subv_broadcast_load which has the same SRC, the load will be…
		RKSimonAuthorUnsubmitted Done Reply Inline Actions Yes the new SimplifyDemandedVectorElts code at line 38024 should handle that. RKSimon: Yes the new SimplifyDemandedVectorElts code at line 38024 should handle that.
		yubingUnsubmitted Not Done Reply Inline Actions Besides, if there are two subv_broadcast_load(e.g. one is 4xi32->8xi32, another is 4xi32->16xi32) which has the same SRC, the subv_broadcast_load(4xi32->8xi32) is not combined into extract_subv(subv_broadcast_load(4xi32->16xi32)) with your current patch. Should we create a combinesubv_broadcast_load() procedure to handle with such case? @ga4 = global <4 x i32> zeroinitializer, align 8 @gb4 = global <8 x i32> zeroinitializer, align 8 @gc4 = global <16 x i32> zeroinitializer, align 8 define void @main(<4 x i32> %a, <8 x i32> %b, <16 x i32> %c) { entry: %0 = add <4 x i32> %a, <i32 1, i32 2, i32 3, i32 4> %1 = add <8 x i32> %b, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4> %2 = and <8 x i32> %1, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4> %3 = add <16 x i32> %c, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4> %4 = and <16 x i32> %3, <i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4, i32 1, i32 2, i32 3, i32 4> store <4 x i32> %0, <4 x i32>* @ga4, align 8 store <8 x i32> %2, <8 x i32>* @gb4, align 8 store <16 x i32> %4, <16 x i32>* @gc4, align 8 ret void } yubing: Besides, if there are two subv_broadcast_load(e.g. one is 4xi32->8xi32, another is 4xi32…
		RKSimonAuthorUnsubmitted Done Reply Inline Actions Sure - I can look at adding that as part of this patch, although I don't think the existing X86ISD::SUBV_BROADCAST code does a good job of this either. RKSimon: Sure - I can look at adding that as part of this patch, although I don't think the existing…
continue;		continue;
std::swap(Operands[i], Operands[2]);		std::swap(Operands[i], Operands[2]);

// Check if Operands[0] and Operands[1] are results of type promotion.		// Check if Operands[0] and Operands[1] are results of type promotion.
for (int j = 0; j < 2; ++j)		for (int j = 0; j < 2; ++j)
if (Operands[j].getValueType() != VT) {		if (Operands[j].getValueType() != VT) {
if (Operands[j].getOpcode() != ISD::ZERO_EXTEND \|\|		if (Operands[j].getOpcode() != ISD::ZERO_EXTEND \|\|
Operands[j].getOperand(0).getValueType() != VT)		Operands[j].getOperand(0).getValueType() != VT)
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	if (TLI.isTypeLegal(IntVT)) {
Ld->getPointerInfo(),		Ld->getPointerInfo(),
Ld->getOriginalAlign(),		Ld->getOriginalAlign(),
Ld->getMemOperand()->getFlags());		Ld->getMemOperand()->getFlags());
SDValue BoolVec = DAG.getBitcast(RegVT, IntLoad);		SDValue BoolVec = DAG.getBitcast(RegVT, IntLoad);
return DCI.CombineTo(N, BoolVec, IntLoad.getValue(1), true);		return DCI.CombineTo(N, BoolVec, IntLoad.getValue(1), true);
}		}
}		}

		// If we also broadcast this as a subvector to a wider type, then just extract
		// the lowest subvector.
		if (Ext == ISD::NON_EXTLOAD && Subtarget.hasAVX() && Ld->isSimple() &&
		(RegVT.is128BitVector() \|\| RegVT.is256BitVector())) {
		SDValue Ptr = Ld->getBasePtr();
		SDValue Chain = Ld->getChain();
		for (SDNode *User : Ptr->uses()) {
		if (User != N && User->getOpcode() == X86ISD::SUBV_BROADCAST_LOAD &&
		cast<MemIntrinsicSDNode>(User)->getBasePtr() == Ptr &&
		cast<MemIntrinsicSDNode>(User)->getChain() == Chain &&
		cast<MemIntrinsicSDNode>(User)->getMemoryVT().getSizeInBits() ==
		MemVT.getSizeInBits() &&
		!User->hasAnyUseOfValue(1) &&
		User->getValueSizeInBits(0).getFixedSize() >
		RegVT.getFixedSizeInBits()) {
		SDValue Extract = extractSubVector(SDValue(User, 0), 0, DAG, SDLoc(N),
		RegVT.getSizeInBits());
		Extract = DAG.getBitcast(RegVT, Extract);
		return DCI.CombineTo(N, Extract, SDValue(User, 1));
		}
		}
		}

// Cast ptr32 and ptr64 pointers to the default address space before a load.		// Cast ptr32 and ptr64 pointers to the default address space before a load.
unsigned AddrSpace = Ld->getAddressSpace();		unsigned AddrSpace = Ld->getAddressSpace();
if (AddrSpace == X86AS::PTR64 \|\| AddrSpace == X86AS::PTR32_SPTR \|\|		if (AddrSpace == X86AS::PTR64 \|\| AddrSpace == X86AS::PTR32_SPTR \|\|
AddrSpace == X86AS::PTR32_UPTR) {		AddrSpace == X86AS::PTR32_UPTR) {
MVT PtrVT = TLI.getPointerTy(DAG.getDataLayout());		MVT PtrVT = TLI.getPointerTy(DAG.getDataLayout());
if (PtrVT != Ld->getBasePtr().getSimpleValueType()) {		if (PtrVT != Ld->getBasePtr().getSimpleValueType()) {
SDValue Cast =		SDValue Cast =
DAG.getAddrSpaceCast(dl, PtrVT, Ld->getBasePtr(), AddrSpace, 0);		DAG.getAddrSpaceCast(dl, PtrVT, Ld->getBasePtr(), AddrSpace, 0);
▲ Show 20 Lines • Show All 4,699 Lines • ▼ Show 20 Lines	if (MemIntr->getMemoryVT().getSizeInBits() <= SizeInBits) {
return BcastLd;		return BcastLd;
}		}
}		}

// If we're extracting an upper subvector from a broadcast we should just		// If we're extracting an upper subvector from a broadcast we should just
// extract the lowest subvector instead which should allow		// extract the lowest subvector instead which should allow
// SimplifyDemandedVectorElts do more simplifications.		// SimplifyDemandedVectorElts do more simplifications.
if (IdxVal != 0 && (InVec.getOpcode() == X86ISD::VBROADCAST \|\|		if (IdxVal != 0 && (InVec.getOpcode() == X86ISD::VBROADCAST \|\|
InVec.getOpcode() == X86ISD::VBROADCAST_LOAD))		InVec.getOpcode() == X86ISD::VBROADCAST_LOAD \|\|
		InVec.getOpcode() == X86ISD::SUBV_BROADCAST_LOAD))
return extractSubVector(InVec, 0, DAG, SDLoc(N), SizeInBits);		return extractSubVector(InVec, 0, DAG, SDLoc(N), SizeInBits);

// If we're extracting a broadcasted subvector, just use the source.		// If we're extracting a broadcasted subvector, just use the source.
if (InVec.getOpcode() == X86ISD::SUBV_BROADCAST &&		if (InVec.getOpcode() == X86ISD::SUBV_BROADCAST &&
InVec.getOperand(0).getValueType() == VT)		InVec.getOperand(0).getValueType() == VT)
return InVec.getOperand(0);		return InVec.getOperand(0);

// Attempt to extract from the source of a shuffle vector.		// Attempt to extract from the source of a shuffle vector.
▲ Show 20 Lines • Show All 349 Lines • ▼ Show 20 Lines	if (IsStrict) {
}		}
return DAG.getMergeValues({Cvt, Chain}, dl);		return DAG.getMergeValues({Cvt, Chain}, dl);
}		}

// Extend to the original VT if necessary.		// Extend to the original VT if necessary.
return DAG.getNode(ISD::FP_EXTEND, dl, VT, Cvt);		return DAG.getNode(ISD::FP_EXTEND, dl, VT, Cvt);
}		}

// Try to find a larger VBROADCAST_LOAD that we can extract from. Limit this to		// Try to find a larger VBROADCAST_LOAD/SUBV_BROADCAST_LOAD that we can extract
// cases where the loads have the same input chain and the output chains are		// from. Limit this to cases where the loads have the same input chain and the
// unused. This avoids any memory ordering issues.		// output chains are unused. This avoids any memory ordering issues.
static SDValue combineVBROADCAST_LOAD(SDNode *N, SelectionDAG &DAG,		static SDValue combineBROADCAST_LOAD(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI) {		TargetLowering::DAGCombinerInfo &DCI) {
		assert((N->getOpcode() == X86ISD::VBROADCAST_LOAD \|\|
		N->getOpcode() == X86ISD::SUBV_BROADCAST_LOAD) &&
		"Unknown broadcast load type");

// Only do this if the chain result is unused.		// Only do this if the chain result is unused.
if (N->hasAnyUseOfValue(1))		if (N->hasAnyUseOfValue(1))
return SDValue();		return SDValue();

auto *MemIntrin = cast<MemIntrinsicSDNode>(N);		auto *MemIntrin = cast<MemIntrinsicSDNode>(N);

SDValue Ptr = MemIntrin->getBasePtr();		SDValue Ptr = MemIntrin->getBasePtr();
SDValue Chain = MemIntrin->getChain();		SDValue Chain = MemIntrin->getChain();
EVT VT = N->getSimpleValueType(0);		EVT VT = N->getSimpleValueType(0);
EVT MemVT = MemIntrin->getMemoryVT();		EVT MemVT = MemIntrin->getMemoryVT();

// Look at other users of our base pointer and try to find a wider broadcast.		// Look at other users of our base pointer and try to find a wider broadcast.
// The input chain and the size of the memory VT must match.		// The input chain and the size of the memory VT must match.
for (SDNode *User : Ptr->uses())		for (SDNode *User : Ptr->uses())
if (User != N && User->getOpcode() == X86ISD::VBROADCAST_LOAD &&		if (User != N && User->getOpcode() == N->getOpcode() &&
cast<MemIntrinsicSDNode>(User)->getBasePtr() == Ptr &&		cast<MemIntrinsicSDNode>(User)->getBasePtr() == Ptr &&
cast<MemIntrinsicSDNode>(User)->getChain() == Chain &&		cast<MemIntrinsicSDNode>(User)->getChain() == Chain &&
cast<MemIntrinsicSDNode>(User)->getMemoryVT().getSizeInBits() ==		cast<MemIntrinsicSDNode>(User)->getMemoryVT().getSizeInBits() ==
MemVT.getSizeInBits() &&		MemVT.getSizeInBits() &&
!User->hasAnyUseOfValue(1) &&		!User->hasAnyUseOfValue(1) &&
User->getValueSizeInBits(0).getFixedSize() > VT.getFixedSizeInBits()) {		User->getValueSizeInBits(0).getFixedSize() > VT.getFixedSizeInBits()) {
SDValue Extract = extractSubVector(SDValue(User, 0), 0, DAG, SDLoc(N),		SDValue Extract = extractSubVector(SDValue(User, 0), 0, DAG, SDLoc(N),
VT.getSizeInBits());		VT.getSizeInBits());
▲ Show 20 Lines • Show All 240 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
case X86ISD::PMULDQ:		case X86ISD::PMULDQ:
case X86ISD::PMULUDQ: return combinePMULDQ(N, DAG, DCI, Subtarget);		case X86ISD::PMULUDQ: return combinePMULDQ(N, DAG, DCI, Subtarget);
case X86ISD::KSHIFTL:		case X86ISD::KSHIFTL:
case X86ISD::KSHIFTR: return combineKSHIFT(N, DAG, DCI);		case X86ISD::KSHIFTR: return combineKSHIFT(N, DAG, DCI);
case ISD::FP16_TO_FP: return combineFP16_TO_FP(N, DAG, Subtarget);		case ISD::FP16_TO_FP: return combineFP16_TO_FP(N, DAG, Subtarget);
case ISD::STRICT_FP_EXTEND:		case ISD::STRICT_FP_EXTEND:
case ISD::FP_EXTEND: return combineFP_EXTEND(N, DAG, Subtarget);		case ISD::FP_EXTEND: return combineFP_EXTEND(N, DAG, Subtarget);
case ISD::FP_ROUND: return combineFP_ROUND(N, DAG, Subtarget);		case ISD::FP_ROUND: return combineFP_ROUND(N, DAG, Subtarget);
case X86ISD::VBROADCAST_LOAD: return combineVBROADCAST_LOAD(N, DAG, DCI);		case X86ISD::VBROADCAST_LOAD:
		case X86ISD::SUBV_BROADCAST_LOAD: return combineBROADCAST_LOAD(N, DAG, DCI);
case X86ISD::MOVDQ2Q: return combineMOVDQ2Q(N, DAG);		case X86ISD::MOVDQ2Q: return combineMOVDQ2Q(N, DAG);
case X86ISD::PDEP: return combinePDEP(N, DAG, DCI);		case X86ISD::PDEP: return combinePDEP(N, DAG, DCI);
}		}

return SDValue();		return SDValue();
}		}

bool X86TargetLowering::isTypeDesirableForOp(unsigned Opc, EVT VT) const {		bool X86TargetLowering::isTypeDesirableForOp(unsigned Opc, EVT VT) const {
▲ Show 20 Lines • Show All 1,257 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,450 Lines • ▼ Show 20 Lines
	defm VBROADCASTI64X4 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti64x4",			defm VBROADCASTI64X4 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti64x4",
	v8i64_info, v4i64x_info>, VEX_W,			v8i64_info, v4i64x_info>, VEX_W,
	EVEX_V512, EVEX_CD8<64, CD8VT4>;			EVEX_V512, EVEX_CD8<64, CD8VT4>;
	defm VBROADCASTF64X4 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf64x4",			defm VBROADCASTF64X4 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf64x4",
	v8f64_info, v4f64x_info>, VEX_W,			v8f64_info, v4f64x_info>, VEX_W,
	EVEX_V512, EVEX_CD8<64, CD8VT4>;			EVEX_V512, EVEX_CD8<64, CD8VT4>;

	let Predicates = [HasAVX512] in {			let Predicates = [HasAVX512] in {
				def : Pat<(v8f64 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTF64X4rm addr:$src)>;
				def : Pat<(v16f32 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTF64X4rm addr:$src)>;
				def : Pat<(v8i64 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTI64X4rm addr:$src)>;
				def : Pat<(v16i32 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTI64X4rm addr:$src)>;
				def : Pat<(v32i16 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTI64X4rm addr:$src)>;
				def : Pat<(v64i8 (X86SubVBroadcastld256 addr:$src)),
				(VBROADCASTI64X4rm addr:$src)>;

				def : Pat<(v8f64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF32X4rm addr:$src)>;
				def : Pat<(v16f32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF32X4rm addr:$src)>;
				def : Pat<(v8i64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4rm addr:$src)>;
				def : Pat<(v16i32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4rm addr:$src)>;
				def : Pat<(v32i16 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4rm addr:$src)>;
				def : Pat<(v64i8 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4rm addr:$src)>;

	def : Pat<(v16f32 (X86SubVBroadcast (loadv8f32 addr:$src))),			def : Pat<(v16f32 (X86SubVBroadcast (loadv8f32 addr:$src))),
	(VBROADCASTF64X4rm addr:$src)>;			(VBROADCASTF64X4rm addr:$src)>;
	def : Pat<(v16i32 (X86SubVBroadcast (loadv8i32 addr:$src))),			def : Pat<(v16i32 (X86SubVBroadcast (loadv8i32 addr:$src))),
	(VBROADCASTI64X4rm addr:$src)>;			(VBROADCASTI64X4rm addr:$src)>;
	def : Pat<(v32i16 (X86SubVBroadcast (loadv16i16 addr:$src))),			def : Pat<(v32i16 (X86SubVBroadcast (loadv16i16 addr:$src))),
	(VBROADCASTI64X4rm addr:$src)>;			(VBROADCASTI64X4rm addr:$src)>;
	def : Pat<(v64i8 (X86SubVBroadcast (loadv32i8 addr:$src))),			def : Pat<(v64i8 (X86SubVBroadcast (loadv32i8 addr:$src))),
	(VBROADCASTI64X4rm addr:$src)>;			(VBROADCASTI64X4rm addr:$src)>;
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	let Predicates = [HasVLX] in {			let Predicates = [HasVLX] in {
	defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",			defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",
	v8i32x_info, v4i32x_info>,			v8i32x_info, v4i32x_info>,
	EVEX_V256, EVEX_CD8<32, CD8VT4>;			EVEX_V256, EVEX_CD8<32, CD8VT4>;
	defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",			defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",
	v8f32x_info, v4f32x_info>,			v8f32x_info, v4f32x_info>,
	EVEX_V256, EVEX_CD8<32, CD8VT4>;			EVEX_V256, EVEX_CD8<32, CD8VT4>;

				def : Pat<(v4f64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF32X4Z256rm addr:$src)>;
				def : Pat<(v8f32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF32X4Z256rm addr:$src)>;
				def : Pat<(v4i64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4Z256rm addr:$src)>;
				def : Pat<(v8i32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4Z256rm addr:$src)>;
				def : Pat<(v16i16 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4Z256rm addr:$src)>;
				def : Pat<(v32i8 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTI32X4Z256rm addr:$src)>;

	def : Pat<(v4f64 (X86SubVBroadcast (loadv2f64 addr:$src))),			def : Pat<(v4f64 (X86SubVBroadcast (loadv2f64 addr:$src))),
	(VBROADCASTF32X4Z256rm addr:$src)>;			(VBROADCASTF32X4Z256rm addr:$src)>;
	def : Pat<(v4i64 (X86SubVBroadcast (loadv2i64 addr:$src))),			def : Pat<(v4i64 (X86SubVBroadcast (loadv2i64 addr:$src))),
	(VBROADCASTI32X4Z256rm addr:$src)>;			(VBROADCASTI32X4Z256rm addr:$src)>;
	def : Pat<(v16i16 (X86SubVBroadcast (loadv8i16 addr:$src))),			def : Pat<(v16i16 (X86SubVBroadcast (loadv8i16 addr:$src))),
	(VBROADCASTI32X4Z256rm addr:$src)>;			(VBROADCASTI32X4Z256rm addr:$src)>;
	def : Pat<(v32i8 (X86SubVBroadcast (loadv16i8 addr:$src))),			def : Pat<(v32i8 (X86SubVBroadcast (loadv16i8 addr:$src))),
	(VBROADCASTI32X4Z256rm addr:$src)>;			(VBROADCASTI32X4Z256rm addr:$src)>;
	▲ Show 20 Lines • Show All 10,752 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines	def X86vzmovl : SDNode<"X86ISD::VZEXT_MOVL",
SDTypeProfile<1, 1, [SDTCisSameAs<0,1>]>>;		SDTypeProfile<1, 1, [SDTCisSameAs<0,1>]>>;

def X86vzld : SDNode<"X86ISD::VZEXT_LOAD", SDTLoad,		def X86vzld : SDNode<"X86ISD::VZEXT_LOAD", SDTLoad,
[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;
def X86vextractst : SDNode<"X86ISD::VEXTRACT_STORE", SDTStore,		def X86vextractst : SDNode<"X86ISD::VEXTRACT_STORE", SDTStore,
[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;
def X86VBroadcastld : SDNode<"X86ISD::VBROADCAST_LOAD", SDTLoad,		def X86VBroadcastld : SDNode<"X86ISD::VBROADCAST_LOAD", SDTLoad,
[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;
		def X86SubVBroadcastld : SDNode<"X86ISD::SUBV_BROADCAST_LOAD", SDTLoad,
		[SDNPHasChain, SDNPMayLoad, SDNPMemOperand]>;

def SDTVtrunc : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisVec<1>,		def SDTVtrunc : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisVec<1>,
SDTCisInt<0>, SDTCisInt<1>,		SDTCisInt<0>, SDTCisInt<1>,
SDTCisOpSmallerThanOp<0, 1>]>;		SDTCisOpSmallerThanOp<0, 1>]>;
def SDTVmtrunc : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisVec<1>,		def SDTVmtrunc : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisVec<1>,
SDTCisInt<0>, SDTCisInt<1>,		SDTCisInt<0>, SDTCisInt<1>,
SDTCisOpSmallerThanOp<0, 1>,		SDTCisOpSmallerThanOp<0, 1>,
SDTCisSameAs<0, 2>,		SDTCisSameAs<0, 2>,
▲ Show 20 Lines • Show All 840 Lines • ▼ Show 20 Lines	def X86VBroadcastld32 : PatFrag<(ops node:$src),
return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 4;		return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 4;
}]>;		}]>;

def X86VBroadcastld64 : PatFrag<(ops node:$src),		def X86VBroadcastld64 : PatFrag<(ops node:$src),
(X86VBroadcastld node:$src), [{		(X86VBroadcastld node:$src), [{
return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 8;		return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 8;
}]>;		}]>;

		def X86SubVBroadcastld128 : PatFrag<(ops node:$src),
		(X86SubVBroadcastld node:$src), [{
		return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 16;
		}]>;

		def X86SubVBroadcastld256 : PatFrag<(ops node:$src),
		(X86SubVBroadcastld node:$src), [{
		return cast<MemIntrinsicSDNode>(N)->getMemoryVT().getStoreSize() == 32;
		}]>;

// Scalar SSE intrinsic fragments to match several different types of loads.		// Scalar SSE intrinsic fragments to match several different types of loads.
// Used by scalar SSE intrinsic instructions which have 128 bit types, but		// Used by scalar SSE intrinsic instructions which have 128 bit types, but
// only load a single element.		// only load a single element.
// FIXME: We should add more canolicalizing in DAGCombine. Particulary removing		// FIXME: We should add more canolicalizing in DAGCombine. Particulary removing
// the simple_load case.		// the simple_load case.
def sse_load_f32 : PatFrags<(ops node:$ptr),		def sse_load_f32 : PatFrags<(ops node:$ptr),
[(v4f32 (simple_load node:$ptr)),		[(v4f32 (simple_load node:$ptr)),
(v4f32 (X86vzload32 node:$ptr)),		(v4f32 (X86vzload32 node:$ptr)),
▲ Show 20 Lines • Show All 214 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 7,010 Lines • ▼ Show 20 Lines
	let mayLoad = 1, hasSideEffects = 0, Predicates = [HasAVX],			let mayLoad = 1, hasSideEffects = 0, Predicates = [HasAVX],
	ExeDomain = SSEPackedSingle in			ExeDomain = SSEPackedSingle in
	def VBROADCASTF128 : AVX8I<0x1A, MRMSrcMem, (outs VR256:$dst),			def VBROADCASTF128 : AVX8I<0x1A, MRMSrcMem, (outs VR256:$dst),
	(ins f128mem:$src),			(ins f128mem:$src),
	"vbroadcastf128\t{$src, $dst\|$dst, $src}", []>,			"vbroadcastf128\t{$src, $dst\|$dst, $src}", []>,
	Sched<[SchedWriteFShuffle.XMM.Folded]>, VEX, VEX_L;			Sched<[SchedWriteFShuffle.XMM.Folded]>, VEX, VEX_L;

	let Predicates = [HasAVX, NoVLX] in {			let Predicates = [HasAVX, NoVLX] in {
				def : Pat<(v4f64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;
				def : Pat<(v8f32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;

	def : Pat<(v4f64 (X86SubVBroadcast (loadv2f64 addr:$src))),			def : Pat<(v4f64 (X86SubVBroadcast (loadv2f64 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	def : Pat<(v8f32 (X86SubVBroadcast (loadv4f32 addr:$src))),			def : Pat<(v8f32 (X86SubVBroadcast (loadv4f32 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	}			}

	// NOTE: We're using FP instructions here, but execution domain fixing can			// NOTE: We're using FP instructions here, but execution domain fixing can
	// convert to integer when profitable.			// convert to integer when profitable.
	let Predicates = [HasAVX, NoVLX] in {			let Predicates = [HasAVX, NoVLX] in {
				def : Pat<(v4i64 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;
				def : Pat<(v8i32 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;
				def : Pat<(v16i16 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;
				def : Pat<(v32i8 (X86SubVBroadcastld128 addr:$src)),
				(VBROADCASTF128 addr:$src)>;

	def : Pat<(v4i64 (X86SubVBroadcast (loadv2i64 addr:$src))),			def : Pat<(v4i64 (X86SubVBroadcast (loadv2i64 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	def : Pat<(v8i32 (X86SubVBroadcast (loadv4i32 addr:$src))),			def : Pat<(v8i32 (X86SubVBroadcast (loadv4i32 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	def : Pat<(v16i16 (X86SubVBroadcast (loadv8i16 addr:$src))),			def : Pat<(v16i16 (X86SubVBroadcast (loadv8i16 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	def : Pat<(v32i8 (X86SubVBroadcast (loadv16i8 addr:$src))),			def : Pat<(v32i8 (X86SubVBroadcast (loadv16i8 addr:$src))),
	(VBROADCASTF128 addr:$src)>;			(VBROADCASTF128 addr:$src)>;
	▲ Show 20 Lines • Show All 997 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

Show First 20 Lines • Show All 487 Lines • ▼ Show 20 Lines	; AVX512BW-64-NEXT: retq
%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %res1		%res2 = and <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>, %res1
ret <64 x i8> %res2		ret <64 x i8> %res2
}		}


define <64 x i8> @f64xi8_i128(<64 x i8> %a) {		define <64 x i8> @f64xi8_i128(<64 x i8> %a) {
; AVX-LABEL: f64xi8_i128:		; AVX-LABEL: f64xi8_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddb %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vpaddb %xmm2, %xmm1, %xmm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddb %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f64xi8_i128:		; AVX2-LABEL: f64xi8_i128:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX2-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-NEXT: # ymm2 = mem[0,1,0,1]
; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpaddb %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-NEXT: retl		; AVX2-NEXT: retl
;		;
; AVX512BW-LABEL: f64xi8_i128:		; AVX512BW-LABEL: f64xi8_i128:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f64xi8_i128:		; AVX-64-LABEL: f64xi8_i128:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX-64-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-64-NEXT: vpaddb %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddb %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vpaddb %xmm2, %xmm1, %xmm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-64-NEXT: vpaddb %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-64-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddb %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; AVX2-64-LABEL: f64xi8_i128:		; AVX2-64-LABEL: f64xi8_i128:
; AVX2-64: # %bb.0:		; AVX2-64: # %bb.0:
; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]		; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 418 Lines • ▼ Show 20 Lines	; AVX512BW-64-NEXT: retq
%res2 = and <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3>, %res1		%res2 = and <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3, i16 0, i16 1, i16 2, i16 3>, %res1
ret <32 x i16> %res2		ret <32 x i16> %res2
}		}


define <32 x i16> @f32xi16_i128(<32 x i16> %a) {		define <32 x i16> @f32xi16_i128(<32 x i16> %a) {
; AVX-LABEL: f32xi16_i128:		; AVX-LABEL: f32xi16_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]		; AVX-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddw %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vpaddw %xmm2, %xmm1, %xmm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vpaddw %xmm2, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f32xi16_i128:		; AVX2-LABEL: f32xi16_i128:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; AVX2-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-NEXT: # ymm2 = mem[0,1,0,1]
; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpaddw %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddw %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-NEXT: retl		; AVX2-NEXT: retl
;		;
; AVX512BW-LABEL: f32xi16_i128:		; AVX512BW-LABEL: f32xi16_i128:
; AVX512BW: # %bb.0:		; AVX512BW: # %bb.0:
; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpaddw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0		; AVX512BW-NEXT: vpandq %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retl		; AVX512BW-NEXT: retl
;		;
; AVX-64-LABEL: f32xi16_i128:		; AVX-64-LABEL: f32xi16_i128:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3,4,5,6,7]		; AVX-64-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-64-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddw %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vpaddw %xmm2, %xmm1, %xmm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-64-NEXT: vpaddw %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-64-NEXT: vpaddw %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddw %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vpaddw %xmm2, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; AVX2-64-LABEL: f32xi16_i128:		; AVX2-64-LABEL: f32xi16_i128:
; AVX2-64: # %bb.0:		; AVX2-64: # %bb.0:
; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]		; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines	; AVX512F-64-NEXT: retq
%res2 = and <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %res1		%res2 = and <16 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>, %res1
ret <16 x i32> %res2		ret <16 x i32> %res2
}		}


define <16 x i32> @f16xi32_i128(<16 x i32> %a) {		define <16 x i32> @f16xi32_i128(<16 x i32> %a) {
; AVX-LABEL: f16xi32_i128:		; AVX-LABEL: f16xi32_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]		; AVX-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddd %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vpaddd %xmm2, %xmm1, %xmm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddd %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vpaddd %xmm2, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f16xi32_i128:		; AVX2-LABEL: f16xi32_i128:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX2-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-NEXT: # ymm2 = mem[0,1,0,1]
; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1		; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
; AVX2-NEXT: retl		; AVX2-NEXT: retl
;		;
; AVX512-LABEL: f16xi32_i128:		; AVX512-LABEL: f16xi32_i128:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]		; AVX512-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: retl		; AVX512-NEXT: retl
;		;
; AVX-64-LABEL: f16xi32_i128:		; AVX-64-LABEL: f16xi32_i128:
; AVX-64: # %bb.0:		; AVX-64: # %bb.0:
; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-64-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX-64-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,2,3]		; AVX-64-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-64-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX-64-NEXT: vpaddd %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-64-NEXT: vpaddd %xmm2, %xmm1, %xmm1
; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-64-NEXT: vpaddd %xmm3, %xmm2, %xmm2		; AVX-64-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-64-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX-64-NEXT: vpaddd %xmm2, %xmm3, %xmm3
; AVX-64-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-64-NEXT: vpaddd %xmm2, %xmm0, %xmm0
; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-64-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-64-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-64-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-64-NEXT: retq		; AVX-64-NEXT: retq
;		;
; AVX2-64-LABEL: f16xi32_i128:		; AVX2-64-LABEL: f16xi32_i128:
; AVX2-64: # %bb.0:		; AVX2-64: # %bb.0:
; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]		; AVX2-64-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,1,2,3,0,1,2,3]
; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-64-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	; ALL64-NEXT: retq
%res2 = and <4 x i64> <i64 0, i64 1, i64 0, i64 1>, %res1		%res2 = and <4 x i64> <i64 0, i64 1, i64 0, i64 1>, %res1
ret <4 x i64> %res2		ret <4 x i64> %res2
}		}


define <8 x i64> @f8xi64_i128(<8 x i64> %a) {		define <8 x i64> @f8xi64_i128(<8 x i64> %a) {
; AVX-LABEL: f8xi64_i128:		; AVX-LABEL: f8xi64_i128:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX-NEXT: vbroadcastf128 {{.*#+}} ymm2 = [0,0,1,0,0,0,1,0]
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,0,1,0]		; AVX-NEXT: # ymm2 = mem[0,1,0,1]
; AVX-NEXT: vpaddq %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX-NEXT: vpaddq %xmm3, %xmm1, %xmm1		; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1		; AVX-NEXT: vpaddq %xmm2, %xmm1, %xmm1
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX-NEXT: vpaddq %xmm3, %xmm2, %xmm2		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX-NEXT: vpaddq %xmm3, %xmm0, %xmm0		; AVX-NEXT: vpaddq %xmm2, %xmm3, %xmm3
; AVX-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX-NEXT: vpaddq %xmm2, %xmm0, %xmm0
; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm2		; AVX-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: retl		; AVX-NEXT: retl
;		;
; AVX2-LABEL: f8xi64_i128:		; AVX2-LABEL: f8xi64_i128:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,0,1,0,0,0,1,0]		; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm2 = [0,0,1,0,0,0,1,0]
; AVX2-NEXT: # ymm2 = mem[0,1,0,1]		; AVX2-NEXT: # ymm2 = mem[0,1,0,1]
▲ Show 20 Lines • Show All 611 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 764 Lines • ▼ Show 20 Lines
	; X86-AVX2-NEXT: vmovdqu %ymm0, ga4			; X86-AVX2-NEXT: vmovdqu %ymm0, ga4
	; X86-AVX2-NEXT: vmovdqu %ymm2, gb4+32			; X86-AVX2-NEXT: vmovdqu %ymm2, gb4+32
	; X86-AVX2-NEXT: vmovdqu %ymm1, gb4			; X86-AVX2-NEXT: vmovdqu %ymm1, gb4
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X86-AVX512-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X86-AVX512-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X86-AVX512: # %bb.0: # %entry			; X86-AVX512: # %bb.0: # %entry
	; X86-AVX512-NEXT: vmovdqa {{.*#+}} ymm2 = [1,0,2,0,3,0,4,0]			; X86-AVX512-NEXT: vbroadcasti64x4 {{.*#+}} zmm2 = [1,0,2,0,3,0,4,0,1,0,2,0,3,0,4,0]
				; X86-AVX512-NEXT: # zmm2 = mem[0,1,2,3,0,1,2,3]
	; X86-AVX512-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; X86-AVX512-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; X86-AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm2, %zmm2
	; X86-AVX512-NEXT: vpaddq %zmm2, %zmm1, %zmm1			; X86-AVX512-NEXT: vpaddq %zmm2, %zmm1, %zmm1
	; X86-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1			; X86-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1
	; X86-AVX512-NEXT: vmovdqu %ymm0, ga4			; X86-AVX512-NEXT: vmovdqu %ymm0, ga4
	; X86-AVX512-NEXT: vmovdqu64 %zmm1, gb4			; X86-AVX512-NEXT: vmovdqu64 %zmm1, gb4
	; X86-AVX512-NEXT: vzeroupper			; X86-AVX512-NEXT: vzeroupper
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	;			;
	; X64-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X64-AVX1-LABEL: fallback_broadcast_v4i64_to_v8i64:
	Show All 32 Lines
	; X64-AVX2-NEXT: vmovdqu %ymm0, {{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm0, {{.*}}(%rip)
	; X64-AVX2-NEXT: vmovdqu %ymm2, gb4+{{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm2, gb4+{{.*}}(%rip)
	; X64-AVX2-NEXT: vmovdqu %ymm1, {{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm1, {{.*}}(%rip)
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: fallback_broadcast_v4i64_to_v8i64:			; X64-AVX512-LABEL: fallback_broadcast_v4i64_to_v8i64:
	; X64-AVX512: # %bb.0: # %entry			; X64-AVX512: # %bb.0: # %entry
	; X64-AVX512-NEXT: vmovdqa {{.*#+}} ymm2 = [1,2,3,4]			; X64-AVX512-NEXT: vbroadcasti64x4 {{.*#+}} zmm2 = [1,2,3,4,1,2,3,4]
				; X64-AVX512-NEXT: # zmm2 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; X64-AVX512-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; X64-AVX512-NEXT: vinserti64x4 $1, %ymm2, %zmm2, %zmm2
	yubingUnsubmitted Not Done Reply Inline Actions Hi, Simon. I have a question about previous code. Before ISEL, there are the following nodes: t42: i32 = X86ISD::Wrapper TargetConstantPool:i32<<8 x i32> <i32 1, i32 0, i32 2, i32 0, i32 3, i32 0, i32 4, i32 0>> 0 t35: v8i32,ch = load<(load 32 from constant-pool)> t0, t42, undef:i32 t36: v16i32 = X86ISD::SUBV_BROADCAST t35 But they are not morphed into vbroadcasti64x4. Did you know why? yubing: Hi, Simon. I have a question about previous code. Before ISEL, there are the following nodes…
	RKSimonAuthorUnsubmitted Done Reply Inline Actions Its because the original ymm load (t35) has multiple uses so the pattern in tablegen doesn't match. RKSimon: Its because the original ymm load (t35) has multiple uses so the pattern in tablegen doesn't…
	; X64-AVX512-NEXT: vpaddq %zmm2, %zmm1, %zmm1			; X64-AVX512-NEXT: vpaddq %zmm2, %zmm1, %zmm1
	; X64-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1			; X64-AVX512-NEXT: vpandq %zmm2, %zmm1, %zmm1
	; X64-AVX512-NEXT: vmovdqu %ymm0, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovdqu %ymm0, {{.*}}(%rip)
	; X64-AVX512-NEXT: vmovdqu64 %zmm1, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovdqu64 %zmm1, {{.*}}(%rip)
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	entry:			entry:
	%0 = add <4 x i64> %a, <i64 1, i64 2, i64 3, i64 4>			%0 = add <4 x i64> %a, <i64 1, i64 2, i64 3, i64 4>
	Show All 20 Lines
	; X86-AVX-NEXT: vmovupd %ymm0, ga2			; X86-AVX-NEXT: vmovupd %ymm0, ga2
	; X86-AVX-NEXT: vmovupd %ymm2, gb2+32			; X86-AVX-NEXT: vmovupd %ymm2, gb2+32
	; X86-AVX-NEXT: vmovupd %ymm1, gb2			; X86-AVX-NEXT: vmovupd %ymm1, gb2
	; X86-AVX-NEXT: vzeroupper			; X86-AVX-NEXT: vzeroupper
	; X86-AVX-NEXT: retl			; X86-AVX-NEXT: retl
	;			;
	; X86-AVX512-LABEL: fallback_broadcast_v4f64_to_v8f64:			; X86-AVX512-LABEL: fallback_broadcast_v4f64_to_v8f64:
	; X86-AVX512: # %bb.0: # %entry			; X86-AVX512: # %bb.0: # %entry
	; X86-AVX512-NEXT: vmovapd {{.*#+}} ymm2 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0]			; X86-AVX512-NEXT: vbroadcastf64x4 {{.*#+}} zmm2 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0,1.0E+0,2.0E+0,3.0E+0,4.0E+0]
				; X86-AVX512-NEXT: # zmm2 = mem[0,1,2,3,0,1,2,3]
	; X86-AVX512-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; X86-AVX512-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; X86-AVX512-NEXT: vinsertf64x4 $1, %ymm2, %zmm2, %zmm2
	; X86-AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1			; X86-AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; X86-AVX512-NEXT: vdivpd %zmm2, %zmm1, %zmm1			; X86-AVX512-NEXT: vdivpd %zmm2, %zmm1, %zmm1
	; X86-AVX512-NEXT: vmovupd %ymm0, ga2			; X86-AVX512-NEXT: vmovupd %ymm0, ga2
	; X86-AVX512-NEXT: vmovupd %zmm1, gb2			; X86-AVX512-NEXT: vmovupd %zmm1, gb2
	; X86-AVX512-NEXT: vzeroupper			; X86-AVX512-NEXT: vzeroupper
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	;			;
	; X64-AVX-LABEL: fallback_broadcast_v4f64_to_v8f64:			; X64-AVX-LABEL: fallback_broadcast_v4f64_to_v8f64:
	; X64-AVX: # %bb.0: # %entry			; X64-AVX: # %bb.0: # %entry
	; X64-AVX-NEXT: vmovapd {{.*#+}} ymm3 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0]			; X64-AVX-NEXT: vmovapd {{.*#+}} ymm3 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0]
	; X64-AVX-NEXT: vaddpd %ymm3, %ymm0, %ymm0			; X64-AVX-NEXT: vaddpd %ymm3, %ymm0, %ymm0
	; X64-AVX-NEXT: vaddpd %ymm3, %ymm2, %ymm2			; X64-AVX-NEXT: vaddpd %ymm3, %ymm2, %ymm2
	; X64-AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; X64-AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; X64-AVX-NEXT: vdivpd %ymm3, %ymm1, %ymm1			; X64-AVX-NEXT: vdivpd %ymm3, %ymm1, %ymm1
	; X64-AVX-NEXT: vdivpd %ymm3, %ymm2, %ymm2			; X64-AVX-NEXT: vdivpd %ymm3, %ymm2, %ymm2
	; X64-AVX-NEXT: vmovupd %ymm0, {{.*}}(%rip)			; X64-AVX-NEXT: vmovupd %ymm0, {{.*}}(%rip)
	; X64-AVX-NEXT: vmovupd %ymm2, gb2+{{.*}}(%rip)			; X64-AVX-NEXT: vmovupd %ymm2, gb2+{{.*}}(%rip)
	; X64-AVX-NEXT: vmovupd %ymm1, {{.*}}(%rip)			; X64-AVX-NEXT: vmovupd %ymm1, {{.*}}(%rip)
	; X64-AVX-NEXT: vzeroupper			; X64-AVX-NEXT: vzeroupper
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512-LABEL: fallback_broadcast_v4f64_to_v8f64:			; X64-AVX512-LABEL: fallback_broadcast_v4f64_to_v8f64:
	; X64-AVX512: # %bb.0: # %entry			; X64-AVX512: # %bb.0: # %entry
	; X64-AVX512-NEXT: vmovapd {{.*#+}} ymm2 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0]			; X64-AVX512-NEXT: vbroadcastf64x4 {{.*#+}} zmm2 = [1.0E+0,2.0E+0,3.0E+0,4.0E+0,1.0E+0,2.0E+0,3.0E+0,4.0E+0]
				; X64-AVX512-NEXT: # zmm2 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; X64-AVX512-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; X64-AVX512-NEXT: vinsertf64x4 $1, %ymm2, %zmm2, %zmm2
	; X64-AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1			; X64-AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; X64-AVX512-NEXT: vdivpd %zmm2, %zmm1, %zmm1			; X64-AVX512-NEXT: vdivpd %zmm2, %zmm1, %zmm1
	; X64-AVX512-NEXT: vmovupd %ymm0, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovupd %ymm0, {{.*}}(%rip)
	; X64-AVX512-NEXT: vmovupd %zmm1, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovupd %zmm1, {{.*}}(%rip)
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	entry:			entry:
	%0 = fadd <4 x double> %a, <double 1.0, double 2.0, double 3.0, double 4.0>			%0 = fadd <4 x double> %a, <double 1.0, double 2.0, double 3.0, double 4.0>
	Show All 10 Lines

	define void @fallback_broadcast_v4i32_v8i32_v16i32(<4 x i32> %a, <8 x i32> %b, <16 x i32> %c) nounwind {			define void @fallback_broadcast_v4i32_v8i32_v16i32(<4 x i32> %a, <8 x i32> %b, <16 x i32> %c) nounwind {
	; X86-AVX1-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X86-AVX1-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X86-AVX1: # %bb.0: # %entry			; X86-AVX1: # %bb.0: # %entry
	; X86-AVX1-NEXT: pushl %ebp			; X86-AVX1-NEXT: pushl %ebp
	; X86-AVX1-NEXT: movl %esp, %ebp			; X86-AVX1-NEXT: movl %esp, %ebp
	; X86-AVX1-NEXT: andl $-32, %esp			; X86-AVX1-NEXT: andl $-32, %esp
	; X86-AVX1-NEXT: subl $32, %esp			; X86-AVX1-NEXT: subl $32, %esp
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,2,3,4]			; X86-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm3 = [1,2,3,4,1,2,3,4]
				; X86-AVX1-NEXT: # ymm3 = mem[0,1,0,1]
	; X86-AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; X86-AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; X86-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; X86-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; X86-AVX1-NEXT: vpaddd %xmm3, %xmm4, %xmm4			; X86-AVX1-NEXT: vpaddd %xmm3, %xmm4, %xmm4
	; X86-AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1			; X86-AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1			; X86-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm4			; X86-AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; X86-AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; X86-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; X86-AVX1-NEXT: vpaddd %xmm3, %xmm4, %xmm4
	; X86-AVX1-NEXT: vpaddd %xmm3, %xmm5, %xmm5
	; X86-AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; X86-AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2			; X86-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; X86-AVX1-NEXT: vpaddd 8(%ebp), %xmm3, %xmm5			; X86-AVX1-NEXT: vpaddd 8(%ebp), %xmm3, %xmm4
	; X86-AVX1-NEXT: vpaddd 24(%ebp), %xmm3, %xmm3			; X86-AVX1-NEXT: vpaddd 24(%ebp), %xmm3, %xmm5
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; X86-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm4, %ymm4
	; X86-AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2			; X86-AVX1-NEXT: vandps %ymm3, %ymm2, %ymm2
	; X86-AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3			; X86-AVX1-NEXT: vandps %ymm3, %ymm4, %ymm3
	; X86-AVX1-NEXT: vmovdqu %xmm0, ha4			; X86-AVX1-NEXT: vmovdqu %xmm0, ha4
	; X86-AVX1-NEXT: vmovups %ymm1, hb4			; X86-AVX1-NEXT: vmovups %ymm1, hb4
	; X86-AVX1-NEXT: vmovups %ymm3, hc4+32			; X86-AVX1-NEXT: vmovups %ymm3, hc4+32
	; X86-AVX1-NEXT: vmovups %ymm2, hc4			; X86-AVX1-NEXT: vmovups %ymm2, hc4
	; X86-AVX1-NEXT: movl %ebp, %esp			; X86-AVX1-NEXT: movl %ebp, %esp
	; X86-AVX1-NEXT: popl %ebp			; X86-AVX1-NEXT: popl %ebp
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X86-AVX2-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X86-AVX2: # %bb.0: # %entry			; X86-AVX2: # %bb.0: # %entry
	; X86-AVX2-NEXT: pushl %ebp			; X86-AVX2-NEXT: pushl %ebp
	; X86-AVX2-NEXT: movl %esp, %ebp			; X86-AVX2-NEXT: movl %esp, %ebp
	; X86-AVX2-NEXT: andl $-32, %esp			; X86-AVX2-NEXT: andl $-32, %esp
	; X86-AVX2-NEXT: subl $32, %esp			; X86-AVX2-NEXT: subl $32, %esp
	; X86-AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [1,2,3,4]			; X86-AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm3 = [1,2,3,4,1,2,3,4]
				; X86-AVX2-NEXT: # ymm3 = mem[0,1,0,1]
	; X86-AVX2-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; X86-AVX2-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; X86-AVX2-NEXT: vinserti128 $1, %xmm3, %ymm3, %ymm3
	; X86-AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; X86-AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; X86-AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; X86-AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; X86-AVX2-NEXT: vpaddd 8(%ebp), %ymm3, %ymm4
	; X86-AVX2-NEXT: vpaddd %ymm3, %ymm2, %ymm2			; X86-AVX2-NEXT: vpaddd %ymm3, %ymm2, %ymm2
				; X86-AVX2-NEXT: vpaddd 8(%ebp), %ymm3, %ymm4
	; X86-AVX2-NEXT: vpand %ymm3, %ymm2, %ymm2			; X86-AVX2-NEXT: vpand %ymm3, %ymm2, %ymm2
	; X86-AVX2-NEXT: vpand %ymm3, %ymm4, %ymm3			; X86-AVX2-NEXT: vpand %ymm3, %ymm4, %ymm3
	; X86-AVX2-NEXT: vmovdqu %xmm0, ha4			; X86-AVX2-NEXT: vmovdqu %xmm0, ha4
	; X86-AVX2-NEXT: vmovdqu %ymm1, hb4			; X86-AVX2-NEXT: vmovdqu %ymm1, hb4
	; X86-AVX2-NEXT: vmovdqu %ymm3, hc4+32			; X86-AVX2-NEXT: vmovdqu %ymm3, hc4+32
	; X86-AVX2-NEXT: vmovdqu %ymm2, hc4			; X86-AVX2-NEXT: vmovdqu %ymm2, hc4
	; X86-AVX2-NEXT: movl %ebp, %esp			; X86-AVX2-NEXT: movl %ebp, %esp
	; X86-AVX2-NEXT: popl %ebp			; X86-AVX2-NEXT: popl %ebp
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X86-AVX512-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X86-AVX512-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X86-AVX512: # %bb.0: # %entry			; X86-AVX512: # %bb.0: # %entry
	; X86-AVX512-NEXT: vmovdqa {{.*#+}} xmm3 = [1,2,3,4]			; X86-AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm3 = [1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4]
				; X86-AVX512-NEXT: # zmm3 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X86-AVX512-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; X86-AVX512-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; X86-AVX512-NEXT: vinserti128 $1, %xmm3, %ymm3, %ymm4			; X86-AVX512-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; X86-AVX512-NEXT: vpaddd %ymm4, %ymm1, %ymm1			; X86-AVX512-NEXT: vpand %ymm3, %ymm1, %ymm1
	; X86-AVX512-NEXT: vpand %ymm4, %ymm1, %ymm1
	; X86-AVX512-NEXT: vshufi32x4 {{.*#+}} zmm3 = zmm3[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X86-AVX512-NEXT: vpaddd %zmm3, %zmm2, %zmm2			; X86-AVX512-NEXT: vpaddd %zmm3, %zmm2, %zmm2
	; X86-AVX512-NEXT: vpandd %zmm3, %zmm2, %zmm2			; X86-AVX512-NEXT: vpandd %zmm3, %zmm2, %zmm2
	; X86-AVX512-NEXT: vmovdqu %xmm0, ha4			; X86-AVX512-NEXT: vmovdqu %xmm0, ha4
	; X86-AVX512-NEXT: vmovdqu %ymm1, hb4			; X86-AVX512-NEXT: vmovdqu %ymm1, hb4
	; X86-AVX512-NEXT: vmovdqu64 %zmm2, hc4			; X86-AVX512-NEXT: vmovdqu64 %zmm2, hc4
	; X86-AVX512-NEXT: vzeroupper			; X86-AVX512-NEXT: vzeroupper
	; X86-AVX512-NEXT: retl			; X86-AVX512-NEXT: retl
	;			;
	; X64-AVX1-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X64-AVX1-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X64-AVX1: # %bb.0: # %entry			; X64-AVX1: # %bb.0: # %entry
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,2,3,4]			; X64-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm4 = [1,2,3,4,1,2,3,4]
				; X64-AVX1-NEXT: # ymm4 = mem[0,1,0,1]
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm0, %xmm0
	; X64-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; X64-AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm5			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm5
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1			; X64-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm1, %ymm1
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm5			; X64-AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1
	; X64-AVX1-NEXT: vandps %ymm5, %ymm1, %ymm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	; X64-AVX1-NEXT: vextractf128 $1, %ymm3, %xmm6			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm5
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm6, %xmm6
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm3, %ymm3			; X64-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3
	; X64-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm6			; X64-AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm6, %xmm6			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm5
	; X64-AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2			; X64-AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm6, %ymm2, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2
	; X64-AVX1-NEXT: vandps %ymm5, %ymm2, %ymm2			; X64-AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2
	; X64-AVX1-NEXT: vandps %ymm5, %ymm3, %ymm3			; X64-AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3
	; X64-AVX1-NEXT: vmovdqu %xmm0, {{.*}}(%rip)			; X64-AVX1-NEXT: vmovdqu %xmm0, {{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm1, {{.*}}(%rip)			; X64-AVX1-NEXT: vmovups %ymm1, {{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm3, hc4+{{.*}}(%rip)			; X64-AVX1-NEXT: vmovups %ymm3, hc4+{{.*}}(%rip)
	; X64-AVX1-NEXT: vmovups %ymm2, {{.*}}(%rip)			; X64-AVX1-NEXT: vmovups %ymm2, {{.*}}(%rip)
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X64-AVX2-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X64-AVX2: # %bb.0: # %entry			; X64-AVX2: # %bb.0: # %entry
	; X64-AVX2-NEXT: vmovdqa {{.*#+}} xmm4 = [1,2,3,4]			; X64-AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [1,2,3,4,1,2,3,4]
				; X64-AVX2-NEXT: # ymm4 = mem[0,1,0,1]
	; X64-AVX2-NEXT: vpaddd %xmm4, %xmm0, %xmm0			; X64-AVX2-NEXT: vpaddd %xmm4, %xmm0, %xmm0
	; X64-AVX2-NEXT: vinserti128 $1, %xmm4, %ymm4, %ymm4
	; X64-AVX2-NEXT: vpaddd %ymm4, %ymm1, %ymm1			; X64-AVX2-NEXT: vpaddd %ymm4, %ymm1, %ymm1
	; X64-AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1			; X64-AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; X64-AVX2-NEXT: vpaddd %ymm4, %ymm3, %ymm3			; X64-AVX2-NEXT: vpaddd %ymm4, %ymm3, %ymm3
	; X64-AVX2-NEXT: vpaddd %ymm4, %ymm2, %ymm2			; X64-AVX2-NEXT: vpaddd %ymm4, %ymm2, %ymm2
	; X64-AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2			; X64-AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; X64-AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3			; X64-AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; X64-AVX2-NEXT: vmovdqu %xmm0, {{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %xmm0, {{.*}}(%rip)
	; X64-AVX2-NEXT: vmovdqu %ymm1, {{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm1, {{.*}}(%rip)
	; X64-AVX2-NEXT: vmovdqu %ymm3, hc4+{{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm3, hc4+{{.*}}(%rip)
	; X64-AVX2-NEXT: vmovdqu %ymm2, {{.*}}(%rip)			; X64-AVX2-NEXT: vmovdqu %ymm2, {{.*}}(%rip)
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:			; X64-AVX512-LABEL: fallback_broadcast_v4i32_v8i32_v16i32:
	; X64-AVX512: # %bb.0: # %entry			; X64-AVX512: # %bb.0: # %entry
	; X64-AVX512-NEXT: vmovdqa {{.*#+}} xmm3 = [1,2,3,4]			; X64-AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm3 = [1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4]
				; X64-AVX512-NEXT: # zmm3 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; X64-AVX512-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; X64-AVX512-NEXT: vinserti128 $1, %xmm3, %ymm3, %ymm4			; X64-AVX512-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; X64-AVX512-NEXT: vpaddd %ymm4, %ymm1, %ymm1			; X64-AVX512-NEXT: vpand %ymm3, %ymm1, %ymm1
	; X64-AVX512-NEXT: vpand %ymm4, %ymm1, %ymm1
	; X64-AVX512-NEXT: vshufi32x4 {{.*#+}} zmm3 = zmm3[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vpaddd %zmm3, %zmm2, %zmm2			; X64-AVX512-NEXT: vpaddd %zmm3, %zmm2, %zmm2
	; X64-AVX512-NEXT: vpandd %zmm3, %zmm2, %zmm2			; X64-AVX512-NEXT: vpandd %zmm3, %zmm2, %zmm2
	; X64-AVX512-NEXT: vmovdqu %xmm0, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovdqu %xmm0, {{.*}}(%rip)
	; X64-AVX512-NEXT: vmovdqu %ymm1, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovdqu %ymm1, {{.*}}(%rip)
	; X64-AVX512-NEXT: vmovdqu64 %zmm2, {{.*}}(%rip)			; X64-AVX512-NEXT: vmovdqu64 %zmm2, {{.*}}(%rip)
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	entry:			entry:
	▲ Show 20 Lines • Show All 640 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Add X86ISD::SUBV_BROADCAST_LOAD and begin removing X86ISD::SUBV_BROADCAST (PR38969)
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 312417

llvm/include/llvm/CodeGen/SelectionDAG.h

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/lib/Target/X86/X86ISelLowering.h

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/lib/Target/X86/X86InstrSSE.td

llvm/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

llvm/test/CodeGen/X86/subvector-broadcast.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Add X86ISD::SUBV_BROADCAST_LOAD and begin removing X86ISD::SUBV_BROADCAST (PR38969)ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 312417

llvm/include/llvm/CodeGen/SelectionDAG.h

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/lib/Target/X86/X86ISelLowering.h

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/lib/Target/X86/X86InstrSSE.td

llvm/test/CodeGen/X86/broadcast-elm-cross-splat-vec.ll

llvm/test/CodeGen/X86/subvector-broadcast.ll

[X86] Add X86ISD::SUBV_BROADCAST_LOAD and begin removing X86ISD::SUBV_BROADCAST (PR38969)
ClosedPublic