Diff 191666

llvm/trunk/lib/Target/AMDGPU/AMDGPUCallingConv.td

Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines	def CC_AMDGPU_Func : CallingConv<[
CCIfByVal<CCPassByVal<4, 4>>,		CCIfByVal<CCPassByVal<4, 4>>,
CCIfType<[i1], CCPromoteToType<i32>>,		CCIfType<[i1], CCPromoteToType<i32>>,
CCIfType<[i1, i8, i16], CCIfExtend<CCPromoteToType<i32>>>,		CCIfType<[i1, i8, i16], CCIfExtend<CCPromoteToType<i32>>>,
CCIfType<[i32, f32, i16, f16, v2i16, v2f16, i1], CCAssignToReg<[		CCIfType<[i32, f32, i16, f16, v2i16, v2f16, i1], CCAssignToReg<[
VGPR0, VGPR1, VGPR2, VGPR3, VGPR4, VGPR5, VGPR6, VGPR7,		VGPR0, VGPR1, VGPR2, VGPR3, VGPR4, VGPR5, VGPR6, VGPR7,
VGPR8, VGPR9, VGPR10, VGPR11, VGPR12, VGPR13, VGPR14, VGPR15,		VGPR8, VGPR9, VGPR10, VGPR11, VGPR12, VGPR13, VGPR14, VGPR15,
VGPR16, VGPR17, VGPR18, VGPR19, VGPR20, VGPR21, VGPR22, VGPR23,		VGPR16, VGPR17, VGPR18, VGPR19, VGPR20, VGPR21, VGPR22, VGPR23,
VGPR24, VGPR25, VGPR26, VGPR27, VGPR28, VGPR29, VGPR30, VGPR31]>>,		VGPR24, VGPR25, VGPR26, VGPR27, VGPR28, VGPR29, VGPR30, VGPR31]>>,
CCIfType<[i64, f64, v2i32, v2f32, v4i32, v4f32, v8i32, v8f32, v16i32, v16f32, v2i64, v2f64, v4i16, v4f16], CCCustom<"allocateVGPRTuple">>,		CCIfType<[i64, f64, v2i32, v2f32, v3i32, v3f32, v4i32, v4f32, v8i32, v8f32, v16i32, v16f32, v2i64, v2f64, v4i16, v4f16], CCCustom<"allocateVGPRTuple">>,
CCIfType<[i32, f32, v2i16, v2f16, i16, f16, i1], CCAssignToStack<4, 4>>,		CCIfType<[i32, f32, v2i16, v2f16, i16, f16, i1], CCAssignToStack<4, 4>>,
CCIfType<[i64, f64, v2i32, v2f32], CCAssignToStack<8, 4>>,		CCIfType<[i64, f64, v2i32, v2f32], CCAssignToStack<8, 4>>,
		CCIfType<[v3i32, v3f32], CCAssignToStack<12, 4>>,
CCIfType<[v4i32, v4f32, v2i64, v2f64], CCAssignToStack<16, 4>>,		CCIfType<[v4i32, v4f32, v2i64, v2f64], CCAssignToStack<16, 4>>,
CCIfType<[v8i32, v8f32], CCAssignToStack<32, 4>>,		CCIfType<[v8i32, v8f32], CCAssignToStack<32, 4>>,
CCIfType<[v16i32, v16f32], CCAssignToStack<64, 4>>		CCIfType<[v16i32, v16f32], CCAssignToStack<64, 4>>
]>;		]>;

// Calling convention for leaf functions		// Calling convention for leaf functions
def RetCC_AMDGPU_Func : CallingConv<[		def RetCC_AMDGPU_Func : CallingConv<[
CCIfType<[i1], CCPromoteToType<i32>>,		CCIfType<[i1], CCPromoteToType<i32>>,
Show All 19 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

	Show First 20 Lines • Show All 534 Lines • ▼ Show 20 Lines
	}			}

	static unsigned selectSGPRVectorRegClassID(unsigned NumVectorElts) {			static unsigned selectSGPRVectorRegClassID(unsigned NumVectorElts) {
	switch (NumVectorElts) {			switch (NumVectorElts) {
	case 1:			case 1:
	return AMDGPU::SReg_32_XM0RegClassID;			return AMDGPU::SReg_32_XM0RegClassID;
	case 2:			case 2:
	return AMDGPU::SReg_64RegClassID;			return AMDGPU::SReg_64RegClassID;
				case 3:
				return AMDGPU::SGPR_96RegClassID;
	case 4:			case 4:
	return AMDGPU::SReg_128RegClassID;			return AMDGPU::SReg_128RegClassID;
	case 8:			case 8:
	return AMDGPU::SReg_256RegClassID;			return AMDGPU::SReg_256RegClassID;
	case 16:			case 16:
	return AMDGPU::SReg_512RegClassID;			return AMDGPU::SReg_512RegClassID;
	}			}

	▲ Show 20 Lines • Show All 1,905 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines	virtual SDValue LowerGlobalAddress(AMDGPUMachineFunction *MFI, SDValue Op,
SelectionDAG &DAG) const;		SelectionDAG &DAG) const;

/// Return 64-bit value Op as two 32-bit integers.		/// Return 64-bit value Op as two 32-bit integers.
std::pair<SDValue, SDValue> split64BitValue(SDValue Op,		std::pair<SDValue, SDValue> split64BitValue(SDValue Op,
SelectionDAG &DAG) const;		SelectionDAG &DAG) const;
SDValue getLoHalf64(SDValue Op, SelectionDAG &DAG) const;		SDValue getLoHalf64(SDValue Op, SelectionDAG &DAG) const;
SDValue getHiHalf64(SDValue Op, SelectionDAG &DAG) const;		SDValue getHiHalf64(SDValue Op, SelectionDAG &DAG) const;

		/// Split a vector type into two parts. The first part is a power of two
		/// vector. The second part is whatever is left over, and is a scalar if it
		/// would otherwise be a 1-vector.
		std::pair<EVT, EVT> getSplitDestVTs(const EVT &VT, SelectionDAG &DAG) const;

		/// Split a vector value into two parts of types LoVT and HiVT. HiVT could be
		/// scalar.
		std::pair<SDValue, SDValue> splitVector(const SDValue &N, const SDLoc &DL,
		const EVT &LoVT, const EVT &HighVT,
		SelectionDAG &DAG) const;

/// Split a vector load into 2 loads of half the vector.		/// Split a vector load into 2 loads of half the vector.
SDValue SplitVectorLoad(SDValue Op, SelectionDAG &DAG) const;		SDValue SplitVectorLoad(SDValue Op, SelectionDAG &DAG) const;

		/// Widen a vector load from vec3 to vec4.
		SDValue WidenVectorLoad(SDValue Op, SelectionDAG &DAG) const;

/// Split a vector store into 2 stores of half the vector.		/// Split a vector store into 2 stores of half the vector.
SDValue SplitVectorStore(SDValue Op, SelectionDAG &DAG) const;		SDValue SplitVectorStore(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerSDIVREM(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSDIVREM(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerUDIVREM(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerUDIVREM(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerDIVREM24(SDValue Op, SelectionDAG &DAG, bool sign) const;		SDValue LowerDIVREM24(SDValue Op, SelectionDAG &DAG, bool sign) const;
void LowerUDIVREM64(SDValue Op, SelectionDAG &DAG,		void LowerUDIVREM64(SDValue Op, SelectionDAG &DAG,
▲ Show 20 Lines • Show All 403 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
// Lower floating point store/load to integer store/load to reduce the number		// Lower floating point store/load to integer store/load to reduce the number
// of patterns in tablegen.		// of patterns in tablegen.
setOperationAction(ISD::LOAD, MVT::f32, Promote);		setOperationAction(ISD::LOAD, MVT::f32, Promote);
AddPromotedToType(ISD::LOAD, MVT::f32, MVT::i32);		AddPromotedToType(ISD::LOAD, MVT::f32, MVT::i32);

setOperationAction(ISD::LOAD, MVT::v2f32, Promote);		setOperationAction(ISD::LOAD, MVT::v2f32, Promote);
AddPromotedToType(ISD::LOAD, MVT::v2f32, MVT::v2i32);		AddPromotedToType(ISD::LOAD, MVT::v2f32, MVT::v2i32);

		setOperationAction(ISD::LOAD, MVT::v3f32, Promote);
		AddPromotedToType(ISD::LOAD, MVT::v3f32, MVT::v3i32);

setOperationAction(ISD::LOAD, MVT::v4f32, Promote);		setOperationAction(ISD::LOAD, MVT::v4f32, Promote);
AddPromotedToType(ISD::LOAD, MVT::v4f32, MVT::v4i32);		AddPromotedToType(ISD::LOAD, MVT::v4f32, MVT::v4i32);

setOperationAction(ISD::LOAD, MVT::v8f32, Promote);		setOperationAction(ISD::LOAD, MVT::v8f32, Promote);
AddPromotedToType(ISD::LOAD, MVT::v8f32, MVT::v8i32);		AddPromotedToType(ISD::LOAD, MVT::v8f32, MVT::v8i32);

setOperationAction(ISD::LOAD, MVT::v16f32, Promote);		setOperationAction(ISD::LOAD, MVT::v16f32, Promote);
AddPromotedToType(ISD::LOAD, MVT::v16f32, MVT::v16i32);		AddPromotedToType(ISD::LOAD, MVT::v16f32, MVT::v16i32);
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
setLoadExtAction(ISD::EXTLOAD, MVT::v8f64, MVT::v8f16, Expand);		setLoadExtAction(ISD::EXTLOAD, MVT::v8f64, MVT::v8f16, Expand);

setOperationAction(ISD::STORE, MVT::f32, Promote);		setOperationAction(ISD::STORE, MVT::f32, Promote);
AddPromotedToType(ISD::STORE, MVT::f32, MVT::i32);		AddPromotedToType(ISD::STORE, MVT::f32, MVT::i32);

setOperationAction(ISD::STORE, MVT::v2f32, Promote);		setOperationAction(ISD::STORE, MVT::v2f32, Promote);
AddPromotedToType(ISD::STORE, MVT::v2f32, MVT::v2i32);		AddPromotedToType(ISD::STORE, MVT::v2f32, MVT::v2i32);

		setOperationAction(ISD::STORE, MVT::v3f32, Promote);
		AddPromotedToType(ISD::STORE, MVT::v3f32, MVT::v3i32);

setOperationAction(ISD::STORE, MVT::v4f32, Promote);		setOperationAction(ISD::STORE, MVT::v4f32, Promote);
AddPromotedToType(ISD::STORE, MVT::v4f32, MVT::v4i32);		AddPromotedToType(ISD::STORE, MVT::v4f32, MVT::v4i32);

setOperationAction(ISD::STORE, MVT::v8f32, Promote);		setOperationAction(ISD::STORE, MVT::v8f32, Promote);
AddPromotedToType(ISD::STORE, MVT::v8f32, MVT::v8i32);		AddPromotedToType(ISD::STORE, MVT::v8f32, MVT::v8i32);

setOperationAction(ISD::STORE, MVT::v16f32, Promote);		setOperationAction(ISD::STORE, MVT::v16f32, Promote);
AddPromotedToType(ISD::STORE, MVT::v16f32, MVT::v16i32);		AddPromotedToType(ISD::STORE, MVT::v16f32, MVT::v16i32);
▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);		setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);

setOperationAction(ISD::FREM, MVT::f32, Custom);		setOperationAction(ISD::FREM, MVT::f32, Custom);
setOperationAction(ISD::FREM, MVT::f64, Custom);		setOperationAction(ISD::FREM, MVT::f64, Custom);

// Expand to fneg + fadd.		// Expand to fneg + fadd.
setOperationAction(ISD::FSUB, MVT::f64, Expand);		setOperationAction(ISD::FSUB, MVT::f64, Expand);

		setOperationAction(ISD::CONCAT_VECTORS, MVT::v3i32, Custom);
		setOperationAction(ISD::CONCAT_VECTORS, MVT::v3f32, Custom);
setOperationAction(ISD::CONCAT_VECTORS, MVT::v4i32, Custom);		setOperationAction(ISD::CONCAT_VECTORS, MVT::v4i32, Custom);
setOperationAction(ISD::CONCAT_VECTORS, MVT::v4f32, Custom);		setOperationAction(ISD::CONCAT_VECTORS, MVT::v4f32, Custom);
setOperationAction(ISD::CONCAT_VECTORS, MVT::v8i32, Custom);		setOperationAction(ISD::CONCAT_VECTORS, MVT::v8i32, Custom);
setOperationAction(ISD::CONCAT_VECTORS, MVT::v8f32, Custom);		setOperationAction(ISD::CONCAT_VECTORS, MVT::v8f32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v2f32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v2f32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v2i32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v2i32, Custom);
		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v3f32, Custom);
		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v3i32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v4f32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v4f32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v4i32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v4i32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8f32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8f32, Custom);
setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8i32, Custom);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8i32, Custom);

setOperationAction(ISD::FP16_TO_FP, MVT::f64, Expand);		setOperationAction(ISD::FP16_TO_FP, MVT::f64, Expand);
setOperationAction(ISD::FP_TO_FP16, MVT::f64, Custom);		setOperationAction(ISD::FP_TO_FP16, MVT::f64, Custom);
setOperationAction(ISD::FP_TO_FP16, MVT::f32, Custom);		setOperationAction(ISD::FP_TO_FP16, MVT::f32, Custom);
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
setOperationAction(ISD::UMAX, MVT::i32, Legal);		setOperationAction(ISD::UMAX, MVT::i32, Legal);

setOperationAction(ISD::CTTZ, MVT::i64, Custom);		setOperationAction(ISD::CTTZ, MVT::i64, Custom);
setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i64, Custom);		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i64, Custom);
setOperationAction(ISD::CTLZ, MVT::i64, Custom);		setOperationAction(ISD::CTLZ, MVT::i64, Custom);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i64, Custom);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i64, Custom);

static const MVT::SimpleValueType VectorIntTypes[] = {		static const MVT::SimpleValueType VectorIntTypes[] = {
MVT::v2i32, MVT::v4i32		MVT::v2i32, MVT::v3i32, MVT::v4i32
};		};

for (MVT VT : VectorIntTypes) {		for (MVT VT : VectorIntTypes) {
// Expand the following operations for the current type by default.		// Expand the following operations for the current type by default.
setOperationAction(ISD::ADD, VT, Expand);		setOperationAction(ISD::ADD, VT, Expand);
setOperationAction(ISD::AND, VT, Expand);		setOperationAction(ISD::AND, VT, Expand);
setOperationAction(ISD::FP_TO_SINT, VT, Expand);		setOperationAction(ISD::FP_TO_SINT, VT, Expand);
setOperationAction(ISD::FP_TO_UINT, VT, Expand);		setOperationAction(ISD::FP_TO_UINT, VT, Expand);
Show All 25 Lines	for (MVT VT : VectorIntTypes) {
setOperationAction(ISD::CTPOP, VT, Expand);		setOperationAction(ISD::CTPOP, VT, Expand);
setOperationAction(ISD::CTTZ, VT, Expand);		setOperationAction(ISD::CTTZ, VT, Expand);
setOperationAction(ISD::CTLZ, VT, Expand);		setOperationAction(ISD::CTLZ, VT, Expand);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Expand);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Expand);
setOperationAction(ISD::SETCC, VT, Expand);		setOperationAction(ISD::SETCC, VT, Expand);
}		}

static const MVT::SimpleValueType FloatVectorTypes[] = {		static const MVT::SimpleValueType FloatVectorTypes[] = {
MVT::v2f32, MVT::v4f32		MVT::v2f32, MVT::v3f32, MVT::v4f32
};		};

for (MVT VT : FloatVectorTypes) {		for (MVT VT : FloatVectorTypes) {
setOperationAction(ISD::FABS, VT, Expand);		setOperationAction(ISD::FABS, VT, Expand);
setOperationAction(ISD::FMINNUM, VT, Expand);		setOperationAction(ISD::FMINNUM, VT, Expand);
setOperationAction(ISD::FMAXNUM, VT, Expand);		setOperationAction(ISD::FMAXNUM, VT, Expand);
setOperationAction(ISD::FADD, VT, Expand);		setOperationAction(ISD::FADD, VT, Expand);
setOperationAction(ISD::FCEIL, VT, Expand);		setOperationAction(ISD::FCEIL, VT, Expand);
Show All 25 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
}		}

// This causes using an unrolled select operation rather than expansion with		// This causes using an unrolled select operation rather than expansion with
// bit operations. This is in general better, but the alternative using BFI		// bit operations. This is in general better, but the alternative using BFI
// instructions may be better if the select sources are SGPRs.		// instructions may be better if the select sources are SGPRs.
setOperationAction(ISD::SELECT, MVT::v2f32, Promote);		setOperationAction(ISD::SELECT, MVT::v2f32, Promote);
AddPromotedToType(ISD::SELECT, MVT::v2f32, MVT::v2i32);		AddPromotedToType(ISD::SELECT, MVT::v2f32, MVT::v2i32);

		setOperationAction(ISD::SELECT, MVT::v3f32, Promote);
		AddPromotedToType(ISD::SELECT, MVT::v3f32, MVT::v3i32);

setOperationAction(ISD::SELECT, MVT::v4f32, Promote);		setOperationAction(ISD::SELECT, MVT::v4f32, Promote);
AddPromotedToType(ISD::SELECT, MVT::v4f32, MVT::v4i32);		AddPromotedToType(ISD::SELECT, MVT::v4f32, MVT::v4i32);

// There are no libcalls of any kind.		// There are no libcalls of any kind.
for (int I = 0; I < RTLIB::UNKNOWN_LIBCALL; ++I)		for (int I = 0; I < RTLIB::UNKNOWN_LIBCALL; ++I)
setLibcallName(static_cast<RTLIB::Libcall>(I), nullptr);		setLibcallName(static_cast<RTLIB::Libcall>(I), nullptr);

setBooleanContents(ZeroOrNegativeOneBooleanContent);		setBooleanContents(ZeroOrNegativeOneBooleanContent);
▲ Show 20 Lines • Show All 880 Lines • ▼ Show 20 Lines
SDValue AMDGPUTargetLowering::getHiHalf64(SDValue Op, SelectionDAG &DAG) const {		SDValue AMDGPUTargetLowering::getHiHalf64(SDValue Op, SelectionDAG &DAG) const {
SDLoc SL(Op);		SDLoc SL(Op);

SDValue Vec = DAG.getNode(ISD::BITCAST, SL, MVT::v2i32, Op);		SDValue Vec = DAG.getNode(ISD::BITCAST, SL, MVT::v2i32, Op);
const SDValue One = DAG.getConstant(1, SL, MVT::i32);		const SDValue One = DAG.getConstant(1, SL, MVT::i32);
return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, Vec, One);		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, Vec, One);
}		}

		// Split a vector type into two parts. The first part is a power of two vector.
		// The second part is whatever is left over, and is a scalar if it would
		// otherwise be a 1-vector.
		std::pair<EVT, EVT>
		AMDGPUTargetLowering::getSplitDestVTs(const EVT &VT, SelectionDAG &DAG) const {
		EVT LoVT, HiVT;
		EVT EltVT = VT.getVectorElementType();
		unsigned NumElts = VT.getVectorNumElements();
		unsigned LoNumElts = PowerOf2Ceil((NumElts + 1) / 2);
		LoVT = EVT::getVectorVT(*DAG.getContext(), EltVT, LoNumElts);
		HiVT = NumElts - LoNumElts == 1
		? EltVT
		: EVT::getVectorVT(*DAG.getContext(), EltVT, NumElts - LoNumElts);
		return std::make_pair(LoVT, HiVT);
		}

		// Split a vector value into two parts of types LoVT and HiVT. HiVT could be
		// scalar.
		std::pair<SDValue, SDValue>
		AMDGPUTargetLowering::splitVector(const SDValue &N, const SDLoc &DL,
		const EVT &LoVT, const EVT &HiVT,
		SelectionDAG &DAG) const {
		assert(LoVT.getVectorNumElements() +
		(HiVT.isVector() ? HiVT.getVectorNumElements() : 1) <=
		N.getValueType().getVectorNumElements() &&
		"More vector elements requested than available!");
		auto IdxTy = getVectorIdxTy(DAG.getDataLayout());
		SDValue Lo = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, LoVT, N,
		DAG.getConstant(0, DL, IdxTy));
		SDValue Hi = DAG.getNode(
		HiVT.isVector() ? ISD::EXTRACT_SUBVECTOR : ISD::EXTRACT_VECTOR_ELT, DL,
		HiVT, N, DAG.getConstant(LoVT.getVectorNumElements(), DL, IdxTy));
		return std::make_pair(Lo, Hi);
		}

SDValue AMDGPUTargetLowering::SplitVectorLoad(const SDValue Op,		SDValue AMDGPUTargetLowering::SplitVectorLoad(const SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
LoadSDNode *Load = cast<LoadSDNode>(Op);		LoadSDNode *Load = cast<LoadSDNode>(Op);
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();


// If this is a 2 element vector, we really want to scalarize and not create		// If this is a 2 element vector, we really want to scalarize and not create
// weird 1 element vectors.		// weird 1 element vectors.
if (VT.getVectorNumElements() == 2)		if (VT.getVectorNumElements() == 2)
return scalarizeVectorLoad(Load, DAG);		return scalarizeVectorLoad(Load, DAG);

SDValue BasePtr = Load->getBasePtr();		SDValue BasePtr = Load->getBasePtr();
EVT MemVT = Load->getMemoryVT();		EVT MemVT = Load->getMemoryVT();
SDLoc SL(Op);		SDLoc SL(Op);

const MachinePointerInfo &SrcValue = Load->getMemOperand()->getPointerInfo();		const MachinePointerInfo &SrcValue = Load->getMemOperand()->getPointerInfo();

EVT LoVT, HiVT;		EVT LoVT, HiVT;
EVT LoMemVT, HiMemVT;		EVT LoMemVT, HiMemVT;
SDValue Lo, Hi;		SDValue Lo, Hi;

std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(VT);		std::tie(LoVT, HiVT) = getSplitDestVTs(VT, DAG);
std::tie(LoMemVT, HiMemVT) = DAG.GetSplitDestVTs(MemVT);		std::tie(LoMemVT, HiMemVT) = getSplitDestVTs(MemVT, DAG);
std::tie(Lo, Hi) = DAG.SplitVector(Op, SL, LoVT, HiVT);		std::tie(Lo, Hi) = splitVector(Op, SL, LoVT, HiVT, DAG);

unsigned Size = LoMemVT.getStoreSize();		unsigned Size = LoMemVT.getStoreSize();
unsigned BaseAlign = Load->getAlignment();		unsigned BaseAlign = Load->getAlignment();
unsigned HiAlign = MinAlign(BaseAlign, Size);		unsigned HiAlign = MinAlign(BaseAlign, Size);

SDValue LoLoad = DAG.getExtLoad(Load->getExtensionType(), SL, LoVT,		SDValue LoLoad = DAG.getExtLoad(Load->getExtensionType(), SL, LoVT,
Load->getChain(), BasePtr, SrcValue, LoMemVT,		Load->getChain(), BasePtr, SrcValue, LoMemVT,
BaseAlign, Load->getMemOperand()->getFlags());		BaseAlign, Load->getMemOperand()->getFlags());
SDValue HiPtr = DAG.getObjectPtrOffset(SL, BasePtr, Size);		SDValue HiPtr = DAG.getObjectPtrOffset(SL, BasePtr, Size);
SDValue HiLoad =		SDValue HiLoad =
DAG.getExtLoad(Load->getExtensionType(), SL, HiVT, Load->getChain(),		DAG.getExtLoad(Load->getExtensionType(), SL, HiVT, Load->getChain(),
HiPtr, SrcValue.getWithOffset(LoMemVT.getStoreSize()),		HiPtr, SrcValue.getWithOffset(LoMemVT.getStoreSize()),
HiMemVT, HiAlign, Load->getMemOperand()->getFlags());		HiMemVT, HiAlign, Load->getMemOperand()->getFlags());

SDValue Ops[] = {		auto IdxTy = getVectorIdxTy(DAG.getDataLayout());
DAG.getNode(ISD::CONCAT_VECTORS, SL, VT, LoLoad, HiLoad),		SDValue Join;
DAG.getNode(ISD::TokenFactor, SL, MVT::Other,		if (LoVT == HiVT) {
LoLoad.getValue(1), HiLoad.getValue(1))		// This is the case that the vector is power of two so was evenly split.
};		Join = DAG.getNode(ISD::CONCAT_VECTORS, SL, VT, LoLoad, HiLoad);
		} else {
		Join = DAG.getNode(ISD::INSERT_SUBVECTOR, SL, VT, DAG.getUNDEF(VT), LoLoad,
		DAG.getConstant(0, SL, IdxTy));
		Join = DAG.getNode(HiVT.isVector() ? ISD::INSERT_SUBVECTOR
		: ISD::INSERT_VECTOR_ELT,
		SL, VT, Join, HiLoad,
		DAG.getConstant(LoVT.getVectorNumElements(), SL, IdxTy));
		}

		SDValue Ops[] = {Join, DAG.getNode(ISD::TokenFactor, SL, MVT::Other,
		LoLoad.getValue(1), HiLoad.getValue(1))};

return DAG.getMergeValues(Ops, SL);		return DAG.getMergeValues(Ops, SL);
}		}

		// Widen a vector load from vec3 to vec4.
		SDValue AMDGPUTargetLowering::WidenVectorLoad(SDValue Op,
		SelectionDAG &DAG) const {
		LoadSDNode *Load = cast<LoadSDNode>(Op);
		EVT VT = Op.getValueType();
		assert(VT.getVectorNumElements() == 3);
		SDValue BasePtr = Load->getBasePtr();
		EVT MemVT = Load->getMemoryVT();
		SDLoc SL(Op);
		const MachinePointerInfo &SrcValue = Load->getMemOperand()->getPointerInfo();
		unsigned BaseAlign = Load->getAlignment();

		EVT WideVT =
		EVT::getVectorVT(*DAG.getContext(), VT.getVectorElementType(), 4);
		EVT WideMemVT =
		EVT::getVectorVT(*DAG.getContext(), MemVT.getVectorElementType(), 4);
		SDValue WideLoad = DAG.getExtLoad(
		Load->getExtensionType(), SL, WideVT, Load->getChain(), BasePtr, SrcValue,
		WideMemVT, BaseAlign, Load->getMemOperand()->getFlags());
		return DAG.getMergeValues(
		{DAG.getNode(ISD::EXTRACT_SUBVECTOR, SL, VT, WideLoad,
		DAG.getConstant(0, SL, getVectorIdxTy(DAG.getDataLayout()))),
		WideLoad.getValue(1)},
		SL);
		}

SDValue AMDGPUTargetLowering::SplitVectorStore(SDValue Op,		SDValue AMDGPUTargetLowering::SplitVectorStore(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
StoreSDNode *Store = cast<StoreSDNode>(Op);		StoreSDNode *Store = cast<StoreSDNode>(Op);
SDValue Val = Store->getValue();		SDValue Val = Store->getValue();
EVT VT = Val.getValueType();		EVT VT = Val.getValueType();

// If this is a 2 element vector, we really want to scalarize and not create		// If this is a 2 element vector, we really want to scalarize and not create
// weird 1 element vectors.		// weird 1 element vectors.
if (VT.getVectorNumElements() == 2)		if (VT.getVectorNumElements() == 2)
return scalarizeVectorStore(Store, DAG);		return scalarizeVectorStore(Store, DAG);

EVT MemVT = Store->getMemoryVT();		EVT MemVT = Store->getMemoryVT();
SDValue Chain = Store->getChain();		SDValue Chain = Store->getChain();
SDValue BasePtr = Store->getBasePtr();		SDValue BasePtr = Store->getBasePtr();
SDLoc SL(Op);		SDLoc SL(Op);

EVT LoVT, HiVT;		EVT LoVT, HiVT;
EVT LoMemVT, HiMemVT;		EVT LoMemVT, HiMemVT;
SDValue Lo, Hi;		SDValue Lo, Hi;

std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(VT);		std::tie(LoVT, HiVT) = getSplitDestVTs(VT, DAG);
std::tie(LoMemVT, HiMemVT) = DAG.GetSplitDestVTs(MemVT);		std::tie(LoMemVT, HiMemVT) = getSplitDestVTs(MemVT, DAG);
std::tie(Lo, Hi) = DAG.SplitVector(Val, SL, LoVT, HiVT);		std::tie(Lo, Hi) = splitVector(Val, SL, LoVT, HiVT, DAG);

SDValue HiPtr = DAG.getObjectPtrOffset(SL, BasePtr, LoMemVT.getStoreSize());		SDValue HiPtr = DAG.getObjectPtrOffset(SL, BasePtr, LoMemVT.getStoreSize());

const MachinePointerInfo &SrcValue = Store->getMemOperand()->getPointerInfo();		const MachinePointerInfo &SrcValue = Store->getMemOperand()->getPointerInfo();
unsigned BaseAlign = Store->getAlignment();		unsigned BaseAlign = Store->getAlignment();
unsigned Size = LoMemVT.getStoreSize();		unsigned Size = LoMemVT.getStoreSize();
unsigned HiAlign = MinAlign(BaseAlign, Size);		unsigned HiAlign = MinAlign(BaseAlign, Size);

▲ Show 20 Lines • Show All 3,109 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/BUFInstructions.td

Show First 20 Lines • Show All 815 Lines • ▼ Show 20 Lines
>;		>;
defm BUFFER_LOAD_DWORD : MUBUF_Pseudo_Loads_Lds <		defm BUFFER_LOAD_DWORD : MUBUF_Pseudo_Loads_Lds <
"buffer_load_dword", VGPR_32, i32, mubuf_load		"buffer_load_dword", VGPR_32, i32, mubuf_load
>;		>;
defm BUFFER_LOAD_DWORDX2 : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_DWORDX2 : MUBUF_Pseudo_Loads <
"buffer_load_dwordx2", VReg_64, v2i32, mubuf_load		"buffer_load_dwordx2", VReg_64, v2i32, mubuf_load
>;		>;
defm BUFFER_LOAD_DWORDX3 : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_DWORDX3 : MUBUF_Pseudo_Loads <
"buffer_load_dwordx3", VReg_96, untyped, mubuf_load		"buffer_load_dwordx3", VReg_96, v3i32, mubuf_load
>;		>;
defm BUFFER_LOAD_DWORDX4 : MUBUF_Pseudo_Loads <		defm BUFFER_LOAD_DWORDX4 : MUBUF_Pseudo_Loads <
"buffer_load_dwordx4", VReg_128, v4i32, mubuf_load		"buffer_load_dwordx4", VReg_128, v4i32, mubuf_load
>;		>;

// This is not described in AMD documentation,		// This is not described in AMD documentation,
// but 'lds' versions of these opcodes are available		// but 'lds' versions of these opcodes are available
// in at least GFX8+ chips. See Bug 37653.		// in at least GFX8+ chips. See Bug 37653.
Show All 17 Lines
>;		>;
defm BUFFER_STORE_DWORD : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_DWORD : MUBUF_Pseudo_Stores <
"buffer_store_dword", VGPR_32, i32, store_global		"buffer_store_dword", VGPR_32, i32, store_global
>;		>;
defm BUFFER_STORE_DWORDX2 : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_DWORDX2 : MUBUF_Pseudo_Stores <
"buffer_store_dwordx2", VReg_64, v2i32, store_global		"buffer_store_dwordx2", VReg_64, v2i32, store_global
>;		>;
defm BUFFER_STORE_DWORDX3 : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_DWORDX3 : MUBUF_Pseudo_Stores <
"buffer_store_dwordx3", VReg_96, untyped, store_global		"buffer_store_dwordx3", VReg_96, v3i32, store_global
>;		>;
defm BUFFER_STORE_DWORDX4 : MUBUF_Pseudo_Stores <		defm BUFFER_STORE_DWORDX4 : MUBUF_Pseudo_Stores <
"buffer_store_dwordx4", VReg_128, v4i32, store_global		"buffer_store_dwordx4", VReg_128, v4i32, store_global
>;		>;
defm BUFFER_ATOMIC_SWAP : MUBUF_Pseudo_Atomics <		defm BUFFER_ATOMIC_SWAP : MUBUF_Pseudo_Atomics <
"buffer_atomic_swap", VGPR_32, i32, atomic_swap_global		"buffer_atomic_swap", VGPR_32, i32, atomic_swap_global
>;		>;
defm BUFFER_ATOMIC_CMPSWAP : MUBUF_Pseudo_Atomics <		defm BUFFER_ATOMIC_CMPSWAP : MUBUF_Pseudo_Atomics <
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	let SubtargetPredicate = HasPackedD16VMem, D16Buf = 1 in {
defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_64>;		defm TBUFFER_STORE_FORMAT_D16_XYZW : MTBUF_Pseudo_Stores <"tbuffer_store_format_d16_xyzw", VReg_64>;
} // End HasPackedD16VMem.		} // End HasPackedD16VMem.

let SubtargetPredicate = isCIVI in {		let SubtargetPredicate = isCIVI in {

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Instruction definitions for CI and newer.		// Instruction definitions for CI and newer.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Remaining instructions:
// BUFFER_LOAD_DWORDX3
// BUFFER_STORE_DWORDX3

def BUFFER_WBINVL1_VOL : MUBUF_Invalidate <"buffer_wbinvl1_vol",		def BUFFER_WBINVL1_VOL : MUBUF_Invalidate <"buffer_wbinvl1_vol",
int_amdgcn_buffer_wbinvl1_vol>;		int_amdgcn_buffer_wbinvl1_vol>;

} // End let SubtargetPredicate = isCIVI		} // End let SubtargetPredicate = isCIVI

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// MUBUF Patterns		// MUBUF Patterns
▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i32, az_extloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i32, az_extloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i16, sextloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i16, sextloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i16, az_extloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i16, az_extloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_SSHORT_OFFEN, BUFFER_LOAD_SSHORT_OFFSET, i32, sextloadi16_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_SSHORT_OFFEN, BUFFER_LOAD_SSHORT_OFFSET, i32, sextloadi16_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i32, az_extloadi16_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i32, az_extloadi16_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i16, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i16, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORD_OFFEN, BUFFER_LOAD_DWORD_OFFSET, i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORD_OFFEN, BUFFER_LOAD_DWORD_OFFSET, i32, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX2_OFFEN, BUFFER_LOAD_DWORDX2_OFFSET, v2i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX2_OFFEN, BUFFER_LOAD_DWORDX2_OFFSET, v2i32, load_private>;
		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX3_OFFEN, BUFFER_LOAD_DWORDX3_OFFSET, v3i32, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX4_OFFEN, BUFFER_LOAD_DWORDX4_OFFSET, v4i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX4_OFFEN, BUFFER_LOAD_DWORDX4_OFFSET, v4i32, load_private>;

let OtherPredicates = [D16PreservesUnusedBits] in {		let OtherPredicates = [D16PreservesUnusedBits] in {
defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2i16, load_d16_hi_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2i16, load_d16_hi_private>;
defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2i16, az_extloadi8_d16_hi_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2i16, az_extloadi8_d16_hi_private>;
defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_HI_OFFEN, BUFFER_LOAD_SBYTE_D16_HI_OFFSET, v2i16, sextloadi8_d16_hi_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_HI_OFFEN, BUFFER_LOAD_SBYTE_D16_HI_OFFSET, v2i16, sextloadi8_d16_hi_private>;
defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2f16, load_d16_hi_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2f16, load_d16_hi_private>;
defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2f16, az_extloadi8_d16_hi_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2f16, az_extloadi8_d16_hi_private>;
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
}		}

defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_OFFEN, BUFFER_STORE_BYTE_OFFSET, i32, truncstorei8_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_OFFEN, BUFFER_STORE_BYTE_OFFSET, i32, truncstorei8_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_OFFEN, BUFFER_STORE_SHORT_OFFSET, i32, truncstorei16_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_OFFEN, BUFFER_STORE_SHORT_OFFSET, i32, truncstorei16_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_OFFEN, BUFFER_STORE_BYTE_OFFSET, i16, truncstorei8_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_OFFEN, BUFFER_STORE_BYTE_OFFSET, i16, truncstorei8_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_OFFEN, BUFFER_STORE_SHORT_OFFSET, i16, store_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_OFFEN, BUFFER_STORE_SHORT_OFFSET, i16, store_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_DWORD_OFFEN, BUFFER_STORE_DWORD_OFFSET, i32, store_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_DWORD_OFFEN, BUFFER_STORE_DWORD_OFFSET, i32, store_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_DWORDX2_OFFEN, BUFFER_STORE_DWORDX2_OFFSET, v2i32, store_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_DWORDX2_OFFEN, BUFFER_STORE_DWORDX2_OFFSET, v2i32, store_private>;
		defm : MUBUFScratchStorePat <BUFFER_STORE_DWORDX3_OFFEN, BUFFER_STORE_DWORDX3_OFFSET, v3i32, store_private>;
defm : MUBUFScratchStorePat <BUFFER_STORE_DWORDX4_OFFEN, BUFFER_STORE_DWORDX4_OFFSET, v4i32, store_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_DWORDX4_OFFEN, BUFFER_STORE_DWORDX4_OFFSET, v4i32, store_private>;


let OtherPredicates = [D16PreservesUnusedBits] in {		let OtherPredicates = [D16PreservesUnusedBits] in {
// Hiding the extract high pattern in the PatFrag seems to not		// Hiding the extract high pattern in the PatFrag seems to not
// automatically increase the complexity.		// automatically increase the complexity.
let AddedComplexity = 1 in {		let AddedComplexity = 1 in {
defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_D16_HI_OFFEN, BUFFER_STORE_SHORT_D16_HI_OFFSET, i32, store_hi16_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_SHORT_D16_HI_OFFEN, BUFFER_STORE_SHORT_D16_HI_OFFSET, i32, store_hi16_private>;
▲ Show 20 Lines • Show All 602 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/FLATInstructions.td

	Show First 20 Lines • Show All 724 Lines • ▼ Show 20 Lines
	def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_flat, i32>;			def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_flat, i32>;
	def : FlatLoadPat <FLAT_LOAD_UBYTE, az_extloadi8_flat, i16>;			def : FlatLoadPat <FLAT_LOAD_UBYTE, az_extloadi8_flat, i16>;
	def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_flat, i16>;			def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_flat, i16>;
	def : FlatLoadPat <FLAT_LOAD_USHORT, az_extloadi16_flat, i32>;			def : FlatLoadPat <FLAT_LOAD_USHORT, az_extloadi16_flat, i32>;
	def : FlatLoadPat <FLAT_LOAD_USHORT, load_flat, i16>;			def : FlatLoadPat <FLAT_LOAD_USHORT, load_flat, i16>;
	def : FlatLoadPat <FLAT_LOAD_SSHORT, sextloadi16_flat, i32>;			def : FlatLoadPat <FLAT_LOAD_SSHORT, sextloadi16_flat, i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORD, load_flat, i32>;			def : FlatLoadPat <FLAT_LOAD_DWORD, load_flat, i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORDX2, load_flat, v2i32>;			def : FlatLoadPat <FLAT_LOAD_DWORDX2, load_flat, v2i32>;
				def : FlatLoadPat <FLAT_LOAD_DWORDX3, load_flat, v3i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORDX4, load_flat, v4i32>;			def : FlatLoadPat <FLAT_LOAD_DWORDX4, load_flat, v4i32>;

	def : FlatLoadAtomicPat <FLAT_LOAD_DWORD, atomic_load_flat, i32>;			def : FlatLoadAtomicPat <FLAT_LOAD_DWORD, atomic_load_flat, i32>;
	def : FlatLoadAtomicPat <FLAT_LOAD_DWORDX2, atomic_load_flat, i64>;			def : FlatLoadAtomicPat <FLAT_LOAD_DWORDX2, atomic_load_flat, i64>;

	def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_flat, i32>;			def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_flat, i32>;
	def : FlatStorePat <FLAT_STORE_SHORT, truncstorei16_flat, i32>;			def : FlatStorePat <FLAT_STORE_SHORT, truncstorei16_flat, i32>;
	def : FlatStorePat <FLAT_STORE_DWORD, store_flat, i32>;			def : FlatStorePat <FLAT_STORE_DWORD, store_flat, i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX2, store_flat, v2i32>;			def : FlatStorePat <FLAT_STORE_DWORDX2, store_flat, v2i32>;
				def : FlatStorePat <FLAT_STORE_DWORDX3, store_flat, v3i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX4, store_flat, v4i32>;			def : FlatStorePat <FLAT_STORE_DWORDX4, store_flat, v4i32>;

	def : FlatStoreAtomicPat <FLAT_STORE_DWORD, atomic_store_flat, i32>;			def : FlatStoreAtomicPat <FLAT_STORE_DWORD, atomic_store_flat, i32>;
	def : FlatStoreAtomicPat <FLAT_STORE_DWORDX2, atomic_store_flat, i64>;			def : FlatStoreAtomicPat <FLAT_STORE_DWORDX2, atomic_store_flat, i64>;

	def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_INC_RTN, atomic_inc_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_INC_RTN, atomic_inc_global, i32>;
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	def : FlatLoadSignedPat <GLOBAL_LOAD_UBYTE, az_extloadi8_global, i16>;			def : FlatLoadSignedPat <GLOBAL_LOAD_UBYTE, az_extloadi8_global, i16>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_SBYTE, sextloadi8_global, i16>;			def : FlatLoadSignedPat <GLOBAL_LOAD_SBYTE, sextloadi8_global, i16>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_USHORT, az_extloadi16_global, i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_USHORT, az_extloadi16_global, i32>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_SSHORT, sextloadi16_global, i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_SSHORT, sextloadi16_global, i32>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_USHORT, load_global, i16>;			def : FlatLoadSignedPat <GLOBAL_LOAD_USHORT, load_global, i16>;

	def : FlatLoadSignedPat <GLOBAL_LOAD_DWORD, load_global, i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_DWORD, load_global, i32>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_DWORDX2, load_global, v2i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_DWORDX2, load_global, v2i32>;
				def : FlatLoadSignedPat <GLOBAL_LOAD_DWORDX3, load_global, v3i32>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_DWORDX4, load_global, v4i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_DWORDX4, load_global, v4i32>;

	def : FlatLoadAtomicPat <GLOBAL_LOAD_DWORD, atomic_load_global, i32>;			def : FlatLoadAtomicPat <GLOBAL_LOAD_DWORD, atomic_load_global, i32>;
	def : FlatLoadAtomicPat <GLOBAL_LOAD_DWORDX2, atomic_load_global, i64>;			def : FlatLoadAtomicPat <GLOBAL_LOAD_DWORDX2, atomic_load_global, i64>;

	def : FlatStoreSignedPat <GLOBAL_STORE_BYTE, truncstorei8_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_BYTE, truncstorei8_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_BYTE, truncstorei8_global, i16>;			def : FlatStoreSignedPat <GLOBAL_STORE_BYTE, truncstorei8_global, i16>;
	def : FlatStoreSignedPat <GLOBAL_STORE_SHORT, truncstorei16_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_SHORT, truncstorei16_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_SHORT, store_global, i16>;			def : FlatStoreSignedPat <GLOBAL_STORE_SHORT, store_global, i16>;
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORD, store_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORD, store_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX2, store_global, v2i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX2, store_global, v2i32>;
				def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX3, store_global, v3i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX4, store_global, v4i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX4, store_global, v4i32>;

	let OtherPredicates = [D16PreservesUnusedBits] in {			let OtherPredicates = [D16PreservesUnusedBits] in {
	def : FlatStoreSignedPat <GLOBAL_STORE_SHORT_D16_HI, truncstorei16_hi16_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_SHORT_D16_HI, truncstorei16_hi16_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_BYTE_D16_HI, truncstorei8_hi16_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_BYTE_D16_HI, truncstorei8_hi16_global, i32>;

	def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2i16>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2i16>;
	def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2f16>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2f16>;
	▲ Show 20 Lines • Show All 274 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines	SITargetLowering::SITargetLowering(const TargetMachine &TM,

addRegisterClass(MVT::i32, &AMDGPU::SReg_32_XM0RegClass);		addRegisterClass(MVT::i32, &AMDGPU::SReg_32_XM0RegClass);
addRegisterClass(MVT::f32, &AMDGPU::VGPR_32RegClass);		addRegisterClass(MVT::f32, &AMDGPU::VGPR_32RegClass);

addRegisterClass(MVT::f64, &AMDGPU::VReg_64RegClass);		addRegisterClass(MVT::f64, &AMDGPU::VReg_64RegClass);
addRegisterClass(MVT::v2i32, &AMDGPU::SReg_64RegClass);		addRegisterClass(MVT::v2i32, &AMDGPU::SReg_64RegClass);
addRegisterClass(MVT::v2f32, &AMDGPU::VReg_64RegClass);		addRegisterClass(MVT::v2f32, &AMDGPU::VReg_64RegClass);

		addRegisterClass(MVT::v3i32, &AMDGPU::SGPR_96RegClass);
		addRegisterClass(MVT::v3f32, &AMDGPU::VReg_96RegClass);

addRegisterClass(MVT::v2i64, &AMDGPU::SReg_128RegClass);		addRegisterClass(MVT::v2i64, &AMDGPU::SReg_128RegClass);
addRegisterClass(MVT::v2f64, &AMDGPU::SReg_128RegClass);		addRegisterClass(MVT::v2f64, &AMDGPU::SReg_128RegClass);

addRegisterClass(MVT::v4i32, &AMDGPU::SReg_128RegClass);		addRegisterClass(MVT::v4i32, &AMDGPU::SReg_128RegClass);
addRegisterClass(MVT::v4f32, &AMDGPU::VReg_128RegClass);		addRegisterClass(MVT::v4f32, &AMDGPU::VReg_128RegClass);

addRegisterClass(MVT::v8i32, &AMDGPU::SReg_256RegClass);		addRegisterClass(MVT::v8i32, &AMDGPU::SReg_256RegClass);
addRegisterClass(MVT::v8f32, &AMDGPU::VReg_256RegClass);		addRegisterClass(MVT::v8f32, &AMDGPU::VReg_256RegClass);
Show All 11 Lines	if (Subtarget->has16BitInsts()) {
addRegisterClass(MVT::v4i16, &AMDGPU::SReg_64RegClass);		addRegisterClass(MVT::v4i16, &AMDGPU::SReg_64RegClass);
addRegisterClass(MVT::v4f16, &AMDGPU::SReg_64RegClass);		addRegisterClass(MVT::v4f16, &AMDGPU::SReg_64RegClass);
}		}

computeRegisterProperties(Subtarget->getRegisterInfo());		computeRegisterProperties(Subtarget->getRegisterInfo());

// We need to custom lower vector stores from local memory		// We need to custom lower vector stores from local memory
setOperationAction(ISD::LOAD, MVT::v2i32, Custom);		setOperationAction(ISD::LOAD, MVT::v2i32, Custom);
		setOperationAction(ISD::LOAD, MVT::v3i32, Custom);
setOperationAction(ISD::LOAD, MVT::v4i32, Custom);		setOperationAction(ISD::LOAD, MVT::v4i32, Custom);
setOperationAction(ISD::LOAD, MVT::v8i32, Custom);		setOperationAction(ISD::LOAD, MVT::v8i32, Custom);
setOperationAction(ISD::LOAD, MVT::v16i32, Custom);		setOperationAction(ISD::LOAD, MVT::v16i32, Custom);
setOperationAction(ISD::LOAD, MVT::i1, Custom);		setOperationAction(ISD::LOAD, MVT::i1, Custom);
setOperationAction(ISD::LOAD, MVT::v32i32, Custom);		setOperationAction(ISD::LOAD, MVT::v32i32, Custom);

setOperationAction(ISD::STORE, MVT::v2i32, Custom);		setOperationAction(ISD::STORE, MVT::v2i32, Custom);
		setOperationAction(ISD::STORE, MVT::v3i32, Custom);
setOperationAction(ISD::STORE, MVT::v4i32, Custom);		setOperationAction(ISD::STORE, MVT::v4i32, Custom);
setOperationAction(ISD::STORE, MVT::v8i32, Custom);		setOperationAction(ISD::STORE, MVT::v8i32, Custom);
setOperationAction(ISD::STORE, MVT::v16i32, Custom);		setOperationAction(ISD::STORE, MVT::v16i32, Custom);
setOperationAction(ISD::STORE, MVT::i1, Custom);		setOperationAction(ISD::STORE, MVT::i1, Custom);
setOperationAction(ISD::STORE, MVT::v32i32, Custom);		setOperationAction(ISD::STORE, MVT::v32i32, Custom);

setTruncStoreAction(MVT::v2i32, MVT::v2i16, Expand);		setTruncStoreAction(MVT::v2i32, MVT::v2i16, Expand);
setTruncStoreAction(MVT::v4i32, MVT::v4i16, Expand);		setTruncStoreAction(MVT::v4i32, MVT::v4i16, Expand);
▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	#endif
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i8, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i8, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i8, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i8, Custom);

setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4i16, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4i16, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4f16, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, MVT::v4f16, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i16, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f16, Custom);

		// Deal with vec3 vector operations when widened to vec4.
		setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v3i32, Expand);
		setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v3f32, Expand);
		setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v4i32, Expand);
		setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v4f32, Expand);

// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling,		// BUFFER/FLAT_ATOMIC_CMP_SWAP on GCN GPUs needs input marshalling,
// and output demarshalling		// and output demarshalling
setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i32, Custom);		setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i32, Custom);
setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i64, Custom);		setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i64, Custom);

// We can't return success/failure, only the old value,		// We can't return success/failure, only the old value,
// let LLVM add the comparison		// let LLVM add the comparison
setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, MVT::i32, Expand);		setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, MVT::i32, Expand);
▲ Show 20 Lines • Show All 987 Lines • ▼ Show 20 Lines	uint64_t Offset = getImplicitParameterOffset(DAG.getMachineFunction(),
FIRST_IMPLICIT);		FIRST_IMPLICIT);
return lowerKernArgParameterPtr(DAG, SL, DAG.getEntryNode(), Offset);		return lowerKernArgParameterPtr(DAG, SL, DAG.getEntryNode(), Offset);
}		}

SDValue SITargetLowering::convertArgType(SelectionDAG &DAG, EVT VT, EVT MemVT,		SDValue SITargetLowering::convertArgType(SelectionDAG &DAG, EVT VT, EVT MemVT,
const SDLoc &SL, SDValue Val,		const SDLoc &SL, SDValue Val,
bool Signed,		bool Signed,
const ISD::InputArg *Arg) const {		const ISD::InputArg *Arg) const {
		// First, if it is a widened vector, narrow it.
		if (VT.isVector() &&
		VT.getVectorNumElements() != MemVT.getVectorNumElements()) {
		EVT NarrowedVT =
		EVT::getVectorVT(*DAG.getContext(), MemVT.getVectorElementType(),
		VT.getVectorNumElements());
		Val = DAG.getNode(ISD::EXTRACT_SUBVECTOR, SL, NarrowedVT, Val,
		DAG.getConstant(0, SL, MVT::i32));
		}

		// Then convert the vector elements or scalar value.
if (Arg && (Arg->Flags.isSExt() \|\| Arg->Flags.isZExt()) &&		if (Arg && (Arg->Flags.isSExt() \|\| Arg->Flags.isZExt()) &&
VT.bitsLT(MemVT)) {		VT.bitsLT(MemVT)) {
unsigned Opc = Arg->Flags.isZExt() ? ISD::AssertZext : ISD::AssertSext;		unsigned Opc = Arg->Flags.isZExt() ? ISD::AssertZext : ISD::AssertSext;
Val = DAG.getNode(Opc, SL, MemVT, Val, DAG.getValueType(VT));		Val = DAG.getNode(Opc, SL, MemVT, Val, DAG.getValueType(VT));
}		}

if (MemVT.isFloatingPoint())		if (MemVT.isFloatingPoint())
Val = getFPExtOrFPTrunc(DAG, Val, SL, VT);		Val = getFPExtOrFPTrunc(DAG, Val, SL, VT);
▲ Show 20 Lines • Show All 5,202 Lines • ▼ Show 20 Lines	if (ExtType == ISD::NON_EXTLOAD && MemVT.getSizeInBits() < 32) {
SDValue BasePtr = Load->getBasePtr();		SDValue BasePtr = Load->getBasePtr();
MachineMemOperand *MMO = Load->getMemOperand();		MachineMemOperand *MMO = Load->getMemOperand();

EVT RealMemVT = (MemVT == MVT::i1) ? MVT::i8 : MVT::i16;		EVT RealMemVT = (MemVT == MVT::i1) ? MVT::i8 : MVT::i16;

SDValue NewLD = DAG.getExtLoad(ISD::EXTLOAD, DL, MVT::i32, Chain,		SDValue NewLD = DAG.getExtLoad(ISD::EXTLOAD, DL, MVT::i32, Chain,
BasePtr, RealMemVT, MMO);		BasePtr, RealMemVT, MMO);

		if (!MemVT.isVector()) {
SDValue Ops[] = {		SDValue Ops[] = {
DAG.getNode(ISD::TRUNCATE, DL, MemVT, NewLD),		DAG.getNode(ISD::TRUNCATE, DL, MemVT, NewLD),
NewLD.getValue(1)		NewLD.getValue(1)
};		};

return DAG.getMergeValues(Ops, DL);		return DAG.getMergeValues(Ops, DL);
}		}

		SmallVector<SDValue, 3> Elts;
		for (unsigned I = 0, N = MemVT.getVectorNumElements(); I != N; ++I) {
		SDValue Elt = DAG.getNode(ISD::SRL, DL, MVT::i32, NewLD,
		DAG.getConstant(I, DL, MVT::i32));

		Elts.push_back(DAG.getNode(ISD::TRUNCATE, DL, MVT::i1, Elt));
		}

		SDValue Ops[] = {
		DAG.getBuildVector(MemVT, DL, Elts),
		NewLD.getValue(1)
		};

		return DAG.getMergeValues(Ops, DL);
		}

if (!MemVT.isVector())		if (!MemVT.isVector())
return SDValue();		return SDValue();

assert(Op.getValueType().getVectorElementType() == MVT::i32 &&		assert(Op.getValueType().getVectorElementType() == MVT::i32 &&
"Custom lowering for non-i32 vectors hasn't been implemented.");		"Custom lowering for non-i32 vectors hasn't been implemented.");

unsigned Alignment = Load->getAlignment();		unsigned Alignment = Load->getAlignment();
unsigned AS = Load->getAddressSpace();		unsigned AS = Load->getAddressSpace();
Show All 11 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
if (AS == AMDGPUAS::FLAT_ADDRESS)		if (AS == AMDGPUAS::FLAT_ADDRESS)
AS = MFI->hasFlatScratchInit() ?		AS = MFI->hasFlatScratchInit() ?
AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;		AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;

unsigned NumElements = MemVT.getVectorNumElements();		unsigned NumElements = MemVT.getVectorNumElements();

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {
if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32)		if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32) {
		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
		if (NumElements == 3)
		return WidenVectorLoad(Op, DAG);
		return SplitVectorLoad(Op, DAG);
		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS) {		AS == AMDGPUAS::GLOBAL_ADDRESS) {
if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&		if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&
!Load->isVolatile() && isMemOpHasNoClobberedMemOperand(Load) &&		!Load->isVolatile() && isMemOpHasNoClobberedMemOperand(Load) &&
Alignment >= 4 && NumElements < 32)		Alignment >= 4 && NumElements < 32) {
		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
		if (NumElements == 3)
		return WidenVectorLoad(Op, DAG);
		return SplitVectorLoad(Op, DAG);
		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}
if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS \|\|		AS == AMDGPUAS::GLOBAL_ADDRESS \|\|
AS == AMDGPUAS::FLAT_ADDRESS) {		AS == AMDGPUAS::FLAT_ADDRESS) {
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
// v4 loads are supported for private and global memory.		// v3 loads not supported on SI.
		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())
		return WidenVectorLoad(Op, DAG);
		// v3 and v4 loads are supported for private and global memory.
return SDValue();		return SDValue();
}		}
if (AS == AMDGPUAS::PRIVATE_ADDRESS) {		if (AS == AMDGPUAS::PRIVATE_ADDRESS) {
// Depending on the setting of the private_element_size field in the		// Depending on the setting of the private_element_size field in the
// resource descriptor, we can only make private accesses up to a certain		// resource descriptor, we can only make private accesses up to a certain
// size.		// size.
switch (Subtarget->getMaxPrivateElementSize()) {		switch (Subtarget->getMaxPrivateElementSize()) {
case 4:		case 4:
return scalarizeVectorLoad(Load, DAG);		return scalarizeVectorLoad(Load, DAG);
case 8:		case 8:
if (NumElements > 2)		if (NumElements > 2)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
return SDValue();		return SDValue();
case 16:		case 16:
// Same as global/flat		// Same as global/flat
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
		// v3 loads not supported on SI.
		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())
		return WidenVectorLoad(Op, DAG);
return SDValue();		return SDValue();
default:		default:
llvm_unreachable("unsupported private_element_size");		llvm_unreachable("unsupported private_element_size");
}		}
} else if (AS == AMDGPUAS::LOCAL_ADDRESS) {		} else if (AS == AMDGPUAS::LOCAL_ADDRESS) {
// Use ds_read_b128 if possible.		// Use ds_read_b128 if possible.
if (Subtarget->useDS128() && Load->getAlignment() >= 16 &&		if (Subtarget->useDS128() && Load->getAlignment() >= 16 &&
MemVT.getStoreSize() == 16)		MemVT.getStoreSize() == 16)
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines	if (AS == AMDGPUAS::FLAT_ADDRESS)
AS = MFI->hasFlatScratchInit() ?		AS = MFI->hasFlatScratchInit() ?
AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;		AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;

unsigned NumElements = VT.getVectorNumElements();		unsigned NumElements = VT.getVectorNumElements();
if (AS == AMDGPUAS::GLOBAL_ADDRESS \|\|		if (AS == AMDGPUAS::GLOBAL_ADDRESS \|\|
AS == AMDGPUAS::FLAT_ADDRESS) {		AS == AMDGPUAS::FLAT_ADDRESS) {
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorStore(Op, DAG);		return SplitVectorStore(Op, DAG);
		// v3 stores not supported on SI.
		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())
		return SplitVectorStore(Op, DAG);
return SDValue();		return SDValue();
} else if (AS == AMDGPUAS::PRIVATE_ADDRESS) {		} else if (AS == AMDGPUAS::PRIVATE_ADDRESS) {
switch (Subtarget->getMaxPrivateElementSize()) {		switch (Subtarget->getMaxPrivateElementSize()) {
case 4:		case 4:
return scalarizeVectorStore(Store, DAG);		return scalarizeVectorStore(Store, DAG);
case 8:		case 8:
if (NumElements > 2)		if (NumElements > 2)
return SplitVectorStore(Op, DAG);		return SplitVectorStore(Op, DAG);
return SDValue();		return SDValue();
case 16:		case 16:
if (NumElements > 4)		if (NumElements > 4 \|\| NumElements == 3)
return SplitVectorStore(Op, DAG);		return SplitVectorStore(Op, DAG);
return SDValue();		return SDValue();
default:		default:
llvm_unreachable("unsupported private_element_size");		llvm_unreachable("unsupported private_element_size");
}		}
} else if (AS == AMDGPUAS::LOCAL_ADDRESS) {		} else if (AS == AMDGPUAS::LOCAL_ADDRESS) {
// Use ds_write_b128 if possible.		// Use ds_write_b128 if possible.
if (Subtarget->useDS128() && Store->getAlignment() >= 16 &&		if (Subtarget->useDS128() && Store->getAlignment() >= 16 &&
VT.getStoreSize() == 16)		VT.getStoreSize() == 16 && NumElements != 3)
return SDValue();		return SDValue();

if (NumElements > 2)		if (NumElements > 2)
return SplitVectorStore(Op, DAG);		return SplitVectorStore(Op, DAG);

// SI has a hardware bug in the LDS / GDS boounds checking: if the base		// SI has a hardware bug in the LDS / GDS boounds checking: if the base
// address is negative, then the instruction is incorrectly treated as		// address is negative, then the instruction is incorrectly treated as
// out-of-bounds even if base + offsets is in bounds. Split vectorized		// out-of-bounds even if base + offsets is in bounds. Split vectorized
▲ Show 20 Lines • Show All 2,562 Lines • ▼ Show 20 Lines	case 'r':
return std::make_pair(0U, nullptr);		return std::make_pair(0U, nullptr);
case 32:		case 32:
case 16:		case 16:
RC = &AMDGPU::SReg_32_XM0RegClass;		RC = &AMDGPU::SReg_32_XM0RegClass;
break;		break;
case 64:		case 64:
RC = &AMDGPU::SGPR_64RegClass;		RC = &AMDGPU::SGPR_64RegClass;
break;		break;
		case 96:
		RC = &AMDGPU::SReg_96RegClass;
		break;
case 128:		case 128:
RC = &AMDGPU::SReg_128RegClass;		RC = &AMDGPU::SReg_128RegClass;
break;		break;
case 256:		case 256:
RC = &AMDGPU::SReg_256RegClass;		RC = &AMDGPU::SReg_256RegClass;
break;		break;
case 512:		case 512:
RC = &AMDGPU::SReg_512RegClass;		RC = &AMDGPU::SReg_512RegClass;
▲ Show 20 Lines • Show All 261 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 556 Lines • ▼ Show 20 Lines	BuildMI(MBB, MI, DL, get(AMDGPU::S_CMP_LG_U32))
.addReg(SrcReg, getKillRegState(KillSrc))		.addReg(SrcReg, getKillRegState(KillSrc))
.addImm(0);		.addImm(0);
return;		return;
}		}

unsigned EltSize = 4;		unsigned EltSize = 4;
unsigned Opcode = AMDGPU::V_MOV_B32_e32;		unsigned Opcode = AMDGPU::V_MOV_B32_e32;
if (RI.isSGPRClass(RC)) {		if (RI.isSGPRClass(RC)) {
if (RI.getRegSizeInBits(*RC) > 32) {		// TODO: Copy vec3/vec5 with s_mov_b64s then final s_mov_b32.
		if (!(RI.getRegSizeInBits(*RC) % 64)) {
Opcode = AMDGPU::S_MOV_B64;		Opcode = AMDGPU::S_MOV_B64;
EltSize = 8;		EltSize = 8;
} else {		} else {
Opcode = AMDGPU::S_MOV_B32;		Opcode = AMDGPU::S_MOV_B32;
EltSize = 4;		EltSize = 4;
}		}

if (!RI.isSGPRClass(RI.getPhysRegClass(SrcReg))) {		if (!RI.isSGPRClass(RI.getPhysRegClass(SrcReg))) {
▲ Show 20 Lines • Show All 261 Lines • ▼ Show 20 Lines
}		}

static unsigned getSGPRSpillSaveOpcode(unsigned Size) {		static unsigned getSGPRSpillSaveOpcode(unsigned Size) {
switch (Size) {		switch (Size) {
case 4:		case 4:
return AMDGPU::SI_SPILL_S32_SAVE;		return AMDGPU::SI_SPILL_S32_SAVE;
case 8:		case 8:
return AMDGPU::SI_SPILL_S64_SAVE;		return AMDGPU::SI_SPILL_S64_SAVE;
		case 12:
		return AMDGPU::SI_SPILL_S96_SAVE;
case 16:		case 16:
return AMDGPU::SI_SPILL_S128_SAVE;		return AMDGPU::SI_SPILL_S128_SAVE;
case 32:		case 32:
return AMDGPU::SI_SPILL_S256_SAVE;		return AMDGPU::SI_SPILL_S256_SAVE;
case 64:		case 64:
return AMDGPU::SI_SPILL_S512_SAVE;		return AMDGPU::SI_SPILL_S512_SAVE;
default:		default:
llvm_unreachable("unknown register size");		llvm_unreachable("unknown register size");
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
}		}

static unsigned getSGPRSpillRestoreOpcode(unsigned Size) {		static unsigned getSGPRSpillRestoreOpcode(unsigned Size) {
switch (Size) {		switch (Size) {
case 4:		case 4:
return AMDGPU::SI_SPILL_S32_RESTORE;		return AMDGPU::SI_SPILL_S32_RESTORE;
case 8:		case 8:
return AMDGPU::SI_SPILL_S64_RESTORE;		return AMDGPU::SI_SPILL_S64_RESTORE;
		case 12:
		return AMDGPU::SI_SPILL_S96_RESTORE;
case 16:		case 16:
return AMDGPU::SI_SPILL_S128_RESTORE;		return AMDGPU::SI_SPILL_S128_RESTORE;
case 32:		case 32:
return AMDGPU::SI_SPILL_S256_RESTORE;		return AMDGPU::SI_SPILL_S256_RESTORE;
case 64:		case 64:
return AMDGPU::SI_SPILL_S512_RESTORE;		return AMDGPU::SI_SPILL_S512_RESTORE;
default:		default:
llvm_unreachable("unknown register size");		llvm_unreachable("unknown register size");
▲ Show 20 Lines • Show All 958 Lines • ▼ Show 20 Lines	static const int16_t Sub0_15_64[] = {
AMDGPU::sub12_sub13, AMDGPU::sub14_sub15,		AMDGPU::sub12_sub13, AMDGPU::sub14_sub15,
};		};

unsigned SelOp = AMDGPU::V_CNDMASK_B32_e32;		unsigned SelOp = AMDGPU::V_CNDMASK_B32_e32;
const TargetRegisterClass *EltRC = &AMDGPU::VGPR_32RegClass;		const TargetRegisterClass *EltRC = &AMDGPU::VGPR_32RegClass;
const int16_t *SubIndices = Sub0_15;		const int16_t *SubIndices = Sub0_15;
int NElts = DstSize / 32;		int NElts = DstSize / 32;

// 64-bit select is only avaialble for SALU.		// 64-bit select is only available for SALU.
		// TODO: Split 96-bit into 64-bit and 32-bit, not 3x 32-bit.
if (Pred == SCC_TRUE) {		if (Pred == SCC_TRUE) {
		if (NElts % 2) {
		SelOp = AMDGPU::S_CSELECT_B32;
		EltRC = &AMDGPU::SGPR_32RegClass;
		} else {
SelOp = AMDGPU::S_CSELECT_B64;		SelOp = AMDGPU::S_CSELECT_B64;
EltRC = &AMDGPU::SGPR_64RegClass;		EltRC = &AMDGPU::SGPR_64RegClass;
SubIndices = Sub0_15_64;		SubIndices = Sub0_15_64;

assert(NElts % 2 == 0);
NElts /= 2;		NElts /= 2;
}		}
		}

MachineInstrBuilder MIB = BuildMI(		MachineInstrBuilder MIB = BuildMI(
MBB, I, DL, get(AMDGPU::REG_SEQUENCE), DstReg);		MBB, I, DL, get(AMDGPU::REG_SEQUENCE), DstReg);

I = MIB->getIterator();		I = MIB->getIterator();

SmallVector<unsigned, 8> Regs;		SmallVector<unsigned, 8> Regs;
for (int Idx = 0; Idx != NElts; ++Idx) {		for (int Idx = 0; Idx != NElts; ++Idx) {
▲ Show 20 Lines • Show All 3,748 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstructions.td

Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
}		}

// You cannot use M0 as the output of v_readlane_b32 instructions or		// You cannot use M0 as the output of v_readlane_b32 instructions or
// use it in the sdata operand of SMEM instructions. We still need to		// use it in the sdata operand of SMEM instructions. We still need to
// be able to spill the physical register m0, so allow it for		// be able to spill the physical register m0, so allow it for
// SI_SPILL_32_* instructions.		// SI_SPILL_32_* instructions.
defm SI_SPILL_S32 : SI_SPILL_SGPR <SReg_32>;		defm SI_SPILL_S32 : SI_SPILL_SGPR <SReg_32>;
defm SI_SPILL_S64 : SI_SPILL_SGPR <SReg_64>;		defm SI_SPILL_S64 : SI_SPILL_SGPR <SReg_64>;
		defm SI_SPILL_S96 : SI_SPILL_SGPR <SReg_96>;
defm SI_SPILL_S128 : SI_SPILL_SGPR <SReg_128>;		defm SI_SPILL_S128 : SI_SPILL_SGPR <SReg_128>;
defm SI_SPILL_S256 : SI_SPILL_SGPR <SReg_256>;		defm SI_SPILL_S256 : SI_SPILL_SGPR <SReg_256>;
defm SI_SPILL_S512 : SI_SPILL_SGPR <SReg_512>;		defm SI_SPILL_S512 : SI_SPILL_SGPR <SReg_512>;

multiclass SI_SPILL_VGPR <RegisterClass vgpr_class> {		multiclass SI_SPILL_VGPR <RegisterClass vgpr_class> {
let UseNamedOperandTable = 1, VGPRSpill = 1,		let UseNamedOperandTable = 1, VGPRSpill = 1,
SchedRW = [WriteVMEM] in {		SchedRW = [WriteVMEM] in {
def _SAVE : VPseudoInstSI <		def _SAVE : VPseudoInstSI <
▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines	foreach Index = 0-2 in {
def Extract_Element_v2f32_#Index : Extract_Element <		def Extract_Element_v2f32_#Index : Extract_Element <
f32, v2f32, Index, !cast<SubRegIndex>(sub#Index)		f32, v2f32, Index, !cast<SubRegIndex>(sub#Index)
>;		>;
def Insert_Element_v2f32_#Index : Insert_Element <		def Insert_Element_v2f32_#Index : Insert_Element <
f32, v2f32, Index, !cast<SubRegIndex>(sub#Index)		f32, v2f32, Index, !cast<SubRegIndex>(sub#Index)
>;		>;
}		}

		foreach Index = 0-2 in {
		def Extract_Element_v3i32_#Index : Extract_Element <
		i32, v3i32, Index, !cast<SubRegIndex>(sub#Index)
		>;
		def Insert_Element_v3i32_#Index : Insert_Element <
		i32, v3i32, Index, !cast<SubRegIndex>(sub#Index)
		>;

		def Extract_Element_v3f32_#Index : Extract_Element <
		f32, v3f32, Index, !cast<SubRegIndex>(sub#Index)
		>;
		def Insert_Element_v3f32_#Index : Insert_Element <
		f32, v3f32, Index, !cast<SubRegIndex>(sub#Index)
		>;
		}

foreach Index = 0-3 in {		foreach Index = 0-3 in {
def Extract_Element_v4i32_#Index : Extract_Element <		def Extract_Element_v4i32_#Index : Extract_Element <
i32, v4i32, Index, !cast<SubRegIndex>(sub#Index)		i32, v4i32, Index, !cast<SubRegIndex>(sub#Index)
>;		>;
def Insert_Element_v4i32_#Index : Insert_Element <		def Insert_Element_v4i32_#Index : Insert_Element <
i32, v4i32, Index, !cast<SubRegIndex>(sub#Index)		i32, v4i32, Index, !cast<SubRegIndex>(sub#Index)
>;		>;

▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
def : BitConvert <v4i16, i64, VReg_64>;		def : BitConvert <v4i16, i64, VReg_64>;
def : BitConvert <v4f16, i64, VReg_64>;		def : BitConvert <v4f16, i64, VReg_64>;
def : BitConvert <i64, v4i16, VReg_64>;		def : BitConvert <i64, v4i16, VReg_64>;
def : BitConvert <i64, v4f16, VReg_64>;		def : BitConvert <i64, v4f16, VReg_64>;

def : BitConvert <v4i32, v4f32, VReg_128>;		def : BitConvert <v4i32, v4f32, VReg_128>;
def : BitConvert <v4f32, v4i32, VReg_128>;		def : BitConvert <v4f32, v4i32, VReg_128>;

		// 96-bit bitcast
		def : BitConvert <v3i32, v3f32, SGPR_96>;
		def : BitConvert <v3f32, v3i32, SGPR_96>;

// 128-bit bitcast		// 128-bit bitcast
def : BitConvert <v2i64, v4i32, SReg_128>;		def : BitConvert <v2i64, v4i32, SReg_128>;
def : BitConvert <v4i32, v2i64, SReg_128>;		def : BitConvert <v4i32, v2i64, SReg_128>;
def : BitConvert <v2f64, v4f32, VReg_128>;		def : BitConvert <v2f64, v4f32, VReg_128>;
def : BitConvert <v2f64, v4i32, VReg_128>;		def : BitConvert <v2f64, v4i32, VReg_128>;
def : BitConvert <v4f32, v2f64, VReg_128>;		def : BitConvert <v4f32, v2f64, VReg_128>;
def : BitConvert <v4i32, v2f64, VReg_128>;		def : BitConvert <v4i32, v2f64, VReg_128>;
def : BitConvert <v2i64, v2f64, VReg_128>;		def : BitConvert <v2i64, v2f64, VReg_128>;
▲ Show 20 Lines • Show All 805 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.cpp

Show First 20 Lines • Show All 409 Lines • ▼ Show 20 Lines	static unsigned getNumSubRegsForSpillOp(unsigned Op) {
case AMDGPU::SI_SPILL_V256_SAVE:		case AMDGPU::SI_SPILL_V256_SAVE:
case AMDGPU::SI_SPILL_V256_RESTORE:		case AMDGPU::SI_SPILL_V256_RESTORE:
return 8;		return 8;
case AMDGPU::SI_SPILL_S128_SAVE:		case AMDGPU::SI_SPILL_S128_SAVE:
case AMDGPU::SI_SPILL_S128_RESTORE:		case AMDGPU::SI_SPILL_S128_RESTORE:
case AMDGPU::SI_SPILL_V128_SAVE:		case AMDGPU::SI_SPILL_V128_SAVE:
case AMDGPU::SI_SPILL_V128_RESTORE:		case AMDGPU::SI_SPILL_V128_RESTORE:
return 4;		return 4;
		case AMDGPU::SI_SPILL_S96_SAVE:
		case AMDGPU::SI_SPILL_S96_RESTORE:
case AMDGPU::SI_SPILL_V96_SAVE:		case AMDGPU::SI_SPILL_V96_SAVE:
case AMDGPU::SI_SPILL_V96_RESTORE:		case AMDGPU::SI_SPILL_V96_RESTORE:
return 3;		return 3;
case AMDGPU::SI_SPILL_S64_SAVE:		case AMDGPU::SI_SPILL_S64_SAVE:
case AMDGPU::SI_SPILL_S64_RESTORE:		case AMDGPU::SI_SPILL_S64_RESTORE:
case AMDGPU::SI_SPILL_V64_SAVE:		case AMDGPU::SI_SPILL_V64_SAVE:
case AMDGPU::SI_SPILL_V64_RESTORE:		case AMDGPU::SI_SPILL_V64_RESTORE:
return 2;		return 2;
▲ Show 20 Lines • Show All 547 Lines • ▼ Show 20 Lines
bool SIRegisterInfo::eliminateSGPRToVGPRSpillFrameIndex(		bool SIRegisterInfo::eliminateSGPRToVGPRSpillFrameIndex(
MachineBasicBlock::iterator MI,		MachineBasicBlock::iterator MI,
int FI,		int FI,
RegScavenger *RS) const {		RegScavenger *RS) const {
switch (MI->getOpcode()) {		switch (MI->getOpcode()) {
case AMDGPU::SI_SPILL_S512_SAVE:		case AMDGPU::SI_SPILL_S512_SAVE:
case AMDGPU::SI_SPILL_S256_SAVE:		case AMDGPU::SI_SPILL_S256_SAVE:
case AMDGPU::SI_SPILL_S128_SAVE:		case AMDGPU::SI_SPILL_S128_SAVE:
		case AMDGPU::SI_SPILL_S96_SAVE:
case AMDGPU::SI_SPILL_S64_SAVE:		case AMDGPU::SI_SPILL_S64_SAVE:
case AMDGPU::SI_SPILL_S32_SAVE:		case AMDGPU::SI_SPILL_S32_SAVE:
return spillSGPR(MI, FI, RS, true);		return spillSGPR(MI, FI, RS, true);
case AMDGPU::SI_SPILL_S512_RESTORE:		case AMDGPU::SI_SPILL_S512_RESTORE:
case AMDGPU::SI_SPILL_S256_RESTORE:		case AMDGPU::SI_SPILL_S256_RESTORE:
case AMDGPU::SI_SPILL_S128_RESTORE:		case AMDGPU::SI_SPILL_S128_RESTORE:
		case AMDGPU::SI_SPILL_S96_RESTORE:
case AMDGPU::SI_SPILL_S64_RESTORE:		case AMDGPU::SI_SPILL_S64_RESTORE:
case AMDGPU::SI_SPILL_S32_RESTORE:		case AMDGPU::SI_SPILL_S32_RESTORE:
return restoreSGPR(MI, FI, RS, true);		return restoreSGPR(MI, FI, RS, true);
default:		default:
llvm_unreachable("not an SGPR spill instruction");		llvm_unreachable("not an SGPR spill instruction");
}		}
}		}

Show All 12 Lines	void SIRegisterInfo::eliminateFrameIndex(MachineBasicBlock::iterator MI,
MachineOperand &FIOp = MI->getOperand(FIOperandNum);		MachineOperand &FIOp = MI->getOperand(FIOperandNum);
int Index = MI->getOperand(FIOperandNum).getIndex();		int Index = MI->getOperand(FIOperandNum).getIndex();

switch (MI->getOpcode()) {		switch (MI->getOpcode()) {
// SGPR register spill		// SGPR register spill
case AMDGPU::SI_SPILL_S512_SAVE:		case AMDGPU::SI_SPILL_S512_SAVE:
case AMDGPU::SI_SPILL_S256_SAVE:		case AMDGPU::SI_SPILL_S256_SAVE:
case AMDGPU::SI_SPILL_S128_SAVE:		case AMDGPU::SI_SPILL_S128_SAVE:
		case AMDGPU::SI_SPILL_S96_SAVE:
case AMDGPU::SI_SPILL_S64_SAVE:		case AMDGPU::SI_SPILL_S64_SAVE:
case AMDGPU::SI_SPILL_S32_SAVE: {		case AMDGPU::SI_SPILL_S32_SAVE: {
spillSGPR(MI, Index, RS);		spillSGPR(MI, Index, RS);
break;		break;
}		}

// SGPR register restore		// SGPR register restore
case AMDGPU::SI_SPILL_S512_RESTORE:		case AMDGPU::SI_SPILL_S512_RESTORE:
case AMDGPU::SI_SPILL_S256_RESTORE:		case AMDGPU::SI_SPILL_S256_RESTORE:
case AMDGPU::SI_SPILL_S128_RESTORE:		case AMDGPU::SI_SPILL_S128_RESTORE:
		case AMDGPU::SI_SPILL_S96_RESTORE:
case AMDGPU::SI_SPILL_S64_RESTORE:		case AMDGPU::SI_SPILL_S64_RESTORE:
case AMDGPU::SI_SPILL_S32_RESTORE: {		case AMDGPU::SI_SPILL_S32_RESTORE: {
restoreSGPR(MI, Index, RS);		restoreSGPR(MI, Index, RS);
break;		break;
}		}

// VGPR register spill		// VGPR register spill
case AMDGPU::SI_SPILL_V512_SAVE:		case AMDGPU::SI_SPILL_V512_SAVE:
▲ Show 20 Lines • Show All 204 Lines • ▼ Show 20 Lines	const TargetRegisterClass *SIRegisterInfo::getPhysRegClass(unsigned Reg) const {
assert(!TargetRegisterInfo::isVirtualRegister(Reg));		assert(!TargetRegisterInfo::isVirtualRegister(Reg));

static const TargetRegisterClass *const BaseClasses[] = {		static const TargetRegisterClass *const BaseClasses[] = {
&AMDGPU::VGPR_32RegClass,		&AMDGPU::VGPR_32RegClass,
&AMDGPU::SReg_32RegClass,		&AMDGPU::SReg_32RegClass,
&AMDGPU::VReg_64RegClass,		&AMDGPU::VReg_64RegClass,
&AMDGPU::SReg_64RegClass,		&AMDGPU::SReg_64RegClass,
&AMDGPU::VReg_96RegClass,		&AMDGPU::VReg_96RegClass,
		&AMDGPU::SReg_96RegClass,
&AMDGPU::VReg_128RegClass,		&AMDGPU::VReg_128RegClass,
&AMDGPU::SReg_128RegClass,		&AMDGPU::SReg_128RegClass,
&AMDGPU::VReg_256RegClass,		&AMDGPU::VReg_256RegClass,
&AMDGPU::SReg_256RegClass,		&AMDGPU::SReg_256RegClass,
&AMDGPU::VReg_512RegClass,		&AMDGPU::VReg_512RegClass,
&AMDGPU::SReg_512RegClass,		&AMDGPU::SReg_512RegClass,
&AMDGPU::SCC_CLASSRegClass,		&AMDGPU::SCC_CLASSRegClass,
&AMDGPU::Pseudo_SReg_32RegClass,		&AMDGPU::Pseudo_SReg_32RegClass,
▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines

const TargetRegisterClass *SIRegisterInfo::getEquivalentSGPRClass(		const TargetRegisterClass *SIRegisterInfo::getEquivalentSGPRClass(
const TargetRegisterClass *VRC) const {		const TargetRegisterClass *VRC) const {
switch (getRegSizeInBits(*VRC)) {		switch (getRegSizeInBits(*VRC)) {
case 32:		case 32:
return &AMDGPU::SGPR_32RegClass;		return &AMDGPU::SGPR_32RegClass;
case 64:		case 64:
return &AMDGPU::SReg_64RegClass;		return &AMDGPU::SReg_64RegClass;
		case 96:
		return &AMDGPU::SReg_96RegClass;
case 128:		case 128:
return &AMDGPU::SReg_128RegClass;		return &AMDGPU::SReg_128RegClass;
case 256:		case 256:
return &AMDGPU::SReg_256RegClass;		return &AMDGPU::SReg_256RegClass;
case 512:		case 512:
return &AMDGPU::SReg_512RegClass;		return &AMDGPU::SReg_512RegClass;
default:		default:
llvm_unreachable("Invalid register class size");		llvm_unreachable("Invalid register class size");
}		}
}		}

const TargetRegisterClass *SIRegisterInfo::getSubRegClass(		const TargetRegisterClass *SIRegisterInfo::getSubRegClass(
const TargetRegisterClass *RC, unsigned SubIdx) const {		const TargetRegisterClass *RC, unsigned SubIdx) const {
if (SubIdx == AMDGPU::NoSubRegister)		if (SubIdx == AMDGPU::NoSubRegister)
return RC;		return RC;

// We can assume that each lane corresponds to one 32-bit register.		// We can assume that each lane corresponds to one 32-bit register.
unsigned Count = getSubRegIndexLaneMask(SubIdx).getNumLanes();		unsigned Count = getSubRegIndexLaneMask(SubIdx).getNumLanes();
if (isSGPRClass(RC)) {		if (isSGPRClass(RC)) {
switch (Count) {		switch (Count) {
case 1:		case 1:
return &AMDGPU::SGPR_32RegClass;		return &AMDGPU::SGPR_32RegClass;
case 2:		case 2:
return &AMDGPU::SReg_64RegClass;		return &AMDGPU::SReg_64RegClass;
		case 3:
		return &AMDGPU::SReg_96RegClass;
case 4:		case 4:
return &AMDGPU::SReg_128RegClass;		return &AMDGPU::SReg_128RegClass;
case 8:		case 8:
return &AMDGPU::SReg_256RegClass;		return &AMDGPU::SReg_256RegClass;
case 16: /* fall-through */		case 16: /* fall-through */
default:		default:
llvm_unreachable("Invalid sub-register class size");		llvm_unreachable("Invalid sub-register class size");
}		}
▲ Show 20 Lines • Show All 251 Lines • ▼ Show 20 Lines	SIRegisterInfo::getConstrainedRegClassForOperand(const MachineOperand &MO,
case 32:		case 32:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VGPR_32RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VGPR_32RegClass :
&AMDGPU::SReg_32_XM0RegClass;		&AMDGPU::SReg_32_XM0RegClass;
case 64:		case 64:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_64RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_64RegClass :
&AMDGPU::SReg_64_XEXECRegClass;		&AMDGPU::SReg_64_XEXECRegClass;
case 96:		case 96:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_96RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_96RegClass :
nullptr;		&AMDGPU::SReg_96RegClass;
case 128:		case 128:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_128RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_128RegClass :
&AMDGPU::SReg_128RegClass;		&AMDGPU::SReg_128RegClass;
case 256:		case 256:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_256RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_256RegClass :
&AMDGPU::SReg_256RegClass;		&AMDGPU::SReg_256RegClass;
case 512:		case 512:
return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_512RegClass :		return RB->getID() == AMDGPU::VGPRRegBankID ? &AMDGPU::VReg_512RegClass :
▲ Show 20 Lines • Show All 59 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.td

Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	def SGPR_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
let AllocationPriority = 7;		let AllocationPriority = 7;
}		}

// SGPR 64-bit registers		// SGPR 64-bit registers
def SGPR_64Regs : RegisterTuples<getSubRegs<2>.ret,		def SGPR_64Regs : RegisterTuples<getSubRegs<2>.ret,
[(add (decimate SGPR_32, 2)),		[(add (decimate SGPR_32, 2)),
(add (decimate (shl SGPR_32, 1), 2))]>;		(add (decimate (shl SGPR_32, 1), 2))]>;

		// SGPR 96-bit registers. No operations use these, but for symmetry with 96-bit VGPRs.
		def SGPR_96Regs : RegisterTuples<getSubRegs<3>.ret,
		[(add (decimate SGPR_32, 3)),
		(add (decimate (shl SGPR_32, 1), 3)),
		(add (decimate (shl SGPR_32, 2), 3))]>;

// SGPR 128-bit registers		// SGPR 128-bit registers
def SGPR_128Regs : RegisterTuples<getSubRegs<4>.ret,		def SGPR_128Regs : RegisterTuples<getSubRegs<4>.ret,
[(add (decimate SGPR_32, 4)),		[(add (decimate SGPR_32, 4)),
(add (decimate (shl SGPR_32, 1), 4)),		(add (decimate (shl SGPR_32, 1), 4)),
(add (decimate (shl SGPR_32, 2), 4)),		(add (decimate (shl SGPR_32, 2), 4)),
(add (decimate (shl SGPR_32, 3), 4))]>;		(add (decimate (shl SGPR_32, 3), 4))]>;

// SGPR 256-bit registers		// SGPR 256-bit registers
▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
}		}

// Subset of SReg_32 without M0 for SMRD instructions and alike.		// Subset of SReg_32 without M0 for SMRD instructions and alike.
// See comments in SIInstructions.td for more info.		// See comments in SIInstructions.td for more info.
def SReg_32_XM0_XEXEC : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def SReg_32_XM0_XEXEC : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add SGPR_32, VCC_LO, VCC_HI, FLAT_SCR_LO, FLAT_SCR_HI, XNACK_MASK_LO, XNACK_MASK_HI,		(add SGPR_32, VCC_LO, VCC_HI, FLAT_SCR_LO, FLAT_SCR_HI, XNACK_MASK_LO, XNACK_MASK_HI,
TTMP_32, TMA_LO, TMA_HI, TBA_LO, TBA_HI, SRC_SHARED_BASE, SRC_SHARED_LIMIT,		TTMP_32, TMA_LO, TMA_HI, TBA_LO, TBA_HI, SRC_SHARED_BASE, SRC_SHARED_LIMIT,
SRC_PRIVATE_BASE, SRC_PRIVATE_LIMIT, SRC_POPS_EXITING_WAVE_ID)> {		SRC_PRIVATE_BASE, SRC_PRIVATE_LIMIT, SRC_POPS_EXITING_WAVE_ID)> {
let AllocationPriority = 7;		let AllocationPriority = 8;
}		}

def SReg_32_XEXEC_HI : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def SReg_32_XEXEC_HI : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add SReg_32_XM0_XEXEC, EXEC_LO, M0_CLASS)> {		(add SReg_32_XM0_XEXEC, EXEC_LO, M0_CLASS)> {
let AllocationPriority = 7;		let AllocationPriority = 8;
}		}

def SReg_32_XM0 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def SReg_32_XM0 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add SReg_32_XM0_XEXEC, EXEC_LO, EXEC_HI)> {		(add SReg_32_XM0_XEXEC, EXEC_LO, EXEC_HI)> {
let AllocationPriority = 7;		let AllocationPriority = 8;
}		}

// Register class for all scalar registers (SGPRs + Special Registers)		// Register class for all scalar registers (SGPRs + Special Registers)
def SReg_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def SReg_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add SReg_32_XM0, M0_CLASS, EXEC_LO, EXEC_HI, SReg_32_XEXEC_HI)> {		(add SReg_32_XM0, M0_CLASS, EXEC_LO, EXEC_HI, SReg_32_XEXEC_HI)> {
let AllocationPriority = 7;		let AllocationPriority = 8;
}		}

def SRegOrLds_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def SRegOrLds_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add SReg_32_XM0, M0_CLASS, EXEC_LO, EXEC_HI, SReg_32_XEXEC_HI, LDS_DIRECT_CLASS)> {		(add SReg_32_XM0, M0_CLASS, EXEC_LO, EXEC_HI, SReg_32_XEXEC_HI, LDS_DIRECT_CLASS)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

def SGPR_64 : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, v4i16, v4f16], 32, (add SGPR_64Regs)> {		def SGPR_64 : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, v4i16, v4f16], 32, (add SGPR_64Regs)> {
let CopyCost = 1;		let CopyCost = 1;
let AllocationPriority = 8;		let AllocationPriority = 9;
}		}

def TTMP_64 : RegisterClass<"AMDGPU", [v2i32, i64, f64, v4i16, v4f16], 32, (add TTMP_64Regs)> {		def TTMP_64 : RegisterClass<"AMDGPU", [v2i32, i64, f64, v4i16, v4f16], 32, (add TTMP_64Regs)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

def SReg_64_XEXEC : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, i1, v4i16, v4f16], 32,		def SReg_64_XEXEC : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, i1, v4i16, v4f16], 32,
(add SGPR_64, VCC, FLAT_SCR, XNACK_MASK, TTMP_64, TBA, TMA)> {		(add SGPR_64, VCC, FLAT_SCR, XNACK_MASK, TTMP_64, TBA, TMA)> {
let CopyCost = 1;		let CopyCost = 1;
let AllocationPriority = 8;		let AllocationPriority = 9;
}		}

def SReg_64 : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, i1, v4i16, v4f16], 32,		def SReg_64 : RegisterClass<"AMDGPU", [v2i32, i64, v2f32, f64, i1, v4i16, v4f16], 32,
(add SReg_64_XEXEC, EXEC)> {		(add SReg_64_XEXEC, EXEC)> {
let CopyCost = 1;		let CopyCost = 1;
let AllocationPriority = 8;		let AllocationPriority = 9;
}		}

// Requires 2 s_mov_b64 to copy		// Requires 2 s_mov_b64 to copy
let CopyCost = 2 in {		let CopyCost = 2 in {

def SGPR_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64], 32, (add SGPR_128Regs)> {		// There are no 3-component scalar instructions, but this is needed
		// for symmetry with VGPRs.
		def SGPR_96 : RegisterClass<"AMDGPU", [v3i32, v3f32], 32,
		(add SGPR_96Regs)> {
let AllocationPriority = 10;		let AllocationPriority = 10;
}		}

		def SReg_96 : RegisterClass<"AMDGPU", [v3i32, v3f32], 32,
		(add SGPR_96)> {
		let AllocationPriority = 10;
		}

		def SGPR_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64], 32, (add SGPR_128Regs)> {
		let AllocationPriority = 11;
		}

def TTMP_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64], 32, (add TTMP_128Regs)> {		def TTMP_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64], 32, (add TTMP_128Regs)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

def SReg_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64, v2f64], 32,		def SReg_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64, v2f64], 32,
(add SGPR_128, TTMP_128)> {		(add SGPR_128, TTMP_128)> {
let AllocationPriority = 10;		let AllocationPriority = 11;
}		}

} // End CopyCost = 2		} // End CopyCost = 2

def SGPR_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add SGPR_256Regs)> {		def SGPR_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add SGPR_256Regs)> {
let AllocationPriority = 11;		let AllocationPriority = 13;
}		}

def TTMP_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add TTMP_256Regs)> {		def TTMP_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add TTMP_256Regs)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

def SReg_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32,		def SReg_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32,
(add SGPR_256, TTMP_256)> {		(add SGPR_256, TTMP_256)> {
// Requires 4 s_mov_b64 to copy		// Requires 4 s_mov_b64 to copy
let CopyCost = 4;		let CopyCost = 4;
let AllocationPriority = 11;		let AllocationPriority = 13;
}		}

def SGPR_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add SGPR_512Regs)> {		def SGPR_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add SGPR_512Regs)> {
let AllocationPriority = 12;		let AllocationPriority = 14;
}		}

def TTMP_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add TTMP_512Regs)> {		def TTMP_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add TTMP_512Regs)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

def SReg_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32,		def SReg_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32,
(add SGPR_512, TTMP_512)> {		(add SGPR_512, TTMP_512)> {
// Requires 8 s_mov_b64 to copy		// Requires 8 s_mov_b64 to copy
let CopyCost = 8;		let CopyCost = 8;
let AllocationPriority = 12;		let AllocationPriority = 14;
}		}

def VRegOrLds_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def VRegOrLds_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add VGPR_32, LDS_DIRECT_CLASS)> {		(add VGPR_32, LDS_DIRECT_CLASS)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

// Register class for all vector registers (VGPRs + Interploation Registers)		// Register class for all vector registers (VGPRs + Interploation Registers)
def VReg_64 : RegisterClass<"AMDGPU", [i64, f64, v2i32, v2f32, v4f16, v4i16], 32, (add VGPR_64)> {		def VReg_64 : RegisterClass<"AMDGPU", [i64, f64, v2i32, v2f32, v4f16, v4i16], 32, (add VGPR_64)> {
let Size = 64;		let Size = 64;

// Requires 2 v_mov_b32 to copy		// Requires 2 v_mov_b32 to copy
let CopyCost = 2;		let CopyCost = 2;
let AllocationPriority = 2;		let AllocationPriority = 2;
}		}

def VReg_96 : RegisterClass<"AMDGPU", [untyped], 32, (add VGPR_96)> {		def VReg_96 : RegisterClass<"AMDGPU", [v3i32, v3f32], 32, (add VGPR_96)> {
let Size = 96;		let Size = 96;

// Requires 3 v_mov_b32 to copy		// Requires 3 v_mov_b32 to copy
let CopyCost = 3;		let CopyCost = 3;
let AllocationPriority = 3;		let AllocationPriority = 3;
}		}

def VReg_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64, v2f64], 32, (add VGPR_128)> {		def VReg_128 : RegisterClass<"AMDGPU", [v4i32, v4f32, v2i64, v2f64], 32, (add VGPR_128)> {
let Size = 128;		let Size = 128;

// Requires 4 v_mov_b32 to copy		// Requires 4 v_mov_b32 to copy
let CopyCost = 4;		let CopyCost = 4;
let AllocationPriority = 4;		let AllocationPriority = 4;
}		}

def VReg_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add VGPR_256)> {		def VReg_256 : RegisterClass<"AMDGPU", [v8i32, v8f32], 32, (add VGPR_256)> {
let Size = 256;		let Size = 256;
let CopyCost = 8;		let CopyCost = 8;
let AllocationPriority = 5;		let AllocationPriority = 6;
}		}

def VReg_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add VGPR_512)> {		def VReg_512 : RegisterClass<"AMDGPU", [v16i32, v16f32], 32, (add VGPR_512)> {
let Size = 512;		let Size = 512;
let CopyCost = 16;		let CopyCost = 16;
let AllocationPriority = 6;		let AllocationPriority = 7;
}		}

def VReg_1 : RegisterClass<"AMDGPU", [i1], 32, (add VGPR_32)> {		def VReg_1 : RegisterClass<"AMDGPU", [i1], 32, (add VGPR_32)> {
let Size = 32;		let Size = 32;
}		}

def VS_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,		def VS_32 : RegisterClass<"AMDGPU", [i32, f32, i16, f16, v2i16, v2f16], 32,
(add VGPR_32, SReg_32, LDS_DIRECT_CLASS)> {		(add VGPR_32, SReg_32, LDS_DIRECT_CLASS)> {
▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp

Show First 20 Lines • Show All 808 Lines • ▼ Show 20 Lines	unsigned getRegBitWidth(unsigned RCID) {
case AMDGPU::SRegOrLds_32RegClassID:		case AMDGPU::SRegOrLds_32RegClassID:
return 32;		return 32;
case AMDGPU::SGPR_64RegClassID:		case AMDGPU::SGPR_64RegClassID:
case AMDGPU::VS_64RegClassID:		case AMDGPU::VS_64RegClassID:
case AMDGPU::SReg_64RegClassID:		case AMDGPU::SReg_64RegClassID:
case AMDGPU::VReg_64RegClassID:		case AMDGPU::VReg_64RegClassID:
case AMDGPU::SReg_64_XEXECRegClassID:		case AMDGPU::SReg_64_XEXECRegClassID:
return 64;		return 64;
		case AMDGPU::SGPR_96RegClassID:
		case AMDGPU::SReg_96RegClassID:
case AMDGPU::VReg_96RegClassID:		case AMDGPU::VReg_96RegClassID:
return 96;		return 96;
case AMDGPU::SGPR_128RegClassID:		case AMDGPU::SGPR_128RegClassID:
case AMDGPU::SReg_128RegClassID:		case AMDGPU::SReg_128RegClassID:
case AMDGPU::VReg_128RegClassID:		case AMDGPU::VReg_128RegClassID:
return 128;		return 128;
case AMDGPU::SReg_256RegClassID:		case AMDGPU::SReg_256RegClassID:
case AMDGPU::VReg_256RegClassID:		case AMDGPU::VReg_256RegClassID:
▲ Show 20 Lines • Show All 191 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/call-return-types.ll

	Show First 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @test_call_external_v2i32_func_void() #0 {			define amdgpu_kernel void @test_call_external_v2i32_func_void() #0 {
	%val = call <2 x i32> @external_v2i32_func_void()			%val = call <2 x i32> @external_v2i32_func_void()
	store volatile <2 x i32> %val, <2 x i32> addrspace(1)* undef			store volatile <2 x i32> %val, <2 x i32> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_call_external_v3i32_func_void:			; GCN-LABEL: {{^}}test_call_external_v3i32_func_void:
	; GCN: s_swappc			; GCN: s_swappc
	; GFX7-DAG: flat_store_dwordx2 {{.*}}, v[0:1]			; GFX7-DAG: flat_store_dwordx3 {{.*}}, v[0:2]
	; GFX7-DAG: flat_store_dword {{.*}}, v2			; GFX89-DAG: buffer_store_dwordx3 v[0:2]
	; GFX89-DAG: buffer_store_dwordx2 v[0:1]
	; GFX89-DAG: buffer_store_dword v2
	define amdgpu_kernel void @test_call_external_v3i32_func_void() #0 {			define amdgpu_kernel void @test_call_external_v3i32_func_void() #0 {
	%val = call <3 x i32> @external_v3i32_func_void()			%val = call <3 x i32> @external_v3i32_func_void()
	store volatile <3 x i32> %val, <3 x i32> addrspace(1)* undef, align 8			store volatile <3 x i32> %val, <3 x i32> addrspace(1)* undef, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_call_external_v4i32_func_void:			; GCN-LABEL: {{^}}test_call_external_v4i32_func_void:
	define amdgpu_kernel void @test_call_external_v4i32_func_void() #0 {			define amdgpu_kernel void @test_call_external_v4i32_func_void() #0 {
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @test_call_external_v4f16_func_void() #0 {			define amdgpu_kernel void @test_call_external_v4f16_func_void() #0 {
	%val = call <4 x half> @external_v4f16_func_void()			%val = call <4 x half> @external_v4f16_func_void()
	store volatile <4 x half> %val, <4 x half> addrspace(1)* undef			store volatile <4 x half> %val, <4 x half> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_call_external_v3f32_func_void:			; GCN-LABEL: {{^}}test_call_external_v3f32_func_void:
	; GCN: s_swappc			; GCN: s_swappc
	; GFX7-DAG: flat_store_dwordx2 {{.*}}, v[0:1]			; GFX7-DAG: flat_store_dwordx3 {{.*}}, v[0:2]
	; GFX7-DAG: flat_store_dword {{.*}}, v2			; GFX89-DAG: buffer_store_dwordx3 v[0:2]
	; GFX89-DAG: buffer_store_dwordx2 v[0:1]
	; GFX89-DAG: buffer_store_dword v2
	define amdgpu_kernel void @test_call_external_v3f32_func_void() #0 {			define amdgpu_kernel void @test_call_external_v3f32_func_void() #0 {
	%val = call <3 x float> @external_v3f32_func_void()			%val = call <3 x float> @external_v3f32_func_void()
	store volatile <3 x float> %val, <3 x float> addrspace(1)* undef			store volatile <3 x float> %val, <3 x float> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_call_external_v5f32_func_void:			; GCN-LABEL: {{^}}test_call_external_v5f32_func_void:
	; GCN: s_swappc			; GCN: s_swappc
	Show All 34 Lines

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert-cost.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -stress-early-ifcvt -amdgpu-early-ifcvt=1 -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -amdgpu-scalarize-global-loads=false -stress-early-ifcvt -amdgpu-early-ifcvt=1 -march=amdgcn -mcpu=verde -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,SI %s
				; RUN: llc -amdgpu-scalarize-global-loads=false -stress-early-ifcvt -amdgpu-early-ifcvt=1 -march=amdgcn -mcpu=gfx700 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GCNX3 %s

	; FIXME: Most of these cases that don't trigger because of broken cost			; FIXME: Most of these cases that don't trigger because of broken cost
	; heuristics. Should not need -stress-early-ifcvt			; heuristics. Should not need -stress-early-ifcvt

	; GCN-LABEL: {{^}}test_vccnz_ifcvt_triangle64:			; GCN-LABEL: {{^}}test_vccnz_ifcvt_triangle64:
	; GCN: buffer_load_dwordx2 v{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}			; GCN: buffer_load_dwordx2 v{{\[}}[[VAL_LO:[0-9]+]]:[[VAL_HI:[0-9]+]]{{\]}}
	; GCN: v_cmp_neq_f64_e32 vcc, 1.0, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}			; GCN: v_cmp_neq_f64_e32 vcc, 1.0, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}
	; GCN: v_add_f64 v{{\[}}[[ADD_LO:[0-9]+]]:[[ADD_HI:[0-9]+]]{{\]}}, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}			; GCN: v_add_f64 v{{\[}}[[ADD_LO:[0-9]+]]:[[ADD_HI:[0-9]+]]{{\]}}, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}, v{{\[}}[[VAL_LO]]:[[VAL_HI]]{{\]}}
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GCN: v_add_i32_e32			; GCN: v_add_i32_e32
	; GCN: v_add_i32_e32			; GCN: v_add_i32_e32
	; GCN: s_mov_b64 vcc, [[CMP]]			; GCN: s_mov_b64 vcc, [[CMP]]

	; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc			; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc
	; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc			; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc
	; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc			; GCN: v_cndmask_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, vcc

	; GCN-DAG: buffer_store_dword v			; SI-DAG: buffer_store_dwordx2
	; GCN-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dword v
				; GCNX3: buffer_store_dwordx3
	define amdgpu_kernel void @test_vccnz_ifcvt_triangle96(<3 x i32> addrspace(1)* %out, <3 x i32> addrspace(1)* %in, float %cnd) #0 {			define amdgpu_kernel void @test_vccnz_ifcvt_triangle96(<3 x i32> addrspace(1)* %out, <3 x i32> addrspace(1)* %in, float %cnd) #0 {
	entry:			entry:
	%v = load <3 x i32>, <3 x i32> addrspace(1)* %in			%v = load <3 x i32>, <3 x i32> addrspace(1)* %in
	%cc = fcmp oeq float %cnd, 1.000000e+00			%cc = fcmp oeq float %cnd, 1.000000e+00
	br i1 %cc, label %if, label %endif			br i1 %cc, label %if, label %endif

	if:			if:
	%u = add <3 x i32> %v, %v			%u = add <3 x i32> %v, %v
	Show All 38 Lines

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert.ll

Show First 20 Lines • Show All 310 Lines • ▼ Show 20 Lines	endif:
ret void		ret void
}		}

; TODO: Can do s_cselect_b64; s_cselect_b32		; TODO: Can do s_cselect_b64; s_cselect_b32
; GCN-LABEL: {{^}}test_scc1_sgpr_ifcvt_triangle96:		; GCN-LABEL: {{^}}test_scc1_sgpr_ifcvt_triangle96:
; GCN: s_add_i32		; GCN: s_add_i32
; GCN: s_add_i32		; GCN: s_add_i32
; GCN: s_add_i32		; GCN: s_add_i32
; GCN: s_add_i32
; GCN: s_cmp_lg_u32 s{{[0-9]+}}, 1		; GCN: s_cmp_lg_u32 s{{[0-9]+}}, 1
; GCN-NEXT: s_cselect_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}		; GCN-NEXT: s_cselect_b32 s
; GCN-NEXT: s_cselect_b64 s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}		; GCN-NEXT: s_cselect_b32 s
		; GCN-NEXT: s_cselect_b32 s
define amdgpu_kernel void @test_scc1_sgpr_ifcvt_triangle96(<3 x i32> addrspace(4)* %in, i32 %cond) #0 {		define amdgpu_kernel void @test_scc1_sgpr_ifcvt_triangle96(<3 x i32> addrspace(4)* %in, i32 %cond) #0 {
entry:		entry:
%v = load <3 x i32>, <3 x i32> addrspace(4)* %in		%v = load <3 x i32>, <3 x i32> addrspace(4)* %in
%cc = icmp eq i32 %cond, 1		%cc = icmp eq i32 %cond, 1
br i1 %cc, label %if, label %endif		br i1 %cc, label %if, label %endif

if:		if:
%u = add <3 x i32> %v, %v		%u = add <3 x i32> %v, %v
▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/function-args.ll

	Show First 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; GCN-NOT: v1			; GCN-NOT: v1
	; GCN: buffer_store_dwordx2 v[0:1], off			; GCN: buffer_store_dwordx2 v[0:1], off
	define void @void_func_v2i32(<2 x i32> %arg0) #0 {			define void @void_func_v2i32(<2 x i32> %arg0) #0 {
	store <2 x i32> %arg0, <2 x i32> addrspace(1)* undef			store <2 x i32> %arg0, <2 x i32> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}void_func_v3i32:			; GCN-LABEL: {{^}}void_func_v3i32:
	; GCN-DAG: buffer_store_dword v2, off			; GCN-DAG: buffer_store_dwordx3 v[0:2], off
	; GCN-DAG: buffer_store_dwordx2 v[0:1], off
	define void @void_func_v3i32(<3 x i32> %arg0) #0 {			define void @void_func_v3i32(<3 x i32> %arg0) #0 {
	store <3 x i32> %arg0, <3 x i32> addrspace(1)* undef			store <3 x i32> %arg0, <3 x i32> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}void_func_v4i32:			; GCN-LABEL: {{^}}void_func_v4i32:
	; GCN: buffer_store_dwordx4 v[0:3], off			; GCN: buffer_store_dwordx4 v[0:3], off
	define void @void_func_v4i32(<4 x i32> %arg0) #0 {			define void @void_func_v4i32(<4 x i32> %arg0) #0 {
	▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	; GCN-NOT: v1			; GCN-NOT: v1
	; GCN: buffer_store_dwordx2 v[0:1], off			; GCN: buffer_store_dwordx2 v[0:1], off
	define void @void_func_v2f32(<2 x float> %arg0) #0 {			define void @void_func_v2f32(<2 x float> %arg0) #0 {
	store <2 x float> %arg0, <2 x float> addrspace(1)* undef			store <2 x float> %arg0, <2 x float> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}void_func_v3f32:			; GCN-LABEL: {{^}}void_func_v3f32:
	; GCN-DAG: buffer_store_dword v2, off			; GCN-DAG: buffer_store_dwordx3 v[0:2], off
	; GCN-DAG: buffer_store_dwordx2 v[0:1], off
	define void @void_func_v3f32(<3 x float> %arg0) #0 {			define void @void_func_v3f32(<3 x float> %arg0) #0 {
	store <3 x float> %arg0, <3 x float> addrspace(1)* undef			store <3 x float> %arg0, <3 x float> addrspace(1)* undef
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}void_func_v4f32:			; GCN-LABEL: {{^}}void_func_v4f32:
	; GCN: buffer_store_dwordx4 v[0:3], off			; GCN: buffer_store_dwordx4 v[0:3], off
	define void @void_func_v4f32(<4 x float> %arg0) #0 {			define void @void_func_v4f32(<4 x float> %arg0) #0 {
	▲ Show 20 Lines • Show All 437 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/function-returns.ll

	Show First 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64			; GCN-NEXT: s_setpc_b64
	define <2 x i32> @v2i32_func_void() #0 {			define <2 x i32> @v2i32_func_void() #0 {
	%val = load <2 x i32>, <2 x i32> addrspace(1)* undef			%val = load <2 x i32>, <2 x i32> addrspace(1)* undef
	ret <2 x i32> %val			ret <2 x i32> %val
	}			}

	; GCN-LABEL: {{^}}v3i32_func_void:			; GCN-LABEL: {{^}}v3i32_func_void:
	; GCN: buffer_load_dwordx4 v[0:3], off			; GCN: buffer_load_dwordx3 v[0:2], off
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: s_setpc_b64			; GCN-NEXT: s_setpc_b64
	define <3 x i32> @v3i32_func_void() #0 {			define <3 x i32> @v3i32_func_void() #0 {
	%val = load <3 x i32>, <3 x i32> addrspace(1)* undef			%val = load <3 x i32>, <3 x i32> addrspace(1)* undef
	ret <3 x i32> %val			ret <3 x i32> %val
	}			}

	; GCN-LABEL: {{^}}v4i32_func_void:			; GCN-LABEL: {{^}}v4i32_func_void:
	▲ Show 20 Lines • Show All 422 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/half.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {			define amdgpu_kernel void @extload_v2f16_to_v2f32_arg(<2 x float> addrspace(1)* %out, <2 x half> %arg) #0 {
	%ext = fpext <2 x half> %arg to <2 x float>			%ext = fpext <2 x half> %arg to <2 x float>
	store <2 x float> %ext, <2 x float> addrspace(1)* %out			store <2 x float> %ext, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:			; GCN-LABEL: {{^}}extload_v3f16_to_v3f32_arg:
	; GCN: s_load_dwordx2 s			; GCN: s_load_dwordx2 s
	; GCN: s_load_dwordx2 s
	; GCN-NOT: _load
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
				; GCN: s_load_dwordx2 s
				; GCN-NOT: _load
	; GCN: v_cvt_f32_f16_e32			; GCN: v_cvt_f32_f16_e32
	; GCN-NOT: v_cvt_f32_f16			; GCN-NOT: v_cvt_f32_f16
	; GCN-DAG: _store_dword			; GCN-DAG: _store_dwordx3
	; GCN-DAG: _store_dwordx2
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {			define amdgpu_kernel void @extload_v3f16_to_v3f32_arg(<3 x float> addrspace(1)* %out, <3 x half> %arg) #0 {
	%ext = fpext <3 x half> %arg to <3 x float>			%ext = fpext <3 x half> %arg to <3 x float>
	store <3 x float> %ext, <3 x float> addrspace(1)* %out			store <3 x float> %ext, <3 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:			; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:
	▲ Show 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @global_truncstore_v2f32_to_v2f16(<2 x half> addrspace(1)* %out, <2 x float> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_truncstore_v2f32_to_v2f16(<2 x half> addrspace(1)* %out, <2 x float> addrspace(1)* %in) #0 {
	%val = load <2 x float>, <2 x float> addrspace(1)* %in			%val = load <2 x float>, <2 x float> addrspace(1)* %in
	%cvt = fptrunc <2 x float> %val to <2 x half>			%cvt = fptrunc <2 x float> %val to <2 x half>
	store <2 x half> %cvt, <2 x half> addrspace(1)* %out			store <2 x half> %cvt, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}global_truncstore_v3f32_to_v3f16:			; GCN-LABEL: {{^}}global_truncstore_v3f32_to_v3f16:
	; GCN: flat_load_dwordx4			; GCN: flat_load_dwordx3
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; SI-DAG: v_cvt_f16_f32_e32			; SI-DAG: v_cvt_f16_f32_e32
	; VI-DAG: v_cvt_f16_f32_sdwa			; VI-DAG: v_cvt_f16_f32_sdwa
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN: flat_store_short			; GCN: flat_store_short
	; GCN: flat_store_dword			; GCN: flat_store_dword
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @global_truncstore_v3f32_to_v3f16(<3 x half> addrspace(1)* %out, <3 x float> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_truncstore_v3f32_to_v3f16(<3 x half> addrspace(1)* %out, <3 x float> addrspace(1)* %in) #0 {
	▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/idot4u.ll

	Show First 20 Lines • Show All 1,772 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc8_vecMul:			; GFX8-LABEL: udot4_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX8-NEXT: s_movk_i32 s8, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_load_ubyte v2, v[0:1]			; GFX8-NEXT: flat_load_ubyte v2, v[0:1]
	; GFX8-NEXT: s_load_dword s1, s[4:5], 0x0			; GFX8-NEXT: s_load_dword s0, s[4:5], 0x0
	; GFX8-NEXT: s_load_dword s2, s[6:7], 0x0			; GFX8-NEXT: s_load_dword s1, s[6:7], 0x0
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8-NEXT: s_lshr_b32 s2, s0, 24
	; GFX8-NEXT: s_lshr_b32 s3, s1, 24			; GFX8-NEXT: s_lshr_b32 s3, s1, 24
	; GFX8-NEXT: s_lshr_b32 s4, s2, 24			; GFX8-NEXT: s_bfe_u32 s6, s1, 0x80010
	; GFX8-NEXT: s_and_b32 s6, s1, s0			; GFX8-NEXT: s_and_b32 s7, s1, s8
	; GFX8-NEXT: s_bfe_u32 s7, s2, 0x80010			; GFX8-NEXT: v_mov_b32_e32 v3, s0
	; GFX8-NEXT: s_and_b32 s0, s2, s0			; GFX8-NEXT: v_mov_b32_e32 v4, s1
	; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_mov_b32_e32 v4, s2
	; GFX8-NEXT: v_mul_u32_u24_sdwa v3, v3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1			; GFX8-NEXT: v_mul_u32_u24_sdwa v3, v3, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: s_bfe_u32 s4, s0, 0x80010
	; GFX8-NEXT: s_bfe_u32 s5, s1, 0x80010			; GFX8-NEXT: v_mov_b32_e32 v5, s6
	; GFX8-NEXT: v_mov_b32_e32 v5, s7			; GFX8-NEXT: s_and_b32 s5, s0, s8
	; GFX8-NEXT: v_mov_b32_e32 v6, s4			; GFX8-NEXT: v_mov_b32_e32 v4, s7
	; GFX8-NEXT: v_mov_b32_e32 v7, s3			; GFX8-NEXT: v_mov_b32_e32 v6, s3
	; GFX8-NEXT: v_mul_u32_u24_e32 v4, s6, v4			; GFX8-NEXT: v_mov_b32_e32 v7, s2
	; GFX8-NEXT: v_mul_u32_u24_e32 v5, s5, v5			; GFX8-NEXT: v_mul_u32_u24_e32 v4, s5, v4
				; GFX8-NEXT: v_mul_u32_u24_e32 v5, s4, v5
	; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v7, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v7, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v5, v5, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 8, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v3			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v4, v2			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v4, v2
	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/load-global-f32.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC -check-prefix=SI-NOHSA %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=FUNC -check-prefix=GCNX3-HSA %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC -check-prefix=GCNX3-NOHSA %s

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=cayman < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=cayman < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}global_load_f32:			; FUNC-LABEL: {{^}}global_load_f32:
	; GCN-NOHSA: buffer_load_dword v{{[0-9]+}}			; GCN-NOHSA: buffer_load_dword v{{[0-9]+}}
	; GCN-HSA: flat_load_dword			; GCN-HSA: flat_load_dword

	Show All 13 Lines
	define amdgpu_kernel void @global_load_v2f32(<2 x float> addrspace(1)* %out, <2 x float> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_load_v2f32(<2 x float> addrspace(1)* %out, <2 x float> addrspace(1)* %in) #0 {
	entry:			entry:
	%tmp0 = load <2 x float>, <2 x float> addrspace(1)* %in			%tmp0 = load <2 x float>, <2 x float> addrspace(1)* %in
	store <2 x float> %tmp0, <2 x float> addrspace(1)* %out			store <2 x float> %tmp0, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}global_load_v3f32:			; FUNC-LABEL: {{^}}global_load_v3f32:
	; GCN-NOHSA: buffer_load_dwordx4			; SI-NOHSA: buffer_load_dwordx4
	; GCN-HSA: flat_load_dwordx4			; GCNX3-NOHSA: buffer_load_dwordx3
				; GCNX3-HSA: flat_load_dwordx3

	; R600: VTX_READ_128			; R600: VTX_READ_128
	define amdgpu_kernel void @global_load_v3f32(<3 x float> addrspace(1)* %out, <3 x float> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_load_v3f32(<3 x float> addrspace(1)* %out, <3 x float> addrspace(1)* %in) #0 {
	entry:			entry:
	%tmp0 = load <3 x float>, <3 x float> addrspace(1)* %in			%tmp0 = load <3 x float>, <3 x float> addrspace(1)* %in
	store <3 x float> %tmp0, <3 x float> addrspace(1)* %out			store <3 x float> %tmp0, <3 x float> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/load-global-i32.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=SI-NOHSA -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn--amdhsa -mcpu=kaveri -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=GCNX3-HSA -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-NOHSA -check-prefix=GCNX3-NOHSA -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=EG -check-prefix=FUNC %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=FUNC %s			; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn--amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefix=GCN -check-prefix=GCN-HSA -check-prefix=GCNX3-HSA -check-prefix=FUNC %s


	; FUNC-LABEL: {{^}}global_load_i32:			; FUNC-LABEL: {{^}}global_load_i32:
	; GCN-NOHSA: buffer_load_dword v{{[0-9]+}}			; GCN-NOHSA: buffer_load_dword v{{[0-9]+}}
	; GCN-HSA: {{flat\|global}}_load_dword			; GCN-HSA: {{flat\|global}}_load_dword

	; EG: VTX_READ_32 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0			; EG: VTX_READ_32 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0
	define amdgpu_kernel void @global_load_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_load_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
	Show All 11 Lines
	define amdgpu_kernel void @global_load_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_load_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in) #0 {
	entry:			entry:
	%ld = load <2 x i32>, <2 x i32> addrspace(1)* %in			%ld = load <2 x i32>, <2 x i32> addrspace(1)* %in
	store <2 x i32> %ld, <2 x i32> addrspace(1)* %out			store <2 x i32> %ld, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}global_load_v3i32:			; FUNC-LABEL: {{^}}global_load_v3i32:
	; GCN-NOHSA: buffer_load_dwordx4			; SI-NOHSA: buffer_load_dwordx4
	; GCN-HSA: {{flat\|global}}_load_dwordx4			; GCNX3-NOHSA: buffer_load_dwordx3
				; GCNX3-HSA: {{flat\|global}}_load_dwordx3

	; EG: VTX_READ_128			; EG: VTX_READ_128
	define amdgpu_kernel void @global_load_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> addrspace(1)* %in) #0 {			define amdgpu_kernel void @global_load_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> addrspace(1)* %in) #0 {
	entry:			entry:
	%ld = load <3 x i32>, <3 x i32> addrspace(1)* %in			%ld = load <3 x i32>, <3 x i32> addrspace(1)* %in
	store <3 x i32> %ld, <3 x i32> addrspace(1)* %out			store <3 x i32> %ld, <3 x i32> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 545 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/mad-mix-lo.ll

Show First 20 Lines • Show All 140 Lines • ▼ Show 20 Lines	define <2 x half> @v_mad_mix_v2f32_clamp_postcvt(<2 x half> %src0, <2 x half> %src1, <2 x half> %src2) #0 {
%max = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %cvt.result, <2 x half> zeroinitializer)		%max = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %cvt.result, <2 x half> zeroinitializer)
%clamp = call <2 x half> @llvm.minnum.v2f16(<2 x half> %max, <2 x half> <half 1.0, half 1.0>)		%clamp = call <2 x half> @llvm.minnum.v2f16(<2 x half> %max, <2 x half> <half 1.0, half 1.0>)
ret <2 x half> %clamp		ret <2 x half> %clamp
}		}

; FIXME: Should be packed into 2 registers per argument?		; FIXME: Should be packed into 2 registers per argument?
; GCN-LABEL: {{^}}v_mad_mix_v3f32_clamp_postcvt:		; GCN-LABEL: {{^}}v_mad_mix_v3f32_clamp_postcvt:
; GCN: s_waitcnt		; GCN: s_waitcnt
; GFX9-NEXT: v_mad_mixlo_f16 v6, v0, v2, v4 op_sel_hi:[1,1,1] clamp		; GFX9-DAG: v_mad_mixlo_f16 v{{[0-9]+}}, v0, v2, v4 op_sel_hi:[1,1,1] clamp
; GFX9-NEXT: v_mad_mixhi_f16 v6, v0, v2, v4 op_sel:[1,1,1] op_sel_hi:[1,1,1] clamp		; GFX9-DAG: v_mad_mixhi_f16 v{{[0-9]+}}, v0, v2, v4 op_sel:[1,1,1] op_sel_hi:[1,1,1] clamp
; GFX9-NEXT: v_mad_mixlo_f16 v2, v1, v3, v5 op_sel_hi:[1,1,1] clamp		; GFX9-DAG: v_mad_mixlo_f16 v{{[0-9]+}}, v1, v3, v5 op_sel_hi:[1,1,1]
; GFX9-NEXT: v_mad_mixhi_f16 v2, v1, v3, v5 op_sel:[1,1,1] op_sel_hi:[1,1,1] clamp		; GFX9-DAG: v_pk_max_f16 v1, v1, v1 clamp
; GFX9-NEXT: v_mov_b32_e32 v0, v6		; GFX9: v_mov_b32_e32 v0, v{{[0-9]+}}
; GFX9-NEXT: v_mov_b32_e32 v1, v2
; GFX9-NEXT: s_setpc_b64		; GFX9-NEXT: s_setpc_b64
define <3 x half> @v_mad_mix_v3f32_clamp_postcvt(<3 x half> %src0, <3 x half> %src1, <3 x half> %src2) #0 {		define <3 x half> @v_mad_mix_v3f32_clamp_postcvt(<3 x half> %src0, <3 x half> %src1, <3 x half> %src2) #0 {
%src0.ext = fpext <3 x half> %src0 to <3 x float>		%src0.ext = fpext <3 x half> %src0 to <3 x float>
%src1.ext = fpext <3 x half> %src1 to <3 x float>		%src1.ext = fpext <3 x half> %src1 to <3 x float>
%src2.ext = fpext <3 x half> %src2 to <3 x float>		%src2.ext = fpext <3 x half> %src2 to <3 x float>
%result = tail call <3 x float> @llvm.fmuladd.v3f32(<3 x float> %src0.ext, <3 x float> %src1.ext, <3 x float> %src2.ext)		%result = tail call <3 x float> @llvm.fmuladd.v3f32(<3 x float> %src0.ext, <3 x float> %src1.ext, <3 x float> %src2.ext)
%cvt.result = fptrunc <3 x float> %result to <3 x half>		%cvt.result = fptrunc <3 x float> %result to <3 x half>
%max = call <3 x half> @llvm.maxnum.v3f16(<3 x half> %cvt.result, <3 x half> zeroinitializer)		%max = call <3 x half> @llvm.maxnum.v3f16(<3 x half> %cvt.result, <3 x half> zeroinitializer)
▲ Show 20 Lines • Show All 153 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_global_store_4_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
store i32 %x, i32 addrspace(1)* %out		store i32 %x, i32 addrspace(1)* %out
store i32 %y, i32 addrspace(1)* %out.gep.1		store i32 %y, i32 addrspace(1)* %out.gep.1
store i32 %z, i32 addrspace(1)* %out.gep.2		store i32 %z, i32 addrspace(1)* %out.gep.2
store i32 %w, i32 addrspace(1)* %out.gep.3		store i32 %w, i32 addrspace(1)* %out.gep.3
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:		; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:
; SI-DAG: buffer_load_dwordx2		; SI-DAG: buffer_load_dwordx4
; SI-DAG: buffer_load_dword v
; CI-DAG: buffer_load_dwordx3		; CI-DAG: buffer_load_dwordx3
; GCN: s_waitcnt		; GCN: s_waitcnt
; SI-DAG: buffer_store_dwordx2		; SI-DAG: buffer_store_dwordx2
; SI-DAG: buffer_store_dword v		; SI-DAG: buffer_store_dword v
; CI-DAG: buffer_store_dwordx3		; CI-DAG: buffer_store_dwordx3
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {		define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1
▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_global_store_6_constants_i32(i32 addrspace(1)* %out) {
store i32 11, i32 addrspace(1)* %idx4, align 4		store i32 11, i32 addrspace(1)* %idx4, align 4
%idx5 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 5		%idx5 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 5
store i32 123, i32 addrspace(1)* %idx5, align 4		store i32 123, i32 addrspace(1)* %idx5, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_7_constants_i32:		; GCN-LABEL: {{^}}merge_global_store_7_constants_i32:
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; SI: buffer_store_dwordx2		; SI-DAG: buffer_store_dwordx2
; SI: buffer_store_dword v		; SI-DAG: buffer_store_dword v
; CI: buffer_store_dwordx3		; CI: buffer_store_dwordx3
define amdgpu_kernel void @merge_global_store_7_constants_i32(i32 addrspace(1)* %out) {		define amdgpu_kernel void @merge_global_store_7_constants_i32(i32 addrspace(1)* %out) {
store i32 34, i32 addrspace(1)* %out, align 4		store i32 34, i32 addrspace(1)* %out, align 4
%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1		%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1
store i32 999, i32 addrspace(1)* %idx1, align 4		store i32 999, i32 addrspace(1)* %idx1, align 4
%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2		%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2
store i32 65, i32 addrspace(1)* %idx2, align 4		store i32 65, i32 addrspace(1)* %idx2, align 4
%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3		%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3
Show All 31 Lines
}		}

; This requires handling of scalar_to_vector for v2i64 to avoid		; This requires handling of scalar_to_vector for v2i64 to avoid
; scratch usage.		; scratch usage.
; FIXME: Should do single load and store		; FIXME: Should do single load and store

; GCN-LABEL: {{^}}copy_v3i32_align4:		; GCN-LABEL: {{^}}copy_v3i32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}

Show All 17 Lines
define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {		define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {
%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4		%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4
store <3 x i64> %vec, <3 x i64> addrspace(1)* %out		store <3 x i64> %vec, <3 x i64> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}copy_v3f32_align4:		; GCN-LABEL: {{^}}copy_v3f32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN: ScratchSize: 0{{$}}		; GCN: ScratchSize: 0{{$}}
Show All 28 Lines

llvm/trunk/test/CodeGen/AMDGPU/multi-dword-vgpr-spill.ll

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-misched=0 -post-RA-scheduler=0 -stress-regalloc=8 < %s \| FileCheck %s

				; CHECK-LABEL: spill_v2i32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:24 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:28 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:24 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:28 ; 4-byte Folded Reload

				define void @spill_v2i32() {
				entry:
				%alloca = alloca <2 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <2 x i32>, <2 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <2 x i32>, <2 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <2 x i32>, <2 x i32> addrspace(5)* %alloca, i32 1
				store volatile <2 x i32> %a, <2 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v2f32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:24 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:28 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:24 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:28 ; 4-byte Folded Reload

				define void @spill_v2f32() {
				entry:
				%alloca = alloca <2 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <2 x i32>, <2 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <2 x i32>, <2 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <2 x i32>, <2 x i32> addrspace(5)* %alloca, i32 1
				store volatile <2 x i32> %a, <2 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v3i32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:48 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:52 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:56 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:48 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:52 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:56 ; 4-byte Folded Reload

				define void @spill_v3i32() {
				entry:
				%alloca = alloca <3 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <3 x i32>, <3 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <3 x i32>, <3 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <3 x i32>, <3 x i32> addrspace(5)* %alloca, i32 1
				store volatile <3 x i32> %a, <3 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v3f32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:48 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:52 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:56 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:48 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:52 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:56 ; 4-byte Folded Reload

				define void @spill_v3f32() {
				entry:
				%alloca = alloca <3 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <3 x i32>, <3 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <3 x i32>, <3 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <3 x i32>, <3 x i32> addrspace(5)* %alloca, i32 1
				store volatile <3 x i32> %a, <3 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v4i32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:48 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:52 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:56 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:60 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:48 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:52 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:56 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:60 ; 4-byte Folded Reload

				define void @spill_v4i32() {
				entry:
				%alloca = alloca <4 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <4 x i32>, <4 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <4 x i32>, <4 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <4 x i32>, <4 x i32> addrspace(5)* %alloca, i32 1
				store volatile <4 x i32> %a, <4 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v4f32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:48 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:52 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:56 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:60 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:48 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:52 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:56 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:60 ; 4-byte Folded Reload

				define void @spill_v4f32() {
				entry:
				%alloca = alloca <4 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <4 x i32>, <4 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <4 x i32>, <4 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <4 x i32>, <4 x i32> addrspace(5)* %alloca, i32 1
				store volatile <4 x i32> %a, <4 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v5i32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:96 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:100 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:104 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:108 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:96 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:100 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:104 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:108 ; 4-byte Folded Reload

				define void @spill_v5i32() {
				entry:
				%alloca = alloca <5 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <5 x i32>, <5 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <5 x i32>, <5 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <5 x i32>, <5 x i32> addrspace(5)* %alloca, i32 1
				store volatile <5 x i32> %a, <5 x i32> addrspace(5)* %outptr

				ret void
				}

				; CHECK-LABEL: spill_v5f32:
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:96 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:100 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:104 ; 4-byte Folded Spill
				; CHECK-DAG: buffer_store_dword v{{.*}} offset:108 ; 4-byte Folded Spill
				; CHECK: ;;#ASMSTART
				; CHECK-NEXT: ;;#ASMEND
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:96 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:100 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:104 ; 4-byte Folded Reload
				; CHECK-DAG: buffer_load_dword v{{.*}} offset:108 ; 4-byte Folded Reload

				define void @spill_v5f32() {
				entry:
				%alloca = alloca <5 x i32>, i32 2, align 4, addrspace(5)

				%aptr = getelementptr <5 x i32>, <5 x i32> addrspace(5)* %alloca, i32 1
				%a = load volatile <5 x i32>, <5 x i32> addrspace(5)* %aptr

				; Force %a to spill.
				call void asm sideeffect "", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7}" ()

				%outptr = getelementptr <5 x i32>, <5 x i32> addrspace(5)* %alloca, i32 1
				store volatile <5 x i32> %a, <5 x i32> addrspace(5)* %outptr

				ret void
				}

llvm/trunk/test/CodeGen/AMDGPU/select-vectors.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}v_select_v3i16:			; GCN-LABEL: {{^}}v_select_v3i16:
	; SI: v_cndmask_b32_e32			; SI: v_cndmask_b32_e32
	; SI: cndmask			; SI: cndmask
	; SI-NOT: cndmask			; SI-NOT: cndmask

	; GFX89: v_cndmask_b32_e32			; GFX89: v_cndmask_b32_e32
	; GFX89: cndmask			; GFX89: cndmask
				; VI: cndmask
	; GFX89-NOT: cndmask			; GFX89-NOT: cndmask
	define amdgpu_kernel void @v_select_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %a.ptr, <3 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {			define amdgpu_kernel void @v_select_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %a.ptr, <3 x i16> addrspace(1)* %b.ptr, i32 %c) #0 {
	%a = load <3 x i16>, <3 x i16> addrspace(1)* %a.ptr			%a = load <3 x i16>, <3 x i16> addrspace(1)* %a.ptr
	%b = load <3 x i16>, <3 x i16> addrspace(1)* %b.ptr			%b = load <3 x i16>, <3 x i16> addrspace(1)* %b.ptr
	%cmp = icmp eq i32 %c, 0			%cmp = icmp eq i32 %c, 0
	%select = select i1 %cmp, <3 x i16> %a, <3 x i16> %b			%select = select i1 %cmp, <3 x i16> %a, <3 x i16> %b
	store <3 x i16> %select, <3 x i16> addrspace(1)* %out, align 4			store <3 x i16> %select, <3 x i16> addrspace(1)* %out, align 4
	ret void			ret void
	▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	; GCN: buffer_store_dwordx2			; GCN: buffer_store_dwordx2
	define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {			define amdgpu_kernel void @s_select_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b, i32 %c) #0 {
	%cmp = icmp eq i32 %c, 0			%cmp = icmp eq i32 %c, 0
	%select = select i1 %cmp, <2 x float> %a, <2 x float> %b			%select = select i1 %cmp, <2 x float> %a, <2 x float> %b
	store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16			store <2 x float> %select, <2 x float> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

				; GCN-LABEL: {{^}}s_select_v3f32:
				; GCN: v_cmp_eq_u32_e64 vcc, s{{[0-9]+}}, 0{{$}}

				; GCN: v_cndmask_b32_e32
				; GCN: v_cndmask_b32_e32
				; GCN: v_cndmask_b32_e32

				; GCN: buffer_store_dwordx
				define amdgpu_kernel void @s_select_v3f32(<3 x float> addrspace(1)* %out, <3 x float> %a, <3 x float> %b, i32 %c) #0 {
				%cmp = icmp eq i32 %c, 0
				%select = select i1 %cmp, <3 x float> %a, <3 x float> %b
				store <3 x float> %select, <3 x float> addrspace(1)* %out, align 16
				ret void
				}

	; GCN-LABEL: {{^}}s_select_v4f32:			; GCN-LABEL: {{^}}s_select_v4f32:
	; GCN: s_load_dwordx4			; GCN: s_load_dwordx4
	; GCN: s_load_dwordx4			; GCN: s_load_dwordx4
	; GCN: v_cmp_eq_u32_e64 vcc, s{{[0-9]+}}, 0{{$}}			; GCN: v_cmp_eq_u32_e64 vcc, s{{[0-9]+}}, 0{{$}}

	; GCN: v_cndmask_b32_e32			; GCN: v_cndmask_b32_e32
	; GCN: v_cndmask_b32_e32			; GCN: v_cndmask_b32_e32
	; GCN: v_cndmask_b32_e32			; GCN: v_cndmask_b32_e32
	▲ Show 20 Lines • Show All 138 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/shader-addr64-nonuniform.ll

	; RUN: llc -mtriple=amdgcn--amdpal -mcpu=gfx700 -verify-machineinstrs <%s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=SICI %s			; RUN: llc -mtriple=amdgcn--amdpal -mcpu=gfx600 -verify-machineinstrs <%s \| FileCheck -enable-var-scope -check-prefixes=GCN,SICI,SI %s
				; RUN: llc -mtriple=amdgcn--amdpal -mcpu=gfx700 -verify-machineinstrs <%s \| FileCheck -enable-var-scope -check-prefixes=GCN,SICI,CI %s

	; Check that an addrspace(1) (const) load with various combinations of			; Check that an addrspace(1) (const) load with various combinations of
	; uniform, nonuniform and constant address components all load with an			; uniform, nonuniform and constant address components all load with an
	; addr64 mubuf with no readfirstlane.			; addr64 mubuf with no readfirstlane.

	@indexable = internal unnamed_addr addrspace(1) constant [6 x <3 x float>] [<3 x float> <float 1.000000e+00, float 0.000000e+00, float 0.000000e+00>, <3 x float> <float 0.000000e+00, float 1.000000e+00, float 0.000000e+00>, <3 x float> <float 0.000000e+00, float 0.000000e+00, float 1.000000e+00>, <3 x float> <float 0.000000e+00, float 1.000000e+00, float 1.000000e+00>, <3 x float> <float 1.000000e+00, float 0.000000e+00, float 1.000000e+00>, <3 x float> <float 1.000000e+00, float 1.000000e+00, float 0.000000e+00>]			@indexable = internal unnamed_addr addrspace(1) constant [6 x <3 x float>] [<3 x float> <float 1.000000e+00, float 0.000000e+00, float 0.000000e+00>, <3 x float> <float 0.000000e+00, float 1.000000e+00, float 0.000000e+00>, <3 x float> <float 0.000000e+00, float 0.000000e+00, float 1.000000e+00>, <3 x float> <float 0.000000e+00, float 1.000000e+00, float 1.000000e+00>, <3 x float> <float 1.000000e+00, float 0.000000e+00, float 1.000000e+00>, <3 x float> <float 1.000000e+00, float 1.000000e+00, float 0.000000e+00>]

	; GCN-LABEL: {{^}}nonuniform_uniform:			; GCN-LABEL: {{^}}nonuniform_uniform:
	; GCN-NOT: readfirstlane			; GCN-NOT: readfirstlane
	; SICI: buffer_load_dwordx4 {{.*}} addr64			; SI: buffer_load_dwordx4 {{.*}} addr64
				; CI: buffer_load_dwordx3 {{.*}} addr64

	define amdgpu_ps float @nonuniform_uniform(i32 %arg18) {			define amdgpu_ps float @nonuniform_uniform(i32 %arg18) {
	.entry:			.entry:
	%tmp31 = sext i32 %arg18 to i64			%tmp31 = sext i32 %arg18 to i64
	%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* @indexable, i64 0, i64 %tmp31			%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* @indexable, i64 0, i64 %tmp31
	%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16			%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16
	%tmp34 = extractelement <3 x float> %tmp33, i32 0			%tmp34 = extractelement <3 x float> %tmp33, i32 0
	ret float %tmp34			ret float %tmp34
	}			}

	; GCN-LABEL: {{^}}uniform_nonuniform:			; GCN-LABEL: {{^}}uniform_nonuniform:
	; GCN-NOT: readfirstlane			; GCN-NOT: readfirstlane
	; SICI: buffer_load_dwordx4 {{.*}} addr64			; SI: buffer_load_dwordx4 {{.*}} addr64
				; CI: buffer_load_dwordx3 {{.*}} addr64

	define amdgpu_ps float @uniform_nonuniform(i32 inreg %offset, i32 %arg18) {			define amdgpu_ps float @uniform_nonuniform(i32 inreg %offset, i32 %arg18) {
	.entry:			.entry:
	%tmp1 = zext i32 %arg18 to i64			%tmp1 = zext i32 %arg18 to i64
	%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*			%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*
	%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 %offset			%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 %offset
	%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16			%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16
	%tmp34 = extractelement <3 x float> %tmp33, i32 0			%tmp34 = extractelement <3 x float> %tmp33, i32 0
	ret float %tmp34			ret float %tmp34
	}			}

	; GCN-LABEL: {{^}}const_nonuniform:			; GCN-LABEL: {{^}}const_nonuniform:
	; GCN-NOT: readfirstlane			; GCN-NOT: readfirstlane
	; SICI: buffer_load_dwordx4 {{.*}} addr64			; SI: buffer_load_dwordx4 {{.*}} addr64
				; CI: buffer_load_dwordx3 {{.*}} addr64

	define amdgpu_ps float @const_nonuniform(i32 %arg18) {			define amdgpu_ps float @const_nonuniform(i32 %arg18) {
	.entry:			.entry:
	%tmp1 = zext i32 %arg18 to i64			%tmp1 = zext i32 %arg18 to i64
	%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*			%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*
	%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 1			%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 1
	%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16			%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16
	%tmp34 = extractelement <3 x float> %tmp33, i32 0			%tmp34 = extractelement <3 x float> %tmp33, i32 0
	ret float %tmp34			ret float %tmp34
	}			}

	; GCN-LABEL: {{^}}nonuniform_nonuniform:			; GCN-LABEL: {{^}}nonuniform_nonuniform:
	; GCN-NOT: readfirstlane			; GCN-NOT: readfirstlane
	; SICI: buffer_load_dwordx4 {{.*}} addr64			; SI: buffer_load_dwordx4 {{.*}} addr64
				; CI: buffer_load_dwordx3 {{.*}} addr64

	define amdgpu_ps float @nonuniform_nonuniform(i32 %offset, i32 %arg18) {			define amdgpu_ps float @nonuniform_nonuniform(i32 %offset, i32 %arg18) {
	.entry:			.entry:
	%tmp1 = zext i32 %arg18 to i64			%tmp1 = zext i32 %arg18 to i64
	%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*			%tmp2 = inttoptr i64 %tmp1 to [6 x <3 x float>] addrspace(1)*
	%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 %offset			%tmp32 = getelementptr [6 x <3 x float>], [6 x <3 x float>] addrspace(1)* %tmp2, i32 0, i32 %offset
	%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16			%tmp33 = load <3 x float>, <3 x float> addrspace(1)* %tmp32, align 16
	%tmp34 = extractelement <3 x float> %tmp33, i32 0			%tmp34 = extractelement <3 x float> %tmp33, i32 0
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/sign_extend.ll

Show All 31 Lines	; VI-NEXT: s_endpgm
%sext = sext i1 %cmp to i32		%sext = sext i1 %cmp to i32
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: test_s_sext_i32_to_i64:		; SI-LABEL: test_s_sext_i32_to_i64:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0xb		; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
; SI-NEXT: s_load_dword s2, s[0:1], 0xd
; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
; SI-NEXT: s_mov_b32 s3, 0xf000		; SI-NEXT: s_mov_b32 s3, 0xf000
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mul_i32 s4, s4, s5		; SI-NEXT: s_mul_i32 s2, s4, s5
; SI-NEXT: s_add_i32 s4, s4, s2		; SI-NEXT: s_add_i32 s4, s2, s6
; SI-NEXT: s_ashr_i32 s5, s4, 31		; SI-NEXT: s_ashr_i32 s5, s4, 31
; SI-NEXT: s_mov_b32 s2, -1		; SI-NEXT: s_mov_b32 s2, -1
; SI-NEXT: v_mov_b32_e32 v0, s4		; SI-NEXT: v_mov_b32_e32 v0, s4
; SI-NEXT: v_mov_b32_e32 v1, s5		; SI-NEXT: v_mov_b32_e32 v1, s5
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_s_sext_i32_to_i64:		; VI-LABEL: test_s_sext_i32_to_i64:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c
; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_mul_i32 s1, s2, s3		; VI-NEXT: s_mul_i32 s0, s0, s1
; VI-NEXT: s_add_i32 s1, s1, s0		; VI-NEXT: s_add_i32 s0, s0, s2
; VI-NEXT: s_ashr_i32 s0, s1, 31		; VI-NEXT: s_ashr_i32 s1, s0, 31
; VI-NEXT: v_mov_b32_e32 v0, s1		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_mov_b32_e32 v1, s0		; VI-NEXT: v_mov_b32_e32 v1, s1
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
entry:		entry:
%mul = mul i32 %a, %b		%mul = mul i32 %a, %b
%add = add i32 %mul, %c		%add = add i32 %mul, %c
%sext = sext i32 %add to i64		%sext = sext i32 %add to i64
store i64 %sext, i64 addrspace(1)* %out, align 8		store i64 %sext, i64 addrspace(1)* %out, align 8
ret void		ret void
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
store i16 %sext, i16 addrspace(1)* %out		store i16 %sext, i16 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: v_sext_i1_to_i16_with_and:		; SI-LABEL: v_sext_i1_to_i16_with_and:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb		; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb
; SI-NEXT: s_load_dword s0, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0		; SI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s2
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0
; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; SI-NEXT: buffer_store_short v0, off, s[4:7], 0		; SI-NEXT: buffer_store_short v0, off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_sext_i1_to_i16_with_and:		; VI-LABEL: v_sext_i1_to_i16_with_and:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c
; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0		; VI-NEXT: v_mov_b32_e32 v1, s2
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0
; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0		; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v1
; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; VI-NEXT: buffer_store_short v0, off, s[4:7], 0		; VI-NEXT: buffer_store_short v0, off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1
%cmp0 = icmp eq i32 %a, %tid		%cmp0 = icmp eq i32 %a, %tid
%cmp1 = icmp eq i32 %b, %c		%cmp1 = icmp eq i32 %b, %c
%cmp = and i1 %cmp0, %cmp1		%cmp = and i1 %cmp0, %cmp1
▲ Show 20 Lines • Show All 262 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/spill-wide-sgpr.ll

	Show All 37 Lines
	bb0:			bb0:
	call void asm sideeffect "; use $0", "s"(<2 x i32> %wide.sgpr) #0			call void asm sideeffect "; use $0", "s"(<2 x i32> %wide.sgpr) #0
	br label %ret			br label %ret

	ret:			ret:
	ret void			ret void
	}			}

				; ALL-LABEL: {{^}}spill_sgpr_x3:
				; SMEM: s_add_u32 m0, s3, 0x100{{$}}
				; SMEM: s_buffer_store_dword s
				; SMEM: s_buffer_store_dword s
				; SMEM: s_buffer_store_dword s
				; SMEM: s_cbranch_scc1

				; SMEM: s_add_u32 m0, s3, 0x100{{$}}
				; SMEM: s_buffer_load_dword s
				; SMEM: s_buffer_load_dword s
				; SMEM: s_buffer_load_dword s
				; SMEM: s_dcache_wb
				; SMEM: s_endpgm

				; FIXME: Should only need 4 bytes
				; SMEM: ScratchSize: 16

				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 0
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 1
				; VGPR: v_writelane_b32 v{{[0-9]+}}, s{{[0-9]+}}, 2
				; VGPR: s_cbranch_scc1

				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 0
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 1
				; VGPR: v_readlane_b32 s{{[0-9]+}}, v{{[0-9]+}}, 2


				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: buffer_store_dword
				; VMEM: s_cbranch_scc1

				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				; VMEM: buffer_load_dword
				define amdgpu_kernel void @spill_sgpr_x3(i32 addrspace(1)* %out, i32 %in) #0 {
				%wide.sgpr = call <3 x i32> asm sideeffect "; def $0", "=s" () #0
				%cmp = icmp eq i32 %in, 0
				br i1 %cmp, label %bb0, label %ret

				bb0:
				call void asm sideeffect "; use $0", "s"(<3 x i32> %wide.sgpr) #0
				br label %ret

				ret:
				ret void
				}

	; ALL-LABEL: {{^}}spill_sgpr_x4:			; ALL-LABEL: {{^}}spill_sgpr_x4:
	; SMEM: s_add_u32 m0, s3, 0x100{{$}}			; SMEM: s_add_u32 m0, s3, 0x100{{$}}
	; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[VALS:[0-9]+:[0-9]+]]{{\]}}, m0 ; 16-byte Folded Spill			; SMEM: s_buffer_store_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[VALS:[0-9]+:[0-9]+]]{{\]}}, m0 ; 16-byte Folded Spill
	; SMEM: s_cbranch_scc1			; SMEM: s_cbranch_scc1

	; SMEM: s_add_u32 m0, s3, 0x100{{$}}			; SMEM: s_add_u32 m0, s3, 0x100{{$}}
	; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[VALS]]{{\]}}, m0 ; 16-byte Folded Reload			; SMEM: s_buffer_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[VALS]]{{\]}}, m0 ; 16-byte Folded Reload
	; SMEM: s_dcache_wb			; SMEM: s_dcache_wb
	▲ Show 20 Lines • Show All 123 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/store-global.ll

	Show First 20 Lines • Show All 267 Lines • ▼ Show 20 Lines
	entry:			entry:
	%0 = insertelement <2 x float> <float 0.0, float 0.0>, float %a, i32 0			%0 = insertelement <2 x float> <float 0.0, float 0.0>, float %a, i32 0
	%1 = insertelement <2 x float> %0, float %b, i32 1			%1 = insertelement <2 x float> %0, float %b, i32 1
	store <2 x float> %1, <2 x float> addrspace(1)* %out			store <2 x float> %1, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}store_v3i32:			; FUNC-LABEL: {{^}}store_v3i32:
	; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dword v			; SI-DAG: buffer_store_dword v
				; SI-DAG: buffer_store_dwordx2

	; VI-DAG: buffer_store_dwordx3			; VI: buffer_store_dwordx3

	; GFX9-DAG: global_store_dwordx2			; GFX9: global_store_dwordx3
	; GFX9-DAG: global_store_dword v

	; EG-DAG: MEM_RAT_CACHELESS STORE_RAW {{T[0-9]+\.[XYZW]}}, {{T[0-9]+\.[XYZW]}},			; EG-DAG: MEM_RAT_CACHELESS STORE_RAW {{T[0-9]+\.[XYZW]}}, {{T[0-9]+\.[XYZW]}},
	; EG-DAG: MEM_RAT_CACHELESS STORE_RAW {{T[0-9]+\.XY}}, {{T[0-9]+\.[XYZW]}},			; EG-DAG: MEM_RAT_CACHELESS STORE_RAW {{T[0-9]+\.XY}}, {{T[0-9]+\.[XYZW]}},
	define amdgpu_kernel void @store_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> %a) nounwind {			define amdgpu_kernel void @store_v3i32(<3 x i32> addrspace(1)* %out, <3 x i32> %a) nounwind {
	store <3 x i32> %a, <3 x i32> addrspace(1)* %out, align 16			store <3 x i32> %a, <3 x i32> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/v_mac.ll

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	entry:
%tmp1 = fadd float %tmp0, %c		%tmp1 = fadd float %tmp0, %c

store float %tmp1, float addrspace(1)* %out		store float %tmp1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}safe_mad_sub0_src0:		; GCN-LABEL: {{^}}safe_mad_sub0_src0:
; GCN: v_sub_f32_e32 [[SUB0:v[0-9]+]], 0,		; GCN: v_sub_f32_e32 [[SUB0:v[0-9]+]], 0,
; GCN: v_mac_f32_e32 v{{[0-9]+}}, [[SUB0]], v{{[0-9]+}}		; GCN: v_ma{{[cd]}}_f32{{[_e32]*}} v{{[0-9]+}}, [[SUB0]], v{{[0-9]+}}
define amdgpu_kernel void @safe_mad_sub0_src0(float addrspace(1)* %out, float addrspace(1)* %in) #0 {		define amdgpu_kernel void @safe_mad_sub0_src0(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
entry:		entry:
%b_ptr = getelementptr float, float addrspace(1)* %in, i32 1		%b_ptr = getelementptr float, float addrspace(1)* %in, i32 1
%c_ptr = getelementptr float, float addrspace(1)* %in, i32 2		%c_ptr = getelementptr float, float addrspace(1)* %in, i32 2

%a = load float, float addrspace(1)* %in		%a = load float, float addrspace(1)* %in
%b = load float, float addrspace(1)* %b_ptr		%b = load float, float addrspace(1)* %b_ptr
%c = load float, float addrspace(1)* %c_ptr		%c = load float, float addrspace(1)* %c_ptr
▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot-compute.ll

	Show All 16 Lines
	; HSA: enable_sgpr_private_segment_buffer = 1			; HSA: enable_sgpr_private_segment_buffer = 1
	; HSA: enable_sgpr_flat_scratch_init = 0			; HSA: enable_sgpr_flat_scratch_init = 0
	; HSA: workitem_private_segment_byte_size = 1536			; HSA: workitem_private_segment_byte_size = 1536

	; GCN-NOT: flat_scr			; GCN-NOT: flat_scr
	; MESA-NOT: s_mov_b32 s3			; MESA-NOT: s_mov_b32 s3
	; HSA-NOT: s_mov_b32 s7			; HSA-NOT: s_mov_b32 s7

	; GCNMESA-DAG: s_mov_b32 s12, SCRATCH_RSRC_DWORD0			; GCNMESA-DAG: s_mov_b32 s16, SCRATCH_RSRC_DWORD0
	; GCNMESA-DAG: s_mov_b32 s13, SCRATCH_RSRC_DWORD1			; GCNMESA-DAG: s_mov_b32 s17, SCRATCH_RSRC_DWORD1
	; GCNMESA-DAG: s_mov_b32 s14, -1			; GCNMESA-DAG: s_mov_b32 s18, -1
	; SIMESA-DAG: s_mov_b32 s15, 0xe8f000			; SIMESA-DAG: s_mov_b32 s19, 0xe8f000
	; VIMESA-DAG: s_mov_b32 s15, 0xe80000			; VIMESA-DAG: s_mov_b32 s19, 0xe80000
	; GFX9MESA-DAG: s_mov_b32 s15, 0xe00000			; GFX9MESA-DAG: s_mov_b32 s19, 0xe00000


	; GCNMESAMESA: buffer_store_dword {{v[0-9]+}}, off, s[12:15], s3 offset:{{[0-9]+}} ; 4-byte Folded Spill			; GCNMESAMESA: buffer_store_dword {{v[0-9]+}}, off, s[16:19], s3 offset:{{[0-9]+}} ; 4-byte Folded Spill

	; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_store_dword {{v[0-9]}}, off, s[16:19], s3 offset:{{[0-9]+}}

	; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[16:19], s3 offset:{{[0-9]+}}
	; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[12:15], s3 offset:{{[0-9]+}}			; GCNMESA: buffer_load_dword {{v[0-9]+}}, off, s[16:19], s3 offset:{{[0-9]+}}



	; HSA: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s7 offset:{{[0-9]+}} ; 4-byte Folded Spill			; HSA: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s7 offset:{{[0-9]+}} ; 4-byte Folded Spill

	; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}			; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}
	; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}			; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}
	; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}			; HSA: buffer_store_dword {{v[0-9]}}, off, s[0:3], s7 offset:{{[0-9]+}}
	▲ Show 20 Lines • Show All 564 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Support for v3i32/v3f32
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 191666

llvm/trunk/lib/Target/AMDGPU/AMDGPUCallingConv.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/BUFInstructions.td

llvm/trunk/lib/Target/AMDGPU/FLATInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.td

llvm/trunk/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp

llvm/trunk/test/CodeGen/AMDGPU/call-return-types.ll

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert-cost.ll

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert.ll

llvm/trunk/test/CodeGen/AMDGPU/function-args.ll

llvm/trunk/test/CodeGen/AMDGPU/function-returns.ll

llvm/trunk/test/CodeGen/AMDGPU/half.ll

llvm/trunk/test/CodeGen/AMDGPU/idot4u.ll

llvm/trunk/test/CodeGen/AMDGPU/load-global-f32.ll

llvm/trunk/test/CodeGen/AMDGPU/load-global-i32.ll

llvm/trunk/test/CodeGen/AMDGPU/mad-mix-lo.ll

llvm/trunk/test/CodeGen/AMDGPU/merge-stores.ll

llvm/trunk/test/CodeGen/AMDGPU/multi-dword-vgpr-spill.ll

llvm/trunk/test/CodeGen/AMDGPU/select-vectors.ll

llvm/trunk/test/CodeGen/AMDGPU/shader-addr64-nonuniform.ll

llvm/trunk/test/CodeGen/AMDGPU/sign_extend.ll

llvm/trunk/test/CodeGen/AMDGPU/spill-wide-sgpr.ll

llvm/trunk/test/CodeGen/AMDGPU/store-global.ll

llvm/trunk/test/CodeGen/AMDGPU/v_mac.ll

llvm/trunk/test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot-compute.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Support for v3i32/v3f32ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 191666

llvm/trunk/lib/Target/AMDGPU/AMDGPUCallingConv.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/BUFInstructions.td

llvm/trunk/lib/Target/AMDGPU/FLATInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SIRegisterInfo.td

llvm/trunk/lib/Target/AMDGPU/Utils/AMDGPUBaseInfo.cpp

llvm/trunk/test/CodeGen/AMDGPU/call-return-types.ll

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert-cost.ll

llvm/trunk/test/CodeGen/AMDGPU/early-if-convert.ll

llvm/trunk/test/CodeGen/AMDGPU/function-args.ll

llvm/trunk/test/CodeGen/AMDGPU/function-returns.ll

llvm/trunk/test/CodeGen/AMDGPU/half.ll

llvm/trunk/test/CodeGen/AMDGPU/idot4u.ll

llvm/trunk/test/CodeGen/AMDGPU/load-global-f32.ll

llvm/trunk/test/CodeGen/AMDGPU/load-global-i32.ll

llvm/trunk/test/CodeGen/AMDGPU/mad-mix-lo.ll

llvm/trunk/test/CodeGen/AMDGPU/merge-stores.ll

llvm/trunk/test/CodeGen/AMDGPU/multi-dword-vgpr-spill.ll

llvm/trunk/test/CodeGen/AMDGPU/select-vectors.ll

llvm/trunk/test/CodeGen/AMDGPU/shader-addr64-nonuniform.ll

llvm/trunk/test/CodeGen/AMDGPU/sign_extend.ll

llvm/trunk/test/CodeGen/AMDGPU/spill-wide-sgpr.ll

llvm/trunk/test/CodeGen/AMDGPU/store-global.ll

llvm/trunk/test/CodeGen/AMDGPU/v_mac.ll

llvm/trunk/test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot-compute.ll

[AMDGPU] Support for v3i32/v3f32
ClosedPublic