Diff 130158

llvm/trunk/include/llvm/IR/IntrinsicsAMDGPU.td

Show First 20 Lines • Show All 289 Lines • ▼ Show 20 Lines	class AMDGPUAtomicIncIntrin : Intrinsic<[llvm_anyint_ty],
llvm_i1_ty], // isVolatile		llvm_i1_ty], // isVolatile
[IntrArgMemOnly, NoCapture<0>], "",		[IntrArgMemOnly, NoCapture<0>], "",
[SDNPMemOperand]		[SDNPMemOperand]
>;		>;

def int_amdgcn_atomic_inc : AMDGPUAtomicIncIntrin;		def int_amdgcn_atomic_inc : AMDGPUAtomicIncIntrin;
def int_amdgcn_atomic_dec : AMDGPUAtomicIncIntrin;		def int_amdgcn_atomic_dec : AMDGPUAtomicIncIntrin;

		class AMDGPUAtomicF32Intrin<string clang_builtin> :
		GCCBuiltin<clang_builtin>,
		Intrinsic<[llvm_float_ty],
		[LLVMAnyPointerType<llvm_float_ty>,
		llvm_float_ty,
		llvm_i32_ty, // ordering
		llvm_i32_ty, // scope
		llvm_i1_ty], // isVolatile
		[IntrArgMemOnly, NoCapture<0>]
		>;

		def int_amdgcn_atomic_fadd : AMDGPUAtomicF32Intrin<"__builtin_amdgcn_ds_fadd">;
		def int_amdgcn_atomic_fmin : AMDGPUAtomicF32Intrin<"__builtin_amdgcn_ds_fmin">;
		def int_amdgcn_atomic_fmax : AMDGPUAtomicF32Intrin<"__builtin_amdgcn_ds_fmax">;

class AMDGPUImageLoad<bit NoMem = 0> : Intrinsic <		class AMDGPUImageLoad<bit NoMem = 0> : Intrinsic <
[llvm_anyfloat_ty], // vdata(VGPR)		[llvm_anyfloat_ty], // vdata(VGPR)
[llvm_anyint_ty, // vaddr(VGPR)		[llvm_anyint_ty, // vaddr(VGPR)
llvm_anyint_ty, // rsrc(SGPR)		llvm_anyint_ty, // rsrc(SGPR)
llvm_i32_ty, // dmask(imm)		llvm_i32_ty, // dmask(imm)
llvm_i1_ty, // glc(imm)		llvm_i1_ty, // glc(imm)
llvm_i1_ty, // slc(imm)		llvm_i1_ty, // slc(imm)
llvm_i1_ty, // lwe(imm)		llvm_i1_ty, // lwe(imm)
▲ Show 20 Lines • Show All 569 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

	Show First 20 Lines • Show All 444 Lines • ▼ Show 20 Lines
	void AMDGPUDAGToDAGISel::Select(SDNode *N) {			void AMDGPUDAGToDAGISel::Select(SDNode *N) {
	unsigned int Opc = N->getOpcode();			unsigned int Opc = N->getOpcode();
	if (N->isMachineOpcode()) {			if (N->isMachineOpcode()) {
	N->setNodeId(-1);			N->setNodeId(-1);
	return; // Already selected.			return; // Already selected.
	}			}

	if (isa<AtomicSDNode>(N) \|\|			if (isa<AtomicSDNode>(N) \|\|
	(Opc == AMDGPUISD::ATOMIC_INC \|\| Opc == AMDGPUISD::ATOMIC_DEC))			(Opc == AMDGPUISD::ATOMIC_INC \|\| Opc == AMDGPUISD::ATOMIC_DEC \|\|
				Opc == AMDGPUISD::ATOMIC_LOAD_FADD \|\|
				Opc == AMDGPUISD::ATOMIC_LOAD_FMIN \|\|
				Opc == AMDGPUISD::ATOMIC_LOAD_FMAX))
	N = glueCopyToM0(N);			N = glueCopyToM0(N);

	switch (Opc) {			switch (Opc) {
	default:			default:
	break;			break;
	// We are selecting i64 ADD here instead of custom lower it during			// We are selecting i64 ADD here instead of custom lower it during
	// DAG legalization, so we can fold some i64 ADDs used for address			// DAG legalization, so we can fold some i64 ADDs used for address
	// calculation into the LOAD and STORE instructions.			// calculation into the LOAD and STORE instructions.
	▲ Show 20 Lines • Show All 1,750 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 451 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
TBUFFER_STORE_FORMAT,		TBUFFER_STORE_FORMAT,
TBUFFER_STORE_FORMAT_X3,		TBUFFER_STORE_FORMAT_X3,
TBUFFER_STORE_FORMAT_D16,		TBUFFER_STORE_FORMAT_D16,
TBUFFER_LOAD_FORMAT,		TBUFFER_LOAD_FORMAT,
TBUFFER_LOAD_FORMAT_D16,		TBUFFER_LOAD_FORMAT_D16,
ATOMIC_CMP_SWAP,		ATOMIC_CMP_SWAP,
ATOMIC_INC,		ATOMIC_INC,
ATOMIC_DEC,		ATOMIC_DEC,
		ATOMIC_LOAD_FADD,
		ATOMIC_LOAD_FMIN,
		ATOMIC_LOAD_FMAX,
BUFFER_LOAD,		BUFFER_LOAD,
BUFFER_LOAD_FORMAT,		BUFFER_LOAD_FORMAT,
BUFFER_LOAD_FORMAT_D16,		BUFFER_LOAD_FORMAT_D16,
BUFFER_STORE,		BUFFER_STORE,
BUFFER_STORE_FORMAT,		BUFFER_STORE_FORMAT,
BUFFER_STORE_FORMAT_D16,		BUFFER_STORE_FORMAT_D16,
BUFFER_ATOMIC_SWAP,		BUFFER_ATOMIC_SWAP,
BUFFER_ATOMIC_ADD,		BUFFER_ATOMIC_ADD,
Show All 18 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 3,976 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(TBUFFER_STORE_FORMAT)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(ATOMIC_CMP_SWAP)		NODE_NAME_CASE(ATOMIC_CMP_SWAP)
NODE_NAME_CASE(ATOMIC_INC)		NODE_NAME_CASE(ATOMIC_INC)
NODE_NAME_CASE(ATOMIC_DEC)		NODE_NAME_CASE(ATOMIC_DEC)
		NODE_NAME_CASE(ATOMIC_LOAD_FADD)
		NODE_NAME_CASE(ATOMIC_LOAD_FMIN)
		NODE_NAME_CASE(ATOMIC_LOAD_FMAX)
NODE_NAME_CASE(BUFFER_LOAD)		NODE_NAME_CASE(BUFFER_LOAD)
NODE_NAME_CASE(BUFFER_LOAD_FORMAT)		NODE_NAME_CASE(BUFFER_LOAD_FORMAT)
NODE_NAME_CASE(BUFFER_LOAD_FORMAT_D16)		NODE_NAME_CASE(BUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(BUFFER_STORE)		NODE_NAME_CASE(BUFFER_STORE)
NODE_NAME_CASE(BUFFER_STORE_FORMAT)		NODE_NAME_CASE(BUFFER_STORE_FORMAT)
NODE_NAME_CASE(BUFFER_STORE_FORMAT_D16)		NODE_NAME_CASE(BUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)		NODE_NAME_CASE(BUFFER_ATOMIC_SWAP)
NODE_NAME_CASE(BUFFER_ATOMIC_ADD)		NODE_NAME_CASE(BUFFER_ATOMIC_ADD)
▲ Show 20 Lines • Show All 172 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp

Show First 20 Lines • Show All 469 Lines • ▼ Show 20 Lines	static bool isIntrinsicSourceOfDivergence(const IntrinsicInst *I) {
case Intrinsic::amdgcn_interp_p2:		case Intrinsic::amdgcn_interp_p2:
case Intrinsic::amdgcn_mbcnt_hi:		case Intrinsic::amdgcn_mbcnt_hi:
case Intrinsic::amdgcn_mbcnt_lo:		case Intrinsic::amdgcn_mbcnt_lo:
case Intrinsic::r600_read_tidig_x:		case Intrinsic::r600_read_tidig_x:
case Intrinsic::r600_read_tidig_y:		case Intrinsic::r600_read_tidig_y:
case Intrinsic::r600_read_tidig_z:		case Intrinsic::r600_read_tidig_z:
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
case Intrinsic::amdgcn_atomic_dec:		case Intrinsic::amdgcn_atomic_dec:
		case Intrinsic::amdgcn_atomic_fadd:
		case Intrinsic::amdgcn_atomic_fmin:
		case Intrinsic::amdgcn_atomic_fmax:
case Intrinsic::amdgcn_image_atomic_swap:		case Intrinsic::amdgcn_image_atomic_swap:
case Intrinsic::amdgcn_image_atomic_add:		case Intrinsic::amdgcn_image_atomic_add:
case Intrinsic::amdgcn_image_atomic_sub:		case Intrinsic::amdgcn_image_atomic_sub:
case Intrinsic::amdgcn_image_atomic_smin:		case Intrinsic::amdgcn_image_atomic_smin:
case Intrinsic::amdgcn_image_atomic_umin:		case Intrinsic::amdgcn_image_atomic_umin:
case Intrinsic::amdgcn_image_atomic_smax:		case Intrinsic::amdgcn_image_atomic_smax:
case Intrinsic::amdgcn_image_atomic_umax:		case Intrinsic::amdgcn_image_atomic_umax:
case Intrinsic::amdgcn_image_atomic_and:		case Intrinsic::amdgcn_image_atomic_and:
▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/DSInstructions.td

	Show First 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	defm DS_MIN_RTN_U32 : DS_1A1D_RET_mc<"ds_min_rtn_u32", VGPR_32, "ds_min_u32">;			defm DS_MIN_RTN_U32 : DS_1A1D_RET_mc<"ds_min_rtn_u32", VGPR_32, "ds_min_u32">;
	defm DS_MAX_RTN_U32 : DS_1A1D_RET_mc<"ds_max_rtn_u32", VGPR_32, "ds_max_u32">;			defm DS_MAX_RTN_U32 : DS_1A1D_RET_mc<"ds_max_rtn_u32", VGPR_32, "ds_max_u32">;
	defm DS_AND_RTN_B32 : DS_1A1D_RET_mc<"ds_and_rtn_b32", VGPR_32, "ds_and_b32">;			defm DS_AND_RTN_B32 : DS_1A1D_RET_mc<"ds_and_rtn_b32", VGPR_32, "ds_and_b32">;
	defm DS_OR_RTN_B32 : DS_1A1D_RET_mc<"ds_or_rtn_b32", VGPR_32, "ds_or_b32">;			defm DS_OR_RTN_B32 : DS_1A1D_RET_mc<"ds_or_rtn_b32", VGPR_32, "ds_or_b32">;
	defm DS_XOR_RTN_B32 : DS_1A1D_RET_mc<"ds_xor_rtn_b32", VGPR_32, "ds_xor_b32">;			defm DS_XOR_RTN_B32 : DS_1A1D_RET_mc<"ds_xor_rtn_b32", VGPR_32, "ds_xor_b32">;
	defm DS_MSKOR_RTN_B32 : DS_1A2D_RET_mc<"ds_mskor_rtn_b32", VGPR_32, "ds_mskor_b32">;			defm DS_MSKOR_RTN_B32 : DS_1A2D_RET_mc<"ds_mskor_rtn_b32", VGPR_32, "ds_mskor_b32">;
	defm DS_CMPST_RTN_B32 : DS_1A2D_RET_mc<"ds_cmpst_rtn_b32", VGPR_32, "ds_cmpst_b32">;			defm DS_CMPST_RTN_B32 : DS_1A2D_RET_mc<"ds_cmpst_rtn_b32", VGPR_32, "ds_cmpst_b32">;
	defm DS_CMPST_RTN_F32 : DS_1A2D_RET_mc<"ds_cmpst_rtn_f32", VGPR_32, "ds_cmpst_f32">;			defm DS_CMPST_RTN_F32 : DS_1A2D_RET_mc<"ds_cmpst_rtn_f32", VGPR_32, "ds_cmpst_f32">;
	defm DS_MIN_RTN_F32 : DS_1A1D_RET_mc <"ds_min_rtn_f32", VGPR_32, "ds_min_f32">;			defm DS_MIN_RTN_F32 : DS_1A1D_RET_mc<"ds_min_rtn_f32", VGPR_32, "ds_min_f32">;
	defm DS_MAX_RTN_F32 : DS_1A1D_RET_mc<"ds_max_rtn_f32", VGPR_32, "ds_max_f32">;			defm DS_MAX_RTN_F32 : DS_1A1D_RET_mc<"ds_max_rtn_f32", VGPR_32, "ds_max_f32">;

	defm DS_WRXCHG_RTN_B32 : DS_1A1D_RET_mc<"ds_wrxchg_rtn_b32">;			defm DS_WRXCHG_RTN_B32 : DS_1A1D_RET_mc<"ds_wrxchg_rtn_b32">;
	defm DS_WRXCHG2_RTN_B32 : DS_1A2D_Off8_RET_mc<"ds_wrxchg2_rtn_b32", VReg_64, VGPR_32>;			defm DS_WRXCHG2_RTN_B32 : DS_1A2D_Off8_RET_mc<"ds_wrxchg2_rtn_b32", VReg_64, VGPR_32>;
	defm DS_WRXCHG2ST64_RTN_B32 : DS_1A2D_Off8_RET_mc<"ds_wrxchg2st64_rtn_b32", VReg_64, VGPR_32>;			defm DS_WRXCHG2ST64_RTN_B32 : DS_1A2D_Off8_RET_mc<"ds_wrxchg2st64_rtn_b32", VReg_64, VGPR_32>;

	defm DS_ADD_RTN_U64 : DS_1A1D_RET_mc<"ds_add_rtn_u64", VReg_64, "ds_add_u64">;			defm DS_ADD_RTN_U64 : DS_1A1D_RET_mc<"ds_add_rtn_u64", VReg_64, "ds_add_u64">;
	defm DS_SUB_RTN_U64 : DS_1A1D_RET_mc<"ds_sub_rtn_u64", VReg_64, "ds_sub_u64">;			defm DS_SUB_RTN_U64 : DS_1A1D_RET_mc<"ds_sub_rtn_u64", VReg_64, "ds_sub_u64">;
	▲ Show 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	defm : DSAtomicRetPat_mc<DS_AND_RTN_B32, i32, "atomic_load_and_local">;			defm : DSAtomicRetPat_mc<DS_AND_RTN_B32, i32, "atomic_load_and_local">;
	defm : DSAtomicRetPat_mc<DS_OR_RTN_B32, i32, "atomic_load_or_local">;			defm : DSAtomicRetPat_mc<DS_OR_RTN_B32, i32, "atomic_load_or_local">;
	defm : DSAtomicRetPat_mc<DS_XOR_RTN_B32, i32, "atomic_load_xor_local">;			defm : DSAtomicRetPat_mc<DS_XOR_RTN_B32, i32, "atomic_load_xor_local">;
	defm : DSAtomicRetPat_mc<DS_MIN_RTN_I32, i32, "atomic_load_min_local">;			defm : DSAtomicRetPat_mc<DS_MIN_RTN_I32, i32, "atomic_load_min_local">;
	defm : DSAtomicRetPat_mc<DS_MAX_RTN_I32, i32, "atomic_load_max_local">;			defm : DSAtomicRetPat_mc<DS_MAX_RTN_I32, i32, "atomic_load_max_local">;
	defm : DSAtomicRetPat_mc<DS_MIN_RTN_U32, i32, "atomic_load_umin_local">;			defm : DSAtomicRetPat_mc<DS_MIN_RTN_U32, i32, "atomic_load_umin_local">;
	defm : DSAtomicRetPat_mc<DS_MAX_RTN_U32, i32, "atomic_load_umax_local">;			defm : DSAtomicRetPat_mc<DS_MAX_RTN_U32, i32, "atomic_load_umax_local">;
	defm : DSAtomicCmpXChg_mc<DS_CMPST_RTN_B32, i32, "atomic_cmp_swap_local">;			defm : DSAtomicCmpXChg_mc<DS_CMPST_RTN_B32, i32, "atomic_cmp_swap_local">;
				defm : DSAtomicRetPat_mc<DS_MIN_RTN_F32, f32, "atomic_load_fmin_local">;
				defm : DSAtomicRetPat_mc<DS_MAX_RTN_F32, f32, "atomic_load_fmax_local">;
				defm : DSAtomicRetPat_mc<DS_ADD_RTN_F32, f32, "atomic_load_fadd_local">;

	// 64-bit atomics.			// 64-bit atomics.
	defm : DSAtomicRetPat_mc<DS_WRXCHG_RTN_B64, i64, "atomic_swap_local">;			defm : DSAtomicRetPat_mc<DS_WRXCHG_RTN_B64, i64, "atomic_swap_local">;
	defm : DSAtomicRetPat_mc<DS_ADD_RTN_U64, i64, "atomic_load_add_local">;			defm : DSAtomicRetPat_mc<DS_ADD_RTN_U64, i64, "atomic_load_add_local">;
	defm : DSAtomicRetPat_mc<DS_SUB_RTN_U64, i64, "atomic_load_sub_local">;			defm : DSAtomicRetPat_mc<DS_SUB_RTN_U64, i64, "atomic_load_sub_local">;
	defm : DSAtomicRetPat_mc<DS_INC_RTN_U64, i64, "atomic_inc_local">;			defm : DSAtomicRetPat_mc<DS_INC_RTN_U64, i64, "atomic_inc_local">;
	defm : DSAtomicRetPat_mc<DS_DEC_RTN_U64, i64, "atomic_dec_local">;			defm : DSAtomicRetPat_mc<DS_DEC_RTN_U64, i64, "atomic_dec_local">;
	defm : DSAtomicRetPat_mc<DS_AND_RTN_B64, i64, "atomic_load_and_local">;			defm : DSAtomicRetPat_mc<DS_AND_RTN_B64, i64, "atomic_load_and_local">;
	▲ Show 20 Lines • Show All 365 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 559 Lines • ▼ Show 20 Lines
}		}

bool SITargetLowering::getTgtMemIntrinsic(IntrinsicInfo &Info,		bool SITargetLowering::getTgtMemIntrinsic(IntrinsicInfo &Info,
const CallInst &CI,		const CallInst &CI,
MachineFunction &MF,		MachineFunction &MF,
unsigned IntrID) const {		unsigned IntrID) const {
switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
case Intrinsic::amdgcn_atomic_dec: {		case Intrinsic::amdgcn_atomic_dec:
		case Intrinsic::amdgcn_atomic_fadd:
		case Intrinsic::amdgcn_atomic_fmin:
		case Intrinsic::amdgcn_atomic_fmax: {
Info.opc = ISD::INTRINSIC_W_CHAIN;		Info.opc = ISD::INTRINSIC_W_CHAIN;
Info.memVT = MVT::getVT(CI.getType());		Info.memVT = MVT::getVT(CI.getType());
Info.ptrVal = CI.getOperand(0);		Info.ptrVal = CI.getOperand(0);
Info.align = 0;		Info.align = 0;
Info.flags = MachineMemOperand::MOLoad \| MachineMemOperand::MOStore;		Info.flags = MachineMemOperand::MOLoad \| MachineMemOperand::MOStore;

const ConstantInt *Vol = dyn_cast<ConstantInt>(CI.getOperand(4));		const ConstantInt *Vol = dyn_cast<ConstantInt>(CI.getOperand(4));
if (!Vol \|\| !Vol->isZero())		if (!Vol \|\| !Vol->isZero())
▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines	bool SITargetLowering::getTgtMemIntrinsic(IntrinsicInfo &Info,
}		}
}		}

bool SITargetLowering::getAddrModeArguments(IntrinsicInst *II,		bool SITargetLowering::getAddrModeArguments(IntrinsicInst *II,
SmallVectorImpl<Value*> &Ops,		SmallVectorImpl<Value*> &Ops,
Type *&AccessTy) const {		Type *&AccessTy) const {
switch (II->getIntrinsicID()) {		switch (II->getIntrinsicID()) {
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
case Intrinsic::amdgcn_atomic_dec: {		case Intrinsic::amdgcn_atomic_dec:
		case Intrinsic::amdgcn_atomic_fadd:
		case Intrinsic::amdgcn_atomic_fmin:
		case Intrinsic::amdgcn_atomic_fmax: {
Value *Ptr = II->getArgOperand(0);		Value *Ptr = II->getArgOperand(0);
AccessTy = II->getType();		AccessTy = II->getType();
Ops.push_back(Ptr);		Ops.push_back(Ptr);
return true;		return true;
}		}
default:		default:
return false;		return false;
}		}
▲ Show 20 Lines • Show All 3,728 Lines • ▼ Show 20 Lines

SDValue SITargetLowering::LowerINTRINSIC_W_CHAIN(SDValue Op,		SDValue SITargetLowering::LowerINTRINSIC_W_CHAIN(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
unsigned IntrID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();		unsigned IntrID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
SDLoc DL(Op);		SDLoc DL(Op);

switch (IntrID) {		switch (IntrID) {
case Intrinsic::amdgcn_atomic_inc:		case Intrinsic::amdgcn_atomic_inc:
case Intrinsic::amdgcn_atomic_dec: {		case Intrinsic::amdgcn_atomic_dec:
		case Intrinsic::amdgcn_atomic_fadd:
		case Intrinsic::amdgcn_atomic_fmin:
		case Intrinsic::amdgcn_atomic_fmax: {
MemSDNode *M = cast<MemSDNode>(Op);		MemSDNode *M = cast<MemSDNode>(Op);
unsigned Opc = (IntrID == Intrinsic::amdgcn_atomic_inc) ?		unsigned Opc;
AMDGPUISD::ATOMIC_INC : AMDGPUISD::ATOMIC_DEC;		switch (IntrID) {
		case Intrinsic::amdgcn_atomic_inc:
		Opc = AMDGPUISD::ATOMIC_INC;
		break;
		case Intrinsic::amdgcn_atomic_dec:
		Opc = AMDGPUISD::ATOMIC_DEC;
		break;
		case Intrinsic::amdgcn_atomic_fadd:
		Opc = AMDGPUISD::ATOMIC_LOAD_FADD;
		break;
		case Intrinsic::amdgcn_atomic_fmin:
		Opc = AMDGPUISD::ATOMIC_LOAD_FMIN;
		break;
		case Intrinsic::amdgcn_atomic_fmax:
		Opc = AMDGPUISD::ATOMIC_LOAD_FMAX;
		break;
		default:
		llvm_unreachable("Unknown intrinsic!");
		}
SDValue Ops[] = {		SDValue Ops[] = {
M->getOperand(0), // Chain		M->getOperand(0), // Chain
M->getOperand(2), // Ptr		M->getOperand(2), // Ptr
M->getOperand(3) // Value		M->getOperand(3) // Value
};		};

return DAG.getMemIntrinsicNode(Opc, SDLoc(Op), M->getVTList(), Ops,		return DAG.getMemIntrinsicNode(Opc, SDLoc(Op), M->getVTList(), Ops,
M->getMemoryVT(), M->getMemOperand());		M->getMemoryVT(), M->getMemOperand());
▲ Show 20 Lines • Show All 2,249 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::PerformDAGCombine(SDNode *N,
case ISD::ATOMIC_LOAD_OR:		case ISD::ATOMIC_LOAD_OR:
case ISD::ATOMIC_LOAD_XOR:		case ISD::ATOMIC_LOAD_XOR:
case ISD::ATOMIC_LOAD_NAND:		case ISD::ATOMIC_LOAD_NAND:
case ISD::ATOMIC_LOAD_MIN:		case ISD::ATOMIC_LOAD_MIN:
case ISD::ATOMIC_LOAD_MAX:		case ISD::ATOMIC_LOAD_MAX:
case ISD::ATOMIC_LOAD_UMIN:		case ISD::ATOMIC_LOAD_UMIN:
case ISD::ATOMIC_LOAD_UMAX:		case ISD::ATOMIC_LOAD_UMAX:
case AMDGPUISD::ATOMIC_INC:		case AMDGPUISD::ATOMIC_INC:
case AMDGPUISD::ATOMIC_DEC: // TODO: Target mem intrinsics.		case AMDGPUISD::ATOMIC_DEC:
		case AMDGPUISD::ATOMIC_LOAD_FADD:
		case AMDGPUISD::ATOMIC_LOAD_FMIN:
		case AMDGPUISD::ATOMIC_LOAD_FMAX: // TODO: Target mem intrinsics.
if (DCI.isBeforeLegalize())		if (DCI.isBeforeLegalize())
break;		break;
return performMemSDNodeCombine(cast<MemSDNode>(N), DCI);		return performMemSDNodeCombine(cast<MemSDNode>(N), DCI);
case ISD::AND:		case ISD::AND:
return performAndCombine(N, DCI);		return performAndCombine(N, DCI);
case ISD::OR:		case ISD::OR:
return performOrCombine(N, DCI);		return performOrCombine(N, DCI);
case ISD::XOR:		case ISD::XOR:
▲ Show 20 Lines • Show All 573 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

Show All 40 Lines
def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,		def SIatomic_inc : SDNode<"AMDGPUISD::ATOMIC_INC", SDTAtomic2,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

def SIatomic_dec : SDNode<"AMDGPUISD::ATOMIC_DEC", SDTAtomic2,		def SIatomic_dec : SDNode<"AMDGPUISD::ATOMIC_DEC", SDTAtomic2,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

		def SDTAtomic2_f32 : SDTypeProfile<1, 2, [
		SDTCisSameAs<0,2>, SDTCisFP<0>, SDTCisPtrTy<1>
		]>;

		def SIatomic_fadd : SDNode<"AMDGPUISD::ATOMIC_LOAD_FADD", SDTAtomic2_f32,
		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
		>;

		def SIatomic_fmin : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMIN", SDTAtomic2_f32,
		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
		>;

		def SIatomic_fmax : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMAX", SDTAtomic2_f32,
		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
		>;

def SDTbuffer_load : SDTypeProfile<1, 9,		def SDTbuffer_load : SDTypeProfile<1, 9,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex(VGPR)		SDTCisVT<2, i32>, // vindex(VGPR)
SDTCisVT<3, i32>, // voffset(VGPR)		SDTCisVT<3, i32>, // voffset(VGPR)
SDTCisVT<4, i32>, // soffset(SGPR)		SDTCisVT<4, i32>, // soffset(SGPR)
SDTCisVT<5, i32>, // offset(imm)		SDTCisVT<5, i32>, // offset(imm)
SDTCisVT<6, i32>, // dfmt(imm)		SDTCisVT<6, i32>, // dfmt(imm)
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
// PatFrags for global memory operations		// PatFrags for global memory operations
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

defm atomic_inc_global : global_binary_atomic_op<SIatomic_inc>;		defm atomic_inc_global : global_binary_atomic_op<SIatomic_inc>;
defm atomic_dec_global : global_binary_atomic_op<SIatomic_dec>;		defm atomic_dec_global : global_binary_atomic_op<SIatomic_dec>;

def atomic_inc_local : local_binary_atomic_op<SIatomic_inc>;		def atomic_inc_local : local_binary_atomic_op<SIatomic_inc>;
def atomic_dec_local : local_binary_atomic_op<SIatomic_dec>;		def atomic_dec_local : local_binary_atomic_op<SIatomic_dec>;
		def atomic_load_fadd_local : local_binary_atomic_op<SIatomic_fadd>;
		def atomic_load_fmin_local : local_binary_atomic_op<SIatomic_fmin>;
		def atomic_load_fmax_local : local_binary_atomic_op<SIatomic_fmax>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SDNodes PatFrags for loads/stores with a glue input.		// SDNodes PatFrags for loads/stores with a glue input.
// This is for SDNodes and PatFrag for local loads and stores to		// This is for SDNodes and PatFrag for local loads and stores to
// enable s_mov_b32 m0, -1 to be glued to the memory instructions.		// enable s_mov_b32 m0, -1 to be glued to the memory instructions.
//		//
// These mirror the regular load/store PatFrags and rely on special		// These mirror the regular load/store PatFrags and rely on special
// processing during Select() to add the glued copy.		// processing during Select() to add the glued copy.
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	def ashr_rev : PatFrag <
(sra $src0, $src1)		(sra $src0, $src1)
>;		>;

def lshl_rev : PatFrag <		def lshl_rev : PatFrag <
(ops node:$src1, node:$src0),		(ops node:$src1, node:$src0),
(shl $src0, $src1)		(shl $src0, $src1)
>;		>;

multiclass SIAtomicM0Glue2 <string op_name, bit is_amdgpu = 0> {		multiclass SIAtomicM0Glue2 <string op_name, bit is_amdgpu = 0,
		SDTypeProfile tc = SDTAtomic2> {

def _glue : SDNode <		def _glue : SDNode <
!if(is_amdgpu, "AMDGPUISD", "ISD")#"::ATOMIC_"#op_name, SDTAtomic2,		!if(is_amdgpu, "AMDGPUISD", "ISD")#"::ATOMIC_"#op_name, tc,
[SDNPHasChain, SDNPMayStore, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]		[SDNPHasChain, SDNPMayStore, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]
>;		>;

def _local_m0 : local_binary_atomic_op <!cast<SDNode>(NAME#"_glue")>;		def _local_m0 : local_binary_atomic_op <!cast<SDNode>(NAME#"_glue")>;
}		}

defm atomic_load_add : SIAtomicM0Glue2 <"LOAD_ADD">;		defm atomic_load_add : SIAtomicM0Glue2 <"LOAD_ADD">;
defm atomic_load_sub : SIAtomicM0Glue2 <"LOAD_SUB">;		defm atomic_load_sub : SIAtomicM0Glue2 <"LOAD_SUB">;
defm atomic_inc : SIAtomicM0Glue2 <"INC", 1>;		defm atomic_inc : SIAtomicM0Glue2 <"INC", 1>;
defm atomic_dec : SIAtomicM0Glue2 <"DEC", 1>;		defm atomic_dec : SIAtomicM0Glue2 <"DEC", 1>;
defm atomic_load_and : SIAtomicM0Glue2 <"LOAD_AND">;		defm atomic_load_and : SIAtomicM0Glue2 <"LOAD_AND">;
defm atomic_load_min : SIAtomicM0Glue2 <"LOAD_MIN">;		defm atomic_load_min : SIAtomicM0Glue2 <"LOAD_MIN">;
defm atomic_load_max : SIAtomicM0Glue2 <"LOAD_MAX">;		defm atomic_load_max : SIAtomicM0Glue2 <"LOAD_MAX">;
defm atomic_load_or : SIAtomicM0Glue2 <"LOAD_OR">;		defm atomic_load_or : SIAtomicM0Glue2 <"LOAD_OR">;
defm atomic_load_xor : SIAtomicM0Glue2 <"LOAD_XOR">;		defm atomic_load_xor : SIAtomicM0Glue2 <"LOAD_XOR">;
defm atomic_load_umin : SIAtomicM0Glue2 <"LOAD_UMIN">;		defm atomic_load_umin : SIAtomicM0Glue2 <"LOAD_UMIN">;
defm atomic_load_umax : SIAtomicM0Glue2 <"LOAD_UMAX">;		defm atomic_load_umax : SIAtomicM0Glue2 <"LOAD_UMAX">;
defm atomic_swap : SIAtomicM0Glue2 <"SWAP">;		defm atomic_swap : SIAtomicM0Glue2 <"SWAP">;
		defm atomic_load_fadd : SIAtomicM0Glue2 <"LOAD_FADD", 1, SDTAtomic2_f32>;
		defm atomic_load_fmin : SIAtomicM0Glue2 <"LOAD_FMIN", 1, SDTAtomic2_f32>;
		defm atomic_load_fmax : SIAtomicM0Glue2 <"LOAD_FMAX", 1, SDTAtomic2_f32>;

def atomic_cmp_swap_glue : SDNode <"ISD::ATOMIC_CMP_SWAP", SDTAtomic3,		def atomic_cmp_swap_glue : SDNode <"ISD::ATOMIC_CMP_SWAP", SDTAtomic3,
[SDNPHasChain, SDNPMayStore, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]		[SDNPHasChain, SDNPMayStore, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]
>;		>;

def atomic_cmp_swap_local_m0 : AtomicCmpSwapLocal<atomic_cmp_swap_glue>;		def atomic_cmp_swap_local_m0 : AtomicCmpSwapLocal<atomic_cmp_swap_glue>;


▲ Show 20 Lines • Show All 1,592 Lines • Show Last 20 Lines

llvm/trunk/lib/Transforms/Scalar/InferAddressSpaces.cpp

	Show First 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	// TODO: Move logic to TTI?			// TODO: Move logic to TTI?
	bool InferAddressSpaces::rewriteIntrinsicOperands(IntrinsicInst *II,			bool InferAddressSpaces::rewriteIntrinsicOperands(IntrinsicInst *II,
	Value *OldV,			Value *OldV,
	Value *NewV) const {			Value *NewV) const {
	Module *M = II->getParent()->getParent()->getParent();			Module *M = II->getParent()->getParent()->getParent();

	switch (II->getIntrinsicID()) {			switch (II->getIntrinsicID()) {
	case Intrinsic::amdgcn_atomic_inc:			case Intrinsic::amdgcn_atomic_inc:
	case Intrinsic::amdgcn_atomic_dec:{			case Intrinsic::amdgcn_atomic_dec:
				case Intrinsic::amdgcn_atomic_fadd:
				case Intrinsic::amdgcn_atomic_fmin:
				case Intrinsic::amdgcn_atomic_fmax: {
	const ConstantInt *IsVolatile = dyn_cast<ConstantInt>(II->getArgOperand(4));			const ConstantInt *IsVolatile = dyn_cast<ConstantInt>(II->getArgOperand(4));
	if (!IsVolatile \|\| !IsVolatile->isZero())			if (!IsVolatile \|\| !IsVolatile->isZero())
	return false;			return false;

	LLVM_FALLTHROUGH;			LLVM_FALLTHROUGH;
	}			}
	case Intrinsic::objectsize: {			case Intrinsic::objectsize: {
	Type *DestTy = II->getType();			Type *DestTy = II->getType();
	Show All 12 Lines
	// TODO: Move logic to TTI?			// TODO: Move logic to TTI?
	void InferAddressSpaces::collectRewritableIntrinsicOperands(			void InferAddressSpaces::collectRewritableIntrinsicOperands(
	IntrinsicInst II, std::vector<std::pair<Value , bool>> &PostorderStack,			IntrinsicInst II, std::vector<std::pair<Value , bool>> &PostorderStack,
	DenseSet<Value *> &Visited) const {			DenseSet<Value *> &Visited) const {
	switch (II->getIntrinsicID()) {			switch (II->getIntrinsicID()) {
	case Intrinsic::objectsize:			case Intrinsic::objectsize:
	case Intrinsic::amdgcn_atomic_inc:			case Intrinsic::amdgcn_atomic_inc:
	case Intrinsic::amdgcn_atomic_dec:			case Intrinsic::amdgcn_atomic_dec:
				case Intrinsic::amdgcn_atomic_fadd:
				case Intrinsic::amdgcn_atomic_fmin:
				case Intrinsic::amdgcn_atomic_fmax:
	appendsFlatAddressExpressionToPostorderStack(II->getArgOperand(0),			appendsFlatAddressExpressionToPostorderStack(II->getArgOperand(0),
	PostorderStack, Visited);			PostorderStack, Visited);
	break;			break;
	default:			default:
	break;			break;
	}			}
	}			}

	▲ Show 20 Lines • Show All 713 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/lds_atomic_f32.ll

				; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI %s
				; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9 %s

				declare float @llvm.amdgcn.atomic.fadd.f32(float addrspace(3)* nocapture, float, i32, i32, i1)
				declare float @llvm.amdgcn.atomic.fmin.f32(float addrspace(3)* nocapture, float, i32, i32, i1)
				declare float @llvm.amdgcn.atomic.fmax.f32(float addrspace(3)* nocapture, float, i32, i32, i1)

				; GCN-LABEL: {{^}}lds_atomic_fadd_f32:
				; VI-DAG: s_mov_b32 m0
				; GFX9-NOT: m0
				; GCN-DAG: v_mov_b32_e32 [[V0:v[0-9]+]], 0x42280000
				; GCN: ds_add_rtn_f32 [[V2:v[0-9]+]], [[V1:v[0-9]+]], [[V0]] offset:32
				; GCN: ds_add_f32 [[V3:v[0-9]+]], [[V0]] offset:64
				; GCN: s_waitcnt lgkmcnt(1)
				; GCN: ds_add_rtn_f32 {{v[0-9]+}}, {{v[0-9]+}}, [[V2]]
				define amdgpu_kernel void @lds_atomic_fadd_f32(float addrspace(1)* %out, float addrspace(3)* %ptrf, i32 %idx) {
				%idx.add = add nuw i32 %idx, 4
				%shl0 = shl i32 %idx.add, 3
				%shl1 = shl i32 %idx.add, 4
				%ptr0 = inttoptr i32 %shl0 to float addrspace(3)*
				%ptr1 = inttoptr i32 %shl1 to float addrspace(3)*
				%a1 = call float @llvm.amdgcn.atomic.fadd.f32(float addrspace(3)* %ptr0, float 4.2e+1, i32 0, i32 0, i1 false)
				%a2 = call float @llvm.amdgcn.atomic.fadd.f32(float addrspace(3)* %ptr1, float 4.2e+1, i32 0, i32 0, i1 false)
				%a3 = call float @llvm.amdgcn.atomic.fadd.f32(float addrspace(3)* %ptrf, float %a1, i32 0, i32 0, i1 false)
				store float %a3, float addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lds_atomic_fmin_f32:
				; VI-DAG: s_mov_b32 m0
				; GFX9-NOT: m0
				; GCN-DAG: v_mov_b32_e32 [[V0:v[0-9]+]], 0x42280000
				; GCN: ds_min_rtn_f32 [[V2:v[0-9]+]], [[V1:v[0-9]+]], [[V0]] offset:32
				; GCN: ds_min_f32 [[V3:v[0-9]+]], [[V0]] offset:64
				; GCN: s_waitcnt lgkmcnt(1)
				; GCN: ds_min_rtn_f32 {{v[0-9]+}}, {{v[0-9]+}}, [[V2]]
				define amdgpu_kernel void @lds_atomic_fmin_f32(float addrspace(1)* %out, float addrspace(3)* %ptrf, i32 %idx) {
				%idx.add = add nuw i32 %idx, 4
				%shl0 = shl i32 %idx.add, 3
				%shl1 = shl i32 %idx.add, 4
				%ptr0 = inttoptr i32 %shl0 to float addrspace(3)*
				%ptr1 = inttoptr i32 %shl1 to float addrspace(3)*
				%a1 = call float @llvm.amdgcn.atomic.fmin.f32(float addrspace(3)* %ptr0, float 4.2e+1, i32 0, i32 0, i1 false)
				%a2 = call float @llvm.amdgcn.atomic.fmin.f32(float addrspace(3)* %ptr1, float 4.2e+1, i32 0, i32 0, i1 false)
				%a3 = call float @llvm.amdgcn.atomic.fmin.f32(float addrspace(3)* %ptrf, float %a1, i32 0, i32 0, i1 false)
				store float %a3, float addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lds_atomic_fmax_f32:
				; VI-DAG: s_mov_b32 m0
				; GFX9-NOT: m0
				; GCN-DAG: v_mov_b32_e32 [[V0:v[0-9]+]], 0x42280000
				; GCN: ds_max_rtn_f32 [[V2:v[0-9]+]], [[V1:v[0-9]+]], [[V0]] offset:32
				; GCN: ds_max_f32 [[V3:v[0-9]+]], [[V0]] offset:64
				; GCN: s_waitcnt lgkmcnt(1)
				; GCN: ds_max_rtn_f32 {{v[0-9]+}}, {{v[0-9]+}}, [[V2]]
				define amdgpu_kernel void @lds_atomic_fmax_f32(float addrspace(1)* %out, float addrspace(3)* %ptrf, i32 %idx) {
				%idx.add = add nuw i32 %idx, 4
				%shl0 = shl i32 %idx.add, 3
				%shl1 = shl i32 %idx.add, 4
				%ptr0 = inttoptr i32 %shl0 to float addrspace(3)*
				%ptr1 = inttoptr i32 %shl1 to float addrspace(3)*
				%a1 = call float @llvm.amdgcn.atomic.fmax.f32(float addrspace(3)* %ptr0, float 4.2e+1, i32 0, i32 0, i1 false)
				%a2 = call float @llvm.amdgcn.atomic.fmax.f32(float addrspace(3)* %ptr1, float 4.2e+1, i32 0, i32 0, i1 false)
				%a3 = call float @llvm.amdgcn.atomic.fmax.f32(float addrspace(3)* %ptrf, float %a1, i32 0, i32 0, i1 false)
				store float %a3, float addrspace(1)* %out
				ret void
				}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] add LDS f32 intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 130158

llvm/trunk/include/llvm/IR/IntrinsicsAMDGPU.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp

llvm/trunk/lib/Target/AMDGPU/DSInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

llvm/trunk/lib/Transforms/Scalar/InferAddressSpaces.cpp

llvm/trunk/test/CodeGen/AMDGPU/lds_atomic_f32.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] add LDS f32 intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 130158

llvm/trunk/include/llvm/IR/IntrinsicsAMDGPU.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp

llvm/trunk/lib/Target/AMDGPU/DSInstructions.td

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

llvm/trunk/lib/Transforms/Scalar/InferAddressSpaces.cpp

llvm/trunk/test/CodeGen/AMDGPU/lds_atomic_f32.ll

[AMDGPU] add LDS f32 intrinsics
ClosedPublic