Diff 48018

lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 313 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
SENDMSG,		SENDMSG,
INTERP_MOV,		INTERP_MOV,
INTERP_P1,		INTERP_P1,
INTERP_P2,		INTERP_P2,
FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,		FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,
STORE_MSKOR,		STORE_MSKOR,
LOAD_CONSTANT,		LOAD_CONSTANT,
TBUFFER_STORE_FORMAT,		TBUFFER_STORE_FORMAT,
		ATOMIC_CMP_SWAP,
LAST_AMDGPU_ISD_NUMBER		LAST_AMDGPU_ISD_NUMBER
};		};


} // End namespace AMDGPUISD		} // End namespace AMDGPUISD

} // End namespace llvm		} // End namespace llvm

#endif		#endif

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 2,824 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(CONST_DATA_PTR)		NODE_NAME_CASE(CONST_DATA_PTR)
case AMDGPUISD::FIRST_MEM_OPCODE_NUMBER: break;		case AMDGPUISD::FIRST_MEM_OPCODE_NUMBER: break;
NODE_NAME_CASE(SENDMSG)		NODE_NAME_CASE(SENDMSG)
NODE_NAME_CASE(INTERP_MOV)		NODE_NAME_CASE(INTERP_MOV)
NODE_NAME_CASE(INTERP_P1)		NODE_NAME_CASE(INTERP_P1)
NODE_NAME_CASE(INTERP_P2)		NODE_NAME_CASE(INTERP_P2)
NODE_NAME_CASE(STORE_MSKOR)		NODE_NAME_CASE(STORE_MSKOR)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT)
		NODE_NAME_CASE(ATOMIC_CMP_SWAP)
case AMDGPUISD::LAST_AMDGPU_ISD_NUMBER: break;		case AMDGPUISD::LAST_AMDGPU_ISD_NUMBER: break;
}		}
return nullptr;		return nullptr;
}		}

SDValue AMDGPUTargetLowering::getRsqrtEstimate(SDValue Operand,		SDValue AMDGPUTargetLowering::getRsqrtEstimate(SDValue Operand,
DAGCombinerInfo &DCI,		DAGCombinerInfo &DCI,
unsigned &RefinementSteps,		unsigned &RefinementSteps,
▲ Show 20 Lines • Show All 108 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUInstrInfo.td

	Show First 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	// MSKOR(dst, mask, src) MEM[dst] = ((MEM[dst] & ~mask) \| src)			// MSKOR(dst, mask, src) MEM[dst] = ((MEM[dst] & ~mask) \| src)
	//			//
	// src0: vec4(src, 0, 0, mask)			// src0: vec4(src, 0, 0, mask)
	// src1: dst - rat offset (aka pointer) in dwords			// src1: dst - rat offset (aka pointer) in dwords
	def AMDGPUstore_mskor : SDNode<"AMDGPUISD::STORE_MSKOR",			def AMDGPUstore_mskor : SDNode<"AMDGPUISD::STORE_MSKOR",
	SDTypeProfile<0, 2, []>,			SDTypeProfile<0, 2, []>,
	[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;			[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;

				def AMDGPUatomic_cmp_swap : SDNode<"AMDGPUISD::ATOMIC_CMP_SWAP",
				SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisPtrTy<1>,
				SDTCisVT<2, v2i32>]>, [SDNPHasChain, SDNPMayStore,
				SDNPMayLoad, SDNPMemOperand]>;

				def AMDGPUatomic_cmp_swap_x2 : SDNode<"AMDGPUISD::ATOMIC_CMP_SWAP",
				SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisPtrTy<1>,
				SDTCisVT<2, v2i64>]>, [SDNPHasChain, SDNPMayStore,
				SDNPMayLoad, SDNPMemOperand]>;
				arsenmUnsubmitted Done Reply Inline Actions You should only need the one node. You need to remove the hardcoded vector type. What you need is SDTCisEltOfVec for the type constraint arsenm: You should only need the one node. You need to remove the hardcoded vector type. What you need…

	def AMDGPUround : SDNode<"ISD::FROUND",			def AMDGPUround : SDNode<"ISD::FROUND",
	SDTypeProfile<1, 1, [SDTCisFP<0>, SDTCisSameAs<0,1>]>>;			SDTypeProfile<1, 1, [SDTCisFP<0>, SDTCisSameAs<0,1>]>>;

	def AMDGPUbfe_u32 : SDNode<"AMDGPUISD::BFE_U32", AMDGPUDTIntTernaryOp>;			def AMDGPUbfe_u32 : SDNode<"AMDGPUISD::BFE_U32", AMDGPUDTIntTernaryOp>;
	def AMDGPUbfe_i32 : SDNode<"AMDGPUISD::BFE_I32", AMDGPUDTIntTernaryOp>;			def AMDGPUbfe_i32 : SDNode<"AMDGPUISD::BFE_I32", AMDGPUDTIntTernaryOp>;
	def AMDGPUbfi : SDNode<"AMDGPUISD::BFI", AMDGPUDTIntTernaryOp>;			def AMDGPUbfi : SDNode<"AMDGPUISD::BFI", AMDGPUDTIntTernaryOp>;
	def AMDGPUbfm : SDNode<"AMDGPUISD::BFM", SDTIntBinOp>;			def AMDGPUbfm : SDNode<"AMDGPUISD::BFM", SDTIntBinOp>;

	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUInstructions.td

	Show First 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	def atomic_max_global : global_binary_atomic_op<atomic_load_max>;			def atomic_max_global : global_binary_atomic_op<atomic_load_max>;
	def atomic_min_global : global_binary_atomic_op<atomic_load_min>;			def atomic_min_global : global_binary_atomic_op<atomic_load_min>;
	def atomic_or_global : global_binary_atomic_op<atomic_load_or>;			def atomic_or_global : global_binary_atomic_op<atomic_load_or>;
	def atomic_sub_global : global_binary_atomic_op<atomic_load_sub>;			def atomic_sub_global : global_binary_atomic_op<atomic_load_sub>;
	def atomic_umax_global : global_binary_atomic_op<atomic_load_umax>;			def atomic_umax_global : global_binary_atomic_op<atomic_load_umax>;
	def atomic_umin_global : global_binary_atomic_op<atomic_load_umin>;			def atomic_umin_global : global_binary_atomic_op<atomic_load_umin>;
	def atomic_xor_global : global_binary_atomic_op<atomic_load_xor>;			def atomic_xor_global : global_binary_atomic_op<atomic_load_xor>;

				def atomic_cmp_swap_global : global_binary_atomic_op<AMDGPUatomic_cmp_swap>;
				arsenmUnsubmitted Done Reply Inline Actions You should only need this one arsenm: You should only need this one
				def atomic_cmp_swap_x2_global : global_binary_atomic_op<AMDGPUatomic_cmp_swap_x2>;

				class flat_binary_atomic_op<SDNode atomic_op> : PatFrag<
				(ops node:$ptr, node:$value),
				(atomic_op node:$ptr, node:$value),
				[{return cast<MemSDNode>(N)->getAddressSpace() == AMDGPUAS::FLAT_ADDRESS;}]
				>;

				def atomic_cmp_swap_flat : flat_binary_atomic_op<AMDGPUatomic_cmp_swap>;
				def atomic_cmp_swap_x2_flat : flat_binary_atomic_op<AMDGPUatomic_cmp_swap_x2>;
				arsenmUnsubmitted Done Reply Inline Actions Not necessary, the type applied to the pattern is what matters arsenm: Not necessary, the type applied to the pattern is what matters
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Misc Pattern Fragments			// Misc Pattern Fragments
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class Constants {			class Constants {
	int TWO_PI = 0x40c90fdb;			int TWO_PI = 0x40c90fdb;
	int PI = 0x40490fdb;			int PI = 0x40490fdb;
	int TWO_PI_INV = 0x3e22f983;			int TWO_PI_INV = 0x3e22f983;
	▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

lib/Target/AMDGPU/CIInstructions.td

	Show First 20 Lines • Show All 300 Lines • ▼ Show 20 Lines
	>;			>;

	def : FlatStorePat <FLAT_STORE_BYTE, flat_truncstorei8, i32>;			def : FlatStorePat <FLAT_STORE_BYTE, flat_truncstorei8, i32>;
	def : FlatStorePat <FLAT_STORE_SHORT, flat_truncstorei16, i32>;			def : FlatStorePat <FLAT_STORE_SHORT, flat_truncstorei16, i32>;
	def : FlatStorePat <FLAT_STORE_DWORD, flat_store, i32>;			def : FlatStorePat <FLAT_STORE_DWORD, flat_store, i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX2, flat_store, v2i32>;			def : FlatStorePat <FLAT_STORE_DWORDX2, flat_store, v2i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX4, flat_store, v4i32>;			def : FlatStorePat <FLAT_STORE_DWORDX4, flat_store, v4i32>;

	class FlatAtomicPat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <			class FlatAtomicPat <FLAT inst, SDPatternOperator node, ValueType return_type,
	(vt (node i64:$addr, vt:$data)),			ValueType data_type = return_type> : Pat <
				(return_type (node i64:$addr, data_type:$data)),
	(inst $addr, $data, 0, 0)			(inst $addr, $data, 0, 0)
	>;			>;

	def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_AND_RTN, atomic_and_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_AND_RTN, atomic_and_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SMAX_RTN, atomic_max_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_SMAX_RTN, atomic_max_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_UMAX_RTN, atomic_umax_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_UMAX_RTN, atomic_umax_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SMIN_RTN, atomic_min_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_SMIN_RTN, atomic_min_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_UMIN_RTN, atomic_umin_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_UMIN_RTN, atomic_umin_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_OR_RTN, atomic_or_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_OR_RTN, atomic_or_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SWAP_RTN, atomic_swap_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_SWAP_RTN, atomic_swap_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_CMPSWAP_RTN, atomic_cmp_swap_global, i32, v2i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_CMPSWAP_RTN, atomic_cmp_swap_flat, i32, v2i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_XOR_RTN, atomic_xor_global, i32>;			def : FlatAtomicPat <FLAT_ATOMIC_XOR_RTN, atomic_xor_global, i32>;

				def : FlatAtomicPat <FLAT_ATOMIC_CMPSWAP_X2_RTN, atomic_cmp_swap_x2_global, i64, v2i64>;
				def : FlatAtomicPat <FLAT_ATOMIC_CMPSWAP_X2_RTN, atomic_cmp_swap_x2_flat, i64, v2i64>;

	} // End Predicates = [isCIVI]			} // End Predicates = [isCIVI]

lib/Target/AMDGPU/SIISelLowering.h

Show All 35 Lines	class SITargetLowering : public AMDGPUTargetLowering {
SDValue LowerSELECT(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSELECT(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFastFDIV(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFastFDIV(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV32(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV32(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV64(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFDIV(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerINT_TO_FP(SDValue Op, SelectionDAG &DAG, bool Signed) const;		SDValue LowerINT_TO_FP(SDValue Op, SelectionDAG &DAG, bool Signed) const;
SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSTORE(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerTrig(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerTrig(SDValue Op, SelectionDAG &DAG) const;
		SDValue LowerATOMIC_CMP_SWAP(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerBRCOND(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerBRCOND(SDValue Op, SelectionDAG &DAG) const;

void adjustWritemask(MachineSDNode *&N, SelectionDAG &DAG) const;		void adjustWritemask(MachineSDNode *&N, SelectionDAG &DAG) const;

SDValue performUCharToFloatCombine(SDNode *N,		SDValue performUCharToFloatCombine(SDNode *N,
DAGCombinerInfo &DCI) const;		DAGCombinerInfo &DCI) const;
SDValue performSHLPtrCombine(SDNode *N,		SDValue performSHLPtrCombine(SDNode *N,
unsigned AS,		unsigned AS,
▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	if (Subtarget->getGeneration() >= AMDGPUSubtarget::SEA_ISLANDS) {
setOperationAction(ISD::FCEIL, MVT::f64, Legal);		setOperationAction(ISD::FCEIL, MVT::f64, Legal);
setOperationAction(ISD::FRINT, MVT::f64, Legal);		setOperationAction(ISD::FRINT, MVT::f64, Legal);
}		}

setOperationAction(ISD::FFLOOR, MVT::f64, Legal);		setOperationAction(ISD::FFLOOR, MVT::f64, Legal);
setOperationAction(ISD::FDIV, MVT::f32, Custom);		setOperationAction(ISD::FDIV, MVT::f32, Custom);
setOperationAction(ISD::FDIV, MVT::f64, Custom);		setOperationAction(ISD::FDIV, MVT::f64, Custom);

		setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i32, Custom);
		setOperationAction(ISD::ATOMIC_CMP_SWAP, MVT::i64, Custom);

setTargetDAGCombine(ISD::FADD);		setTargetDAGCombine(ISD::FADD);
setTargetDAGCombine(ISD::FSUB);		setTargetDAGCombine(ISD::FSUB);
setTargetDAGCombine(ISD::FMINNUM);		setTargetDAGCombine(ISD::FMINNUM);
setTargetDAGCombine(ISD::FMAXNUM);		setTargetDAGCombine(ISD::FMAXNUM);
setTargetDAGCombine(ISD::SMIN);		setTargetDAGCombine(ISD::SMIN);
setTargetDAGCombine(ISD::SMAX);		setTargetDAGCombine(ISD::SMAX);
setTargetDAGCombine(ISD::UMIN);		setTargetDAGCombine(ISD::UMIN);
setTargetDAGCombine(ISD::UMAX);		setTargetDAGCombine(ISD::UMAX);
▲ Show 20 Lines • Show All 871 Lines • ▼ Show 20 Lines	case ISD::LOAD: {
return Result;		return Result;
}		}

case ISD::FSIN:		case ISD::FSIN:
case ISD::FCOS:		case ISD::FCOS:
return LowerTrig(Op, DAG);		return LowerTrig(Op, DAG);
case ISD::SELECT: return LowerSELECT(Op, DAG);		case ISD::SELECT: return LowerSELECT(Op, DAG);
case ISD::FDIV: return LowerFDIV(Op, DAG);		case ISD::FDIV: return LowerFDIV(Op, DAG);
		case ISD::ATOMIC_CMP_SWAP: return LowerATOMIC_CMP_SWAP(Op, DAG);
case ISD::STORE: return LowerSTORE(Op, DAG);		case ISD::STORE: return LowerSTORE(Op, DAG);
case ISD::GlobalAddress: {		case ISD::GlobalAddress: {
MachineFunction &MF = DAG.getMachineFunction();		MachineFunction &MF = DAG.getMachineFunction();
SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();		SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
return LowerGlobalAddress(MFI, Op, DAG);		return LowerGlobalAddress(MFI, Op, DAG);
}		}
case ISD::INTRINSIC_WO_CHAIN: return LowerINTRINSIC_WO_CHAIN(Op, DAG);		case ISD::INTRINSIC_WO_CHAIN: return LowerINTRINSIC_WO_CHAIN(Op, DAG);
case ISD::INTRINSIC_VOID: return LowerINTRINSIC_VOID(Op, DAG);		case ISD::INTRINSIC_VOID: return LowerINTRINSIC_VOID(Op, DAG);
▲ Show 20 Lines • Show All 821 Lines • ▼ Show 20 Lines	case ISD::FCOS:
return DAG.getNode(AMDGPUISD::COS_HW, SDLoc(Op), VT, FractPart);		return DAG.getNode(AMDGPUISD::COS_HW, SDLoc(Op), VT, FractPart);
case ISD::FSIN:		case ISD::FSIN:
return DAG.getNode(AMDGPUISD::SIN_HW, SDLoc(Op), VT, FractPart);		return DAG.getNode(AMDGPUISD::SIN_HW, SDLoc(Op), VT, FractPart);
default:		default:
llvm_unreachable("Wrong trig opcode");		llvm_unreachable("Wrong trig opcode");
}		}
}		}

		SDValue SITargetLowering::LowerATOMIC_CMP_SWAP(SDValue Op, SelectionDAG &DAG) const {
		MemSDNode *MemNode = cast<MemSDNode>(Op);
		unsigned AS = MemNode->getAddressSpace ();
		arsenmUnsubmitted Not Done Reply Inline Actions The assert on the nose is redundant with the cast arsenm: The assert on the nose is redundant with the cast

		// No custom lowering required for local address space
		if(!isFlatGlobalAddrSpace (AS))
		arsenmUnsubmitted Done Reply Inline Actions Space after if, and not before (AS) arsenm: Space after if, and not before (AS)
		return Op;

		// Non-local address space requires custom lowering for atomic compare
		// and swap; cmp and swap should be in a v2i32 vector
		SDLoc DL(Op);
		SDValue ChainIn = Op.getOperand(0);
		SDValue Addr = Op.getOperand(1);
		SDValue CmpVal = Op.getOperand(2);
		SDValue SwapVal = Op.getOperand(3);
		EVT VT = Op.getValueType();

		SDValue Res;
		SDVTList VTList;
		arsenmUnsubmitted Not Done Reply Inline Actions The wrapping would be less ugly if the type were set to a variable first arsenm: The wrapping would be less ugly if the type were set to a variable first
		if (VT.getSizeInBits() == 32) {
		Res = DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v2i32, SwapVal, CmpVal);
		VTList = DAG.getVTList(MVT::i32, MVT::Other);
		} else if (VT.getSizeInBits() == 64) {
		Res = DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v2i64, SwapVal, CmpVal);
		VTList = DAG.getVTList(MVT::i64, MVT::Other);
		} else {
		llvm_unreachable("Wrong type");
		}
		arsenmUnsubmitted Done Reply Inline Actions You can put VT directly into getVTList, you don't need the if arsenm: You can put VT directly into getVTList, you don't need the if
		arsenmUnsubmitted Done Reply Inline Actions You don't even need to construct a new vtlist, it should be the same as the incoming op's arsenm: You don't even need to construct a new vtlist, it should be the same as the incoming op's
		SDValue Ops[] = { ChainIn, Addr, Res };
		MachineMemOperand *MMO = MemNode->getMemOperand();

		return DAG.getMemIntrinsicNode(AMDGPUISD::ATOMIC_CMP_SWAP, DL, VTList, Ops, VT, MMO);
		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Custom DAG optimizations		// Custom DAG optimizations
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

SDValue SITargetLowering::performUCharToFloatCombine(SDNode *N,		SDValue SITargetLowering::performUCharToFloatCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
EVT ScalarVT = VT.getScalarType();		EVT ScalarVT = VT.getScalarType();
▲ Show 20 Lines • Show All 998 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.td

Show First 20 Lines • Show All 2,493 Lines • ▼ Show 20 Lines	multiclass MUBUFAtomicAddr64_m <mubuf op, string opName, dag outs, dag ins,
let offen = 0, idxen = 0, addr64 = 1, tfe = 0 in {		let offen = 0, idxen = 0, addr64 = 1, tfe = 0 in {
def _si : MUBUF_Real_si <op, opName, outs, ins, asm>;		def _si : MUBUF_Real_si <op, opName, outs, ins, asm>;
}		}

// There is no VI version. If the pseudo is selected, it should be lowered		// There is no VI version. If the pseudo is selected, it should be lowered
// for VI appropriately.		// for VI appropriately.
}		}

multiclass MUBUF_Atomic <mubuf op, string name, RegisterClass rc,		multiclass MUBUF_Atomic <mubuf op, string name, SDPatternOperator atomic,
ValueType vt, SDPatternOperator atomic> {		RegisterClass outputRC, ValueType outputVT,
		RegisterClass inputRC = outputRC, ValueType inputVT = outputVT> {

let mayStore = 1, mayLoad = 1, hasPostISelHook = 1 in {		let mayStore = 1, mayLoad = 1, hasPostISelHook = 1 in {

// No return variants		// No return variants
let glc = 0 in {		let glc = 0 in {

defm _ADDR64 : MUBUFAtomicAddr64_m <		defm _ADDR64 : MUBUFAtomicAddr64_m <
op, name#"_addr64", (outs),		op, name#"_addr64", (outs),
(ins rc:$vdata, VReg_64:$vaddr, SReg_128:$srsrc,		(ins inputRC:$vdata, VReg_64:$vaddr, SReg_128:$srsrc,
SCSrc_32:$soffset, mbuf_offset:$offset, slc:$slc),		SCSrc_32:$soffset, mbuf_offset:$offset, slc:$slc),
name#" $vdata, $vaddr, $srsrc, $soffset addr64"#"$offset"#"$slc", [], 0		name#" $vdata, $vaddr, $srsrc, $soffset addr64"#"$offset"#"$slc", [], 0
>;		>;

defm _OFFSET : MUBUFAtomicOffset_m <		defm _OFFSET : MUBUFAtomicOffset_m <
op, name#"_offset", (outs),		op, name#"_offset", (outs),
(ins rc:$vdata, SReg_128:$srsrc, SCSrc_32:$soffset, mbuf_offset:$offset,		(ins inputRC:$vdata, SReg_128:$srsrc, SCSrc_32:$soffset, mbuf_offset:$offset,
slc:$slc),		slc:$slc),
name#" $vdata, $srsrc, $soffset"#"$offset"#"$slc", [], 0		name#" $vdata, $srsrc, $soffset"#"$offset"#"$slc", [], 0
>;		>;
} // glc = 0		} // glc = 0

// Variant that return values		// Variant that return values
let glc = 1, Constraints = "$vdata = $vdata_in",		let glc = 1,
DisableEncoding = "$vdata_in" in {		DisableEncoding = "$vdata_in" in {
		nhaehnleUnsubmitted Not Done Reply Inline Actions You removed the constraint $vdata = $vdata_in, and I don't see anything added to enforce it in a different way. As far as I know, there is currently no way to specify that one operand must be a subregister of a different operand, and implementing such a feature would be quite a bit of work. For image atomic cmpswap, I worked around this by saying that cmpswap returns a VReg_64, and using an EXTRACT_SUBREG in the pattern. nhaehnle: You removed the constraint $vdata = $vdata_in, and I don't see anything added to enforce it in…

defm _RTN_ADDR64 : MUBUFAtomicAddr64_m <		defm _RTN_ADDR64 : MUBUFAtomicAddr64_m <
op, name#"_rtn_addr64", (outs rc:$vdata),		op, name#"_rtn_addr64", (outs outputRC:$vdata),
(ins rc:$vdata_in, VReg_64:$vaddr, SReg_128:$srsrc,		(ins inputRC:$vdata_in, VReg_64:$vaddr, SReg_128:$srsrc,
SCSrc_32:$soffset, mbuf_offset:$offset, slc:$slc),		SCSrc_32:$soffset, mbuf_offset:$offset, slc:$slc),
name#" $vdata, $vaddr, $srsrc, $soffset addr64"#"$offset"#" glc"#"$slc",		name#" $vdata, $vaddr, $srsrc, $soffset addr64"#"$offset"#" glc"#"$slc",
[(set vt:$vdata,		[(set outputVT:$vdata,
(atomic (MUBUFAddr64Atomic v4i32:$srsrc, i64:$vaddr, i32:$soffset,		(atomic (MUBUFAddr64Atomic v4i32:$srsrc, i64:$vaddr, i32:$soffset,
i16:$offset, i1:$slc), vt:$vdata_in))], 1		i16:$offset, i1:$slc), inputVT:$vdata_in))], 1
>;		>;

defm _RTN_OFFSET : MUBUFAtomicOffset_m <		defm _RTN_OFFSET : MUBUFAtomicOffset_m <
op, name#"_rtn_offset", (outs rc:$vdata),		op, name#"_rtn_offset", (outs outputRC:$vdata),
(ins rc:$vdata_in, SReg_128:$srsrc, SCSrc_32:$soffset,		(ins inputRC:$vdata_in, SReg_128:$srsrc, SCSrc_32:$soffset,
mbuf_offset:$offset, slc:$slc),		mbuf_offset:$offset, slc:$slc),
name#" $vdata, $srsrc, $soffset"#"$offset"#" glc$slc",		name#" $vdata, $srsrc, $soffset"#"$offset"#" glc$slc",
[(set vt:$vdata,		[(set outputVT:$vdata,
(atomic (MUBUFOffsetAtomic v4i32:$srsrc, i32:$soffset, i16:$offset,		(atomic (MUBUFOffsetAtomic v4i32:$srsrc, i32:$soffset, i16:$offset,
i1:$slc), vt:$vdata_in))], 1		i1:$slc), inputVT:$vdata_in))], 1
>;		>;

} // glc = 1		} // glc = 1

} // mayStore = 1, mayLoad = 1, hasPostISelHook = 1		} // mayStore = 1, mayLoad = 1, hasPostISelHook = 1
}		}

// FIXME: tfe can't be an operand because it requires a separate		// FIXME: tfe can't be an operand because it requires a separate
▲ Show 20 Lines • Show All 475 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstructions.td

Show First 20 Lines • Show All 974 Lines • ▼ Show 20 Lines	defm BUFFER_STORE_DWORDX2 : MUBUF_Store_Helper <
mubuf<0x1d>, "buffer_store_dwordx2", VReg_64, v2i32, global_store		mubuf<0x1d>, "buffer_store_dwordx2", VReg_64, v2i32, global_store
>;		>;

defm BUFFER_STORE_DWORDX4 : MUBUF_Store_Helper <		defm BUFFER_STORE_DWORDX4 : MUBUF_Store_Helper <
mubuf<0x1e, 0x1f>, "buffer_store_dwordx4", VReg_128, v4i32, global_store		mubuf<0x1e, 0x1f>, "buffer_store_dwordx4", VReg_128, v4i32, global_store
>;		>;

defm BUFFER_ATOMIC_SWAP : MUBUF_Atomic <		defm BUFFER_ATOMIC_SWAP : MUBUF_Atomic <
mubuf<0x30, 0x40>, "buffer_atomic_swap", VGPR_32, i32, atomic_swap_global		mubuf<0x30, 0x40>, "buffer_atomic_swap", atomic_swap_global, VGPR_32, i32
		>;
		defm BUFFER_ATOMIC_CMPSWAP : MUBUF_Atomic <
		mubuf<0x31, 0x41>, "buffer_atomic_cmpswap", atomic_cmp_swap_global, VGPR_32, i32, VReg_64, v2i32
>;		>;
//def BUFFER_ATOMIC_CMPSWAP : MUBUF_ <mubuf<0x31, 0x41>, "buffer_atomic_cmpswap", []>;
defm BUFFER_ATOMIC_ADD : MUBUF_Atomic <		defm BUFFER_ATOMIC_ADD : MUBUF_Atomic <
mubuf<0x32, 0x42>, "buffer_atomic_add", VGPR_32, i32, atomic_add_global		mubuf<0x32, 0x42>, "buffer_atomic_add", atomic_add_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_SUB : MUBUF_Atomic <		defm BUFFER_ATOMIC_SUB : MUBUF_Atomic <
mubuf<0x33, 0x43>, "buffer_atomic_sub", VGPR_32, i32, atomic_sub_global		mubuf<0x33, 0x43>, "buffer_atomic_sub", atomic_sub_global, VGPR_32, i32
>;		>;
//def BUFFER_ATOMIC_RSUB : MUBUF_ <mubuf<0x34>, "buffer_atomic_rsub", []>; // isn't on CI & VI		//def BUFFER_ATOMIC_RSUB : MUBUF_ <mubuf<0x34>, "buffer_atomic_rsub", []>; // isn't on CI & VI
defm BUFFER_ATOMIC_SMIN : MUBUF_Atomic <		defm BUFFER_ATOMIC_SMIN : MUBUF_Atomic <
mubuf<0x35, 0x44>, "buffer_atomic_smin", VGPR_32, i32, atomic_min_global		mubuf<0x35, 0x44>, "buffer_atomic_smin", atomic_min_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_UMIN : MUBUF_Atomic <		defm BUFFER_ATOMIC_UMIN : MUBUF_Atomic <
mubuf<0x36, 0x45>, "buffer_atomic_umin", VGPR_32, i32, atomic_umin_global		mubuf<0x36, 0x45>, "buffer_atomic_umin", atomic_umin_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_SMAX : MUBUF_Atomic <		defm BUFFER_ATOMIC_SMAX : MUBUF_Atomic <
mubuf<0x37, 0x46>, "buffer_atomic_smax", VGPR_32, i32, atomic_max_global		mubuf<0x37, 0x46>, "buffer_atomic_smax", atomic_max_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_UMAX : MUBUF_Atomic <		defm BUFFER_ATOMIC_UMAX : MUBUF_Atomic <
mubuf<0x38, 0x47>, "buffer_atomic_umax", VGPR_32, i32, atomic_umax_global		mubuf<0x38, 0x47>, "buffer_atomic_umax", atomic_umax_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_AND : MUBUF_Atomic <		defm BUFFER_ATOMIC_AND : MUBUF_Atomic <
mubuf<0x39, 0x48>, "buffer_atomic_and", VGPR_32, i32, atomic_and_global		mubuf<0x39, 0x48>, "buffer_atomic_and", atomic_and_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_OR : MUBUF_Atomic <		defm BUFFER_ATOMIC_OR : MUBUF_Atomic <
mubuf<0x3a, 0x49>, "buffer_atomic_or", VGPR_32, i32, atomic_or_global		mubuf<0x3a, 0x49>, "buffer_atomic_or", atomic_or_global, VGPR_32, i32
>;		>;
defm BUFFER_ATOMIC_XOR : MUBUF_Atomic <		defm BUFFER_ATOMIC_XOR : MUBUF_Atomic <
mubuf<0x3b, 0x4a>, "buffer_atomic_xor", VGPR_32, i32, atomic_xor_global		mubuf<0x3b, 0x4a>, "buffer_atomic_xor", atomic_xor_global, VGPR_32, i32
>;		>;
//def BUFFER_ATOMIC_INC : MUBUF_ <mubuf<0x3c, 0x4b>, "buffer_atomic_inc", []>;		//def BUFFER_ATOMIC_INC : MUBUF_ <mubuf<0x3c, 0x4b>, "buffer_atomic_inc", []>;
//def BUFFER_ATOMIC_DEC : MUBUF_ <mubuf<0x3d, 0x4c>, "buffer_atomic_dec", []>;		//def BUFFER_ATOMIC_DEC : MUBUF_ <mubuf<0x3d, 0x4c>, "buffer_atomic_dec", []>;
//def BUFFER_ATOMIC_FCMPSWAP : MUBUF_ <mubuf<0x3e>, "buffer_atomic_fcmpswap", []>; // isn't on VI		//def BUFFER_ATOMIC_FCMPSWAP : MUBUF_ <mubuf<0x3e>, "buffer_atomic_fcmpswap", []>; // isn't on VI
//def BUFFER_ATOMIC_FMIN : MUBUF_ <mubuf<0x3f>, "buffer_atomic_fmin", []>; // isn't on VI		//def BUFFER_ATOMIC_FMIN : MUBUF_ <mubuf<0x3f>, "buffer_atomic_fmin", []>; // isn't on VI
//def BUFFER_ATOMIC_FMAX : MUBUF_ <mubuf<0x40>, "buffer_atomic_fmax", []>; // isn't on VI		//def BUFFER_ATOMIC_FMAX : MUBUF_ <mubuf<0x40>, "buffer_atomic_fmax", []>; // isn't on VI
//def BUFFER_ATOMIC_SWAP_X2 : MUBUF_X2 <mubuf<0x50, 0x60>, "buffer_atomic_swap_x2", []>;		//def BUFFER_ATOMIC_SWAP_X2 : MUBUF_X2 <mubuf<0x50, 0x60>, "buffer_atomic_swap_x2", []>;
//def BUFFER_ATOMIC_CMPSWAP_X2 : MUBUF_X2 <mubuf<0x51, 0x61>, "buffer_atomic_cmpswap_x2", []>;		defm BUFFER_ATOMIC_CMPSWAP_X2 : MUBUF_Atomic <
		mubuf<0x51, 0x61>, "buffer_atomic_cmpswap_x2", atomic_cmp_swap_x2_global, VReg_64, i64, VReg_128, v2i64
		>;
//def BUFFER_ATOMIC_ADD_X2 : MUBUF_X2 <mubuf<0x52, 0x62>, "buffer_atomic_add_x2", []>;		//def BUFFER_ATOMIC_ADD_X2 : MUBUF_X2 <mubuf<0x52, 0x62>, "buffer_atomic_add_x2", []>;
//def BUFFER_ATOMIC_SUB_X2 : MUBUF_X2 <mubuf<0x53, 0x63>, "buffer_atomic_sub_x2", []>;		//def BUFFER_ATOMIC_SUB_X2 : MUBUF_X2 <mubuf<0x53, 0x63>, "buffer_atomic_sub_x2", []>;
//def BUFFER_ATOMIC_RSUB_X2 : MUBUF_X2 <mubuf<0x54>, "buffer_atomic_rsub_x2", []>; // isn't on CI & VI		//def BUFFER_ATOMIC_RSUB_X2 : MUBUF_X2 <mubuf<0x54>, "buffer_atomic_rsub_x2", []>; // isn't on CI & VI
//def BUFFER_ATOMIC_SMIN_X2 : MUBUF_X2 <mubuf<0x55, 0x64>, "buffer_atomic_smin_x2", []>;		//def BUFFER_ATOMIC_SMIN_X2 : MUBUF_X2 <mubuf<0x55, 0x64>, "buffer_atomic_smin_x2", []>;
//def BUFFER_ATOMIC_UMIN_X2 : MUBUF_X2 <mubuf<0x56, 0x65>, "buffer_atomic_umin_x2", []>;		//def BUFFER_ATOMIC_UMIN_X2 : MUBUF_X2 <mubuf<0x56, 0x65>, "buffer_atomic_umin_x2", []>;
//def BUFFER_ATOMIC_SMAX_X2 : MUBUF_X2 <mubuf<0x57, 0x66>, "buffer_atomic_smax_x2", []>;		//def BUFFER_ATOMIC_SMAX_X2 : MUBUF_X2 <mubuf<0x57, 0x66>, "buffer_atomic_smax_x2", []>;
//def BUFFER_ATOMIC_UMAX_X2 : MUBUF_X2 <mubuf<0x58, 0x67>, "buffer_atomic_umax_x2", []>;		//def BUFFER_ATOMIC_UMAX_X2 : MUBUF_X2 <mubuf<0x58, 0x67>, "buffer_atomic_umax_x2", []>;
//def BUFFER_ATOMIC_AND_X2 : MUBUF_X2 <mubuf<0x59, 0x68>, "buffer_atomic_and_x2", []>;		//def BUFFER_ATOMIC_AND_X2 : MUBUF_X2 <mubuf<0x59, 0x68>, "buffer_atomic_and_x2", []>;
▲ Show 20 Lines • Show All 2,174 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIIntrinsics.td

Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	def int_SI_buffer_load_dword : Intrinsic <
llvm_i32_ty, // inst_offset(imm)		llvm_i32_ty, // inst_offset(imm)
llvm_i32_ty, // offen(imm)		llvm_i32_ty, // offen(imm)
llvm_i32_ty, // idxen(imm)		llvm_i32_ty, // idxen(imm)
llvm_i32_ty, // glc(imm)		llvm_i32_ty, // glc(imm)
llvm_i32_ty, // slc(imm)		llvm_i32_ty, // slc(imm)
llvm_i32_ty], // tfe(imm)		llvm_i32_ty], // tfe(imm)
[IntrReadArgMem]>;		[IntrReadArgMem]>;

		// Fully-flexible BUFFER_ATOMIC_* except for the ADDR64 bit, which is not exposed
		class MubufAtomicRaw : Intrinsic <
		[llvm_anyint_ty], // vdata(VGPR), overloaded for types i32, i64
		[llvm_anyint_ty, // rsrc(SGPR)
		llvm_anyint_ty, // vaddr(VGPR)
		llvm_i32_ty, // soffset(SGPR)
		llvm_i32_ty, // inst_offset(imm)
		llvm_i32_ty, // offen(imm)
		llvm_i32_ty, // idxen(imm)
		llvm_i32_ty, // glc(imm)
		llvm_i32_ty, // slc(imm)
		llvm_i32_ty], // tfe(imm)
		[IntrNoMem]>;
		arsenmUnsubmitted Not Done Reply Inline Actions This definitely is not true arsenm: This definitely is not true
		arsenmUnsubmitted Not Done Reply Inline Actions I think this is exposing too much. the glc/slc bit behavior is what controls the atomic return behavior, so it makes no sense to expose. tfe requires changing the register class of the result, so it too should not be exposed. The other addressing mode fields should also not be directly exposed. arsenm: I think this is exposing too much. the glc/slc bit behavior is what controls the atomic return…
		jveselyUnsubmitted Not Done Reply Inline Actions the glc/slc bit behavior is what controls the atomic return behavior, are you sure about this? according to the specs GLC controls return/noreturn (since atomics are by def. globally coherent.) but the SLC bit controls whether the op is system level coherent which is IMO needed for HSA targets. jvesely: > the glc/slc bit behavior is what controls the atomic return behavior, are you sure about…
		arsenmUnsubmitted Not Done Reply Inline Actions slc should be OK. TFE adds another change to the return type, so that is not ok arsenm: slc should be OK. TFE adds another change to the return type, so that is not ok

		def int_SI_buffer_atomic_swap : MubufAtomicRaw;
		arsenmUnsubmitted Not Done Reply Inline Actions New intrinsics should use the amdgcn prefix, not SI arsenm: New intrinsics should use the amdgcn prefix, not SI
		def int_SI_buffer_atomic_cmpswap : MubufAtomicRaw; // not sure
		def int_SI_buffer_atomic_add : MubufAtomicRaw;
		def int_SI_buffer_atomic_sub : MubufAtomicRaw;
		def int_SI_buffer_atomic_smin : MubufAtomicRaw;
		def int_SI_buffer_atomic_umin : MubufAtomicRaw;
		def int_SI_buffer_atomic_smax : MubufAtomicRaw;
		def int_SI_buffer_atomic_umax : MubufAtomicRaw;
		def int_SI_buffer_atomic_and : MubufAtomicRaw;
		def int_SI_buffer_atomic_or : MubufAtomicRaw;
		def int_SI_buffer_atomic_xor : MubufAtomicRaw;
		def int_SI_buffer_atomic_inc : MubufAtomicRaw;
		def int_SI_buffer_atomic_dec : MubufAtomicRaw;

def int_SI_sendmsg : Intrinsic <[], [llvm_i32_ty, llvm_i32_ty], []>;		def int_SI_sendmsg : Intrinsic <[], [llvm_i32_ty, llvm_i32_ty], []>;

// Fully-flexible SAMPLE instruction.		// Fully-flexible SAMPLE instruction.
class SampleRaw : Intrinsic <		class SampleRaw : Intrinsic <
[llvm_v4f32_ty], // vdata(VGPR)		[llvm_v4f32_ty], // vdata(VGPR)
[llvm_anyint_ty, // vaddr(VGPR)		[llvm_anyint_ty, // vaddr(VGPR)
llvm_v8i32_ty, // rsrc(SGPR)		llvm_v8i32_ty, // rsrc(SGPR)
llvm_v4i32_ty, // sampler(SGPR)		llvm_v4i32_ty, // sampler(SGPR)
▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Implement {BUFFER,FLAT}_ATOMIC_CMPSWAP{,_X2}
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 48018

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/AMDGPUInstructions.td

lib/Target/AMDGPU/CIInstructions.td

lib/Target/AMDGPU/SIISelLowering.h

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.td

lib/Target/AMDGPU/SIInstructions.td

lib/Target/AMDGPU/SIIntrinsics.td

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Implement {BUFFER,FLAT}_ATOMIC_CMPSWAP{,_X2}ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 48018

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/AMDGPUInstructions.td

lib/Target/AMDGPU/CIInstructions.td

lib/Target/AMDGPU/SIISelLowering.h

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.td

lib/Target/AMDGPU/SIInstructions.td

lib/Target/AMDGPU/SIIntrinsics.td

AMDGPU: Implement {BUFFER,FLAT}_ATOMIC_CMPSWAP{,_X2}
ClosedPublic