Diff 153913

include/llvm/IR/IntrinsicsAMDGPU.td

	Show First 20 Lines • Show All 961 Lines • ▼ Show 20 Lines
	// so it behaves like IntrNoMem.			// so it behaves like IntrNoMem.
	def int_amdgcn_interp_p1 :			def int_amdgcn_interp_p1 :
	GCCBuiltin<"__builtin_amdgcn_interp_p1">,			GCCBuiltin<"__builtin_amdgcn_interp_p1">,
	Intrinsic<[llvm_float_ty],			Intrinsic<[llvm_float_ty],
	[llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],			[llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],
	[IntrNoMem, IntrSpeculatable]>;			[IntrNoMem, IntrSpeculatable]>;

	// __builtin_amdgcn_interp_p2 <p1>, <j>, <attr_chan>, <attr>, <m0>			// __builtin_amdgcn_interp_p2 <p1>, <j>, <attr_chan>, <attr>, <m0>
	def int_amdgcn_interp_p2 :			def int_amdgcn_interp_p2 :
				arsenmUnsubmitted Not Done Reply Inline Actions You should add name mangling to the existing intrinsics rather than new intrinsics. The builtin declaration needs to be done in clang for the GCCBuiltin arsenm: You should add name mangling to the existing intrinsics rather than new intrinsics. The builtin…
				timcorringhamAuthorUnsubmitted Not Done Reply Inline Actions I now have the clang changes in D46871 (I have added the 32 bit interp builtins too as they were missing). I don't believe it is possible to overload these intrinsics as they have an extra operand compared to the 32 bit versions. Also apart from the extra operand the signature of the 16 bit p1 intrinsic is identical to the 32 bit one, so there iosn't any type difference to overload. timcorringham: I now have the clang changes in D46871 (I have added the 32 bit interp builtins too as they…
	GCCBuiltin<"__builtin_amdgcn_interp_p2">,			GCCBuiltin<"__builtin_amdgcn_interp_p2">,
	Intrinsic<[llvm_float_ty],			Intrinsic<[llvm_float_ty],
	[llvm_float_ty, llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],			[llvm_float_ty, llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],
	[IntrNoMem, IntrSpeculatable]>;			[IntrNoMem, IntrSpeculatable]>;
	// See int_amdgcn_v_interp_p1 for why this is IntrNoMem.			// See int_amdgcn_v_interp_p1 for why this is IntrNoMem.

				// __builtin_amdgcn_interp_p1_f16 <i>, <attr_chan>, <attr>, <high>, <m0>
				def int_amdgcn_interp_p1_f16 :
				GCCBuiltin<"__builtin_amdgcn_interp_p1_f16">,
				Intrinsic<[llvm_float_ty],
				[llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i1_ty, llvm_i32_ty],
				[IntrNoMem, IntrSpeculatable]>;

				// __builtin_amdgcn_interp_p2_f16 <p1>, <j>, <attr_chan>, <attr>, <high>, <m0>
				def int_amdgcn_interp_p2_f16 :
				GCCBuiltin<"__builtin_amdgcn_interp_p2_f16">,
				Intrinsic<[llvm_half_ty],
				[llvm_float_ty, llvm_float_ty, llvm_i32_ty, llvm_i32_ty, llvm_i1_ty, llvm_i32_ty],
				[IntrNoMem, IntrSpeculatable]>;

	// Pixel shaders only: whether the current pixel is live (i.e. not a helper			// Pixel shaders only: whether the current pixel is live (i.e. not a helper
	// invocation for derivative computation).			// invocation for derivative computation).
	def int_amdgcn_ps_live : Intrinsic <			def int_amdgcn_ps_live : Intrinsic <
	[llvm_i1_ty],			[llvm_i1_ty],
	[],			[],
	[IntrNoMem]>;			[IntrNoMem]>;

	def int_amdgcn_mbcnt_lo :			def int_amdgcn_mbcnt_lo :
	▲ Show 20 Lines • Show All 349 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPU.h

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	FunctionPass *createSIInsertWaitcntsPass();			FunctionPass *createSIInsertWaitcntsPass();
	FunctionPass *createSIFixWWMLivenessPass();			FunctionPass *createSIFixWWMLivenessPass();
	FunctionPass *createSIFormMemoryClausesPass();			FunctionPass *createSIFormMemoryClausesPass();
	FunctionPass *createAMDGPUSimplifyLibCallsPass(const TargetOptions &);			FunctionPass *createAMDGPUSimplifyLibCallsPass(const TargetOptions &);
	FunctionPass *createAMDGPUUseNativeCallsPass();			FunctionPass *createAMDGPUUseNativeCallsPass();
	FunctionPass *createAMDGPUCodeGenPreparePass();			FunctionPass *createAMDGPUCodeGenPreparePass();
	FunctionPass *createAMDGPUMachineCFGStructurizerPass();			FunctionPass *createAMDGPUMachineCFGStructurizerPass();
	FunctionPass *createAMDGPURewriteOutArgumentsPass();			FunctionPass *createAMDGPURewriteOutArgumentsPass();
				FunctionPass *createSIModeRegisterPass();

	void initializeAMDGPUDAGToDAGISelPass(PassRegistry&);			void initializeAMDGPUDAGToDAGISelPass(PassRegistry&);

	void initializeAMDGPUMachineCFGStructurizerPass(PassRegistry&);			void initializeAMDGPUMachineCFGStructurizerPass(PassRegistry&);
	extern char &AMDGPUMachineCFGStructurizerID;			extern char &AMDGPUMachineCFGStructurizerID;

	void initializeAMDGPUAlwaysInlinePass(PassRegistry&);			void initializeAMDGPUAlwaysInlinePass(PassRegistry&);

	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	extern char &SIAnnotateControlFlowPassID;			extern char &SIAnnotateControlFlowPassID;

	void initializeSIMemoryLegalizerPass(PassRegistry&);			void initializeSIMemoryLegalizerPass(PassRegistry&);
	extern char &SIMemoryLegalizerID;			extern char &SIMemoryLegalizerID;

	void initializeSIDebuggerInsertNopsPass(PassRegistry&);			void initializeSIDebuggerInsertNopsPass(PassRegistry&);
	extern char &SIDebuggerInsertNopsID;			extern char &SIDebuggerInsertNopsID;

				void initializeSIModeRegisterPass(PassRegistry&);
				extern char &SIModeRegisterID;

	void initializeSIInsertWaitcntsPass(PassRegistry&);			void initializeSIInsertWaitcntsPass(PassRegistry&);
	extern char &SIInsertWaitcntsID;			extern char &SIInsertWaitcntsID;

	void initializeSIFormMemoryClausesPass(PassRegistry&);			void initializeSIFormMemoryClausesPass(PassRegistry&);
	extern char &SIFormMemoryClausesID;			extern char &SIFormMemoryClausesID;

	void initializeAMDGPUUnifyDivergentExitNodesPass(PassRegistry&);			void initializeAMDGPUUnifyDivergentExitNodesPass(PassRegistry&);
	extern char &AMDGPUUnifyDivergentExitNodesID;			extern char &AMDGPUUnifyDivergentExitNodesID;
	▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 449 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
CONST_DATA_PTR,		CONST_DATA_PTR,
INIT_EXEC,		INIT_EXEC,
INIT_EXEC_FROM_INPUT,		INIT_EXEC_FROM_INPUT,
SENDMSG,		SENDMSG,
SENDMSGHALT,		SENDMSGHALT,
INTERP_MOV,		INTERP_MOV,
INTERP_P1,		INTERP_P1,
INTERP_P2,		INTERP_P2,
		INTERP_P1LL_F16,
		INTERP_P1LV_F16,
		INTERP_P2_F16,
PC_ADD_REL_OFFSET,		PC_ADD_REL_OFFSET,
KILL,		KILL,
DUMMY_CHAIN,		DUMMY_CHAIN,
FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,		FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,
STORE_MSKOR,		STORE_MSKOR,
LOAD_CONSTANT,		LOAD_CONSTANT,
TBUFFER_STORE_FORMAT,		TBUFFER_STORE_FORMAT,
TBUFFER_STORE_FORMAT_X3,		TBUFFER_STORE_FORMAT_X3,
Show All 36 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 4,057 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
case AMDGPUISD::FIRST_MEM_OPCODE_NUMBER: break;		case AMDGPUISD::FIRST_MEM_OPCODE_NUMBER: break;
NODE_NAME_CASE(INIT_EXEC)		NODE_NAME_CASE(INIT_EXEC)
NODE_NAME_CASE(INIT_EXEC_FROM_INPUT)		NODE_NAME_CASE(INIT_EXEC_FROM_INPUT)
NODE_NAME_CASE(SENDMSG)		NODE_NAME_CASE(SENDMSG)
NODE_NAME_CASE(SENDMSGHALT)		NODE_NAME_CASE(SENDMSGHALT)
NODE_NAME_CASE(INTERP_MOV)		NODE_NAME_CASE(INTERP_MOV)
NODE_NAME_CASE(INTERP_P1)		NODE_NAME_CASE(INTERP_P1)
NODE_NAME_CASE(INTERP_P2)		NODE_NAME_CASE(INTERP_P2)
		NODE_NAME_CASE(INTERP_P1LL_F16)
		NODE_NAME_CASE(INTERP_P1LV_F16)
		NODE_NAME_CASE(INTERP_P2_F16)
NODE_NAME_CASE(STORE_MSKOR)		NODE_NAME_CASE(STORE_MSKOR)
NODE_NAME_CASE(LOAD_CONSTANT)		NODE_NAME_CASE(LOAD_CONSTANT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(ATOMIC_CMP_SWAP)		NODE_NAME_CASE(ATOMIC_CMP_SWAP)
▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUInstrInfo.td

	Show First 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	def AMDGPUinterp_p1 : SDNode<"AMDGPUISD::INTERP_P1",			def AMDGPUinterp_p1 : SDNode<"AMDGPUISD::INTERP_P1",
	SDTypeProfile<1, 3, [SDTCisFP<0>]>,			SDTypeProfile<1, 3, [SDTCisFP<0>]>,
	[SDNPInGlue, SDNPOutGlue]>;			[SDNPInGlue, SDNPOutGlue]>;

	def AMDGPUinterp_p2 : SDNode<"AMDGPUISD::INTERP_P2",			def AMDGPUinterp_p2 : SDNode<"AMDGPUISD::INTERP_P2",
	SDTypeProfile<1, 4, [SDTCisFP<0>]>,			SDTypeProfile<1, 4, [SDTCisFP<0>]>,
	[SDNPInGlue]>;			[SDNPInGlue]>;

				def AMDGPUinterp_p1ll_f16 : SDNode<"AMDGPUISD::INTERP_P1LL_F16",
				SDTypeProfile<1, 7, [SDTCisFP<0>]>,
				[SDNPInGlue, SDNPOutGlue]>;

				def AMDGPUinterp_p1lv_f16 : SDNode<"AMDGPUISD::INTERP_P1LV_F16",
				SDTypeProfile<1, 9, [SDTCisFP<0>]>,
				[SDNPInGlue, SDNPOutGlue]>;

				def AMDGPUinterp_p2_f16 : SDNode<"AMDGPUISD::INTERP_P2_F16",
				SDTypeProfile<1, 8, [SDTCisFP<0>]>,
				[SDNPInGlue]>;

	def AMDGPUkill : SDNode<"AMDGPUISD::KILL", AMDGPUKillSDT,			def AMDGPUkill : SDNode<"AMDGPUISD::KILL", AMDGPUKillSDT,
	[SDNPHasChain, SDNPSideEffect]>;			[SDNPHasChain, SDNPSideEffect]>;

	// SI+ export			// SI+ export
	def AMDGPUExportOp : SDTypeProfile<0, 8, [			def AMDGPUExportOp : SDTypeProfile<0, 8, [
	SDTCisInt<0>, // i8 tgt			SDTCisInt<0>, // i8 tgt
	SDTCisInt<1>, // i8 en			SDTCisInt<1>, // i8 en
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUSearchableTables.td

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	}			}

	def : SourceOfDivergence<int_amdgcn_workitem_id_x>;			def : SourceOfDivergence<int_amdgcn_workitem_id_x>;
	def : SourceOfDivergence<int_amdgcn_workitem_id_y>;			def : SourceOfDivergence<int_amdgcn_workitem_id_y>;
	def : SourceOfDivergence<int_amdgcn_workitem_id_z>;			def : SourceOfDivergence<int_amdgcn_workitem_id_z>;
	def : SourceOfDivergence<int_amdgcn_interp_mov>;			def : SourceOfDivergence<int_amdgcn_interp_mov>;
	def : SourceOfDivergence<int_amdgcn_interp_p1>;			def : SourceOfDivergence<int_amdgcn_interp_p1>;
	def : SourceOfDivergence<int_amdgcn_interp_p2>;			def : SourceOfDivergence<int_amdgcn_interp_p2>;
				def : SourceOfDivergence<int_amdgcn_interp_p1_f16>;
				def : SourceOfDivergence<int_amdgcn_interp_p2_f16>;
				arsenmUnsubmitted Not Done Reply Inline Actions Should get a test in test/DivergenceAnalysis arsenm: Should get a test in test/DivergenceAnalysis
				arsenmUnsubmitted Done Reply Inline Actions Test still missing arsenm: Test still missing
	def : SourceOfDivergence<int_amdgcn_mbcnt_hi>;			def : SourceOfDivergence<int_amdgcn_mbcnt_hi>;
	def : SourceOfDivergence<int_amdgcn_mbcnt_lo>;			def : SourceOfDivergence<int_amdgcn_mbcnt_lo>;
	def : SourceOfDivergence<int_r600_read_tidig_x>;			def : SourceOfDivergence<int_r600_read_tidig_x>;
	def : SourceOfDivergence<int_r600_read_tidig_y>;			def : SourceOfDivergence<int_r600_read_tidig_y>;
	def : SourceOfDivergence<int_r600_read_tidig_z>;			def : SourceOfDivergence<int_r600_read_tidig_z>;
	def : SourceOfDivergence<int_amdgcn_atomic_inc>;			def : SourceOfDivergence<int_amdgcn_atomic_inc>;
	def : SourceOfDivergence<int_amdgcn_atomic_dec>;			def : SourceOfDivergence<int_amdgcn_atomic_dec>;
	def : SourceOfDivergence<int_amdgcn_ds_fadd>;			def : SourceOfDivergence<int_amdgcn_ds_fadd>;
	Show All 18 Lines

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	static cl::opt<bool> EnableLibCallSimplify(
cl::Hidden);		cl::Hidden);

static cl::opt<bool> EnableLowerKernelArguments(		static cl::opt<bool> EnableLowerKernelArguments(
"amdgpu-ir-lower-kernel-arguments",		"amdgpu-ir-lower-kernel-arguments",
cl::desc("Lower kernel argument loads in IR pass"),		cl::desc("Lower kernel argument loads in IR pass"),
cl::init(true),		cl::init(true),
cl::Hidden);		cl::Hidden);

		// Enable Mode register optimization
		static cl::opt<bool> EnableSIModeRegisterPass(
		"amdgpu-mode-register",
		cl::desc("Enable mode register pass"),
		cl::init(true),
		cl::Hidden);

extern "C" void LLVMInitializeAMDGPUTarget() {		extern "C" void LLVMInitializeAMDGPUTarget() {
// Register the target		// Register the target
RegisterTargetMachine<R600TargetMachine> X(getTheAMDGPUTarget());		RegisterTargetMachine<R600TargetMachine> X(getTheAMDGPUTarget());
RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());		RegisterTargetMachine<GCNTargetMachine> Y(getTheGCNTarget());

PassRegistry *PR = PassRegistry::getPassRegistry();		PassRegistry *PR = PassRegistry::getPassRegistry();
initializeR600ClauseMergePassPass(*PR);		initializeR600ClauseMergePassPass(*PR);
initializeR600ControlFlowFinalizerPass(*PR);		initializeR600ControlFlowFinalizerPass(*PR);
Show All 19 Lines	extern "C" void LLVMInitializeAMDGPUTarget() {
initializeAMDGPULowerIntrinsicsPass(*PR);		initializeAMDGPULowerIntrinsicsPass(*PR);
initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);		initializeAMDGPUOpenCLEnqueuedBlockLoweringPass(*PR);
initializeAMDGPUPromoteAllocaPass(*PR);		initializeAMDGPUPromoteAllocaPass(*PR);
initializeAMDGPUCodeGenPreparePass(*PR);		initializeAMDGPUCodeGenPreparePass(*PR);
initializeAMDGPURewriteOutArgumentsPass(*PR);		initializeAMDGPURewriteOutArgumentsPass(*PR);
initializeAMDGPUUnifyMetadataPass(*PR);		initializeAMDGPUUnifyMetadataPass(*PR);
initializeSIAnnotateControlFlowPass(*PR);		initializeSIAnnotateControlFlowPass(*PR);
initializeSIInsertWaitcntsPass(*PR);		initializeSIInsertWaitcntsPass(*PR);
		initializeSIModeRegisterPass(*PR);
initializeSIWholeQuadModePass(*PR);		initializeSIWholeQuadModePass(*PR);
initializeSILowerControlFlowPass(*PR);		initializeSILowerControlFlowPass(*PR);
initializeSIInsertSkipsPass(*PR);		initializeSIInsertSkipsPass(*PR);
initializeSIMemoryLegalizerPass(*PR);		initializeSIMemoryLegalizerPass(*PR);
initializeSIDebuggerInsertNopsPass(*PR);		initializeSIDebuggerInsertNopsPass(*PR);
initializeSIOptimizeExecMaskingPass(*PR);		initializeSIOptimizeExecMaskingPass(*PR);
initializeSIFixWWMLivenessPass(*PR);		initializeSIFixWWMLivenessPass(*PR);
initializeSIFormMemoryClausesPass(*PR);		initializeSIFormMemoryClausesPass(*PR);
▲ Show 20 Lines • Show All 697 Lines • ▼ Show 20 Lines	void GCNPassConfig::addPostRegAlloc() {
addPass(&SIOptimizeExecMaskingID);		addPass(&SIOptimizeExecMaskingID);
TargetPassConfig::addPostRegAlloc();		TargetPassConfig::addPostRegAlloc();
}		}

void GCNPassConfig::addPreSched2() {		void GCNPassConfig::addPreSched2() {
}		}

void GCNPassConfig::addPreEmitPass() {		void GCNPassConfig::addPreEmitPass() {
		addPass(createSIModeRegisterPass());
// The hazard recognizer that runs as part of the post-ra scheduler does not		// The hazard recognizer that runs as part of the post-ra scheduler does not
// guarantee to be able handle all hazards correctly. This is because if there		// guarantee to be able handle all hazards correctly. This is because if there
// are multiple scheduling regions in a basic block, the regions are scheduled		// are multiple scheduling regions in a basic block, the regions are scheduled
// bottom up, so when we begin to schedule a region we don't know what		// bottom up, so when we begin to schedule a region we don't know what
// instructions were emitted directly before it.		// instructions were emitted directly before it.
//		//
// Here we add a stand-alone hazard recognizer pass which can handle all		// Here we add a stand-alone hazard recognizer pass which can handle all
// cases.		// cases.
Show All 13 Lines

lib/Target/AMDGPU/CMakeLists.txt

Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	add_llvm_target(AMDGPUCodeGen
SIMemoryLegalizer.cpp		SIMemoryLegalizer.cpp
SIOptimizeExecMasking.cpp		SIOptimizeExecMasking.cpp
SIOptimizeExecMaskingPreRA.cpp		SIOptimizeExecMaskingPreRA.cpp
SIPeepholeSDWA.cpp		SIPeepholeSDWA.cpp
SIRegisterInfo.cpp		SIRegisterInfo.cpp
SIShrinkInstructions.cpp		SIShrinkInstructions.cpp
SIWholeQuadMode.cpp		SIWholeQuadMode.cpp
GCNILPSched.cpp		GCNILPSched.cpp
		SIModeRegister.cpp
)		)

add_subdirectory(AsmParser)		add_subdirectory(AsmParser)
add_subdirectory(Disassembler)		add_subdirectory(Disassembler)
add_subdirectory(InstPrinter)		add_subdirectory(InstPrinter)
add_subdirectory(MCTargetDesc)		add_subdirectory(MCTargetDesc)
add_subdirectory(TargetInfo)		add_subdirectory(TargetInfo)
add_subdirectory(Utils)		add_subdirectory(Utils)

lib/Target/AMDGPU/SIDefines.h

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	// TODO: Should this be spilt into VOP3 a and b?
// Clamps hi component of register.		// Clamps hi component of register.
// ClampLo and ClampHi set for packed clamp.		// ClampLo and ClampHi set for packed clamp.
ClampHi = UINT64_C(1) << 48,		ClampHi = UINT64_C(1) << 48,

// Is a packed VOP3P instruction.		// Is a packed VOP3P instruction.
IsPacked = UINT64_C(1) << 49,		IsPacked = UINT64_C(1) << 49,

// Is a D16 buffer instruction.		// Is a D16 buffer instruction.
D16Buf = UINT64_C(1) << 50		D16Buf = UINT64_C(1) << 50,

		// Uses floating point double precision rounding mode
		FPDPRounding = UINT64_C(1) << 51
};		};

// v_cmp_class_* etc. use a 10-bit mask for what operation is checked.		// v_cmp_class_* etc. use a 10-bit mask for what operation is checked.
// The result is true if any of these tests are true.		// The result is true if any of these tests are true.
enum ClassFlags {		enum ClassFlags {
S_NAN = 1 << 0, // Signaling NaN		S_NAN = 1 << 0, // Signaling NaN
Q_NAN = 1 << 1, // Quiet NaN		Q_NAN = 1 << 1, // Quiet NaN
N_INFINITY = 1 << 2, // Negative infinity		N_INFINITY = 1 << 2, // Negative infinity
▲ Show 20 Lines • Show All 440 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,832 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,
}		}
case Intrinsic::amdgcn_interp_p2: {		case Intrinsic::amdgcn_interp_p2: {
SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(5));		SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(5));
SDValue Glue = SDValue(M0.getNode(), 1);		SDValue Glue = SDValue(M0.getNode(), 1);
return DAG.getNode(AMDGPUISD::INTERP_P2, DL, MVT::f32, Op.getOperand(1),		return DAG.getNode(AMDGPUISD::INTERP_P2, DL, MVT::f32, Op.getOperand(1),
Op.getOperand(2), Op.getOperand(3), Op.getOperand(4),		Op.getOperand(2), Op.getOperand(3), Op.getOperand(4),
Glue);		Glue);
}		}
		case Intrinsic::amdgcn_interp_p1_f16: {
		SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(5));
		SDValue Glue = M0.getValue(1);
		if (getSubtarget()->getLDSBankCount() == 16) {
		// 16 bank LDS
		SDValue S = DAG.getNode(AMDGPUISD::INTERP_MOV, DL, MVT::f32,
		DAG.getConstant(2, DL, MVT::i32), // P0
		Op.getOperand(2), // Attrchan
		Op.getOperand(3), // Attr
		Glue);
		SDValue Ops[] = {
		Op.getOperand(1), // Src0
		Op.getOperand(2), // Attrchan
		Op.getOperand(3), // Attr
		DAG.getConstant(0, DL, MVT::i32), // $src0_modifiers
		S, // Src2 - holds two f16 values selected by high
		DAG.getConstant(0, DL, MVT::i32), // $src2_modifiers
		Op.getOperand(4), // high
		DAG.getConstant(0, DL, MVT::i1), // $clamp
		DAG.getConstant(0, DL, MVT::i32) // $omod
		};
		return DAG.getNode(AMDGPUISD::INTERP_P1LV_F16, DL, MVT::f32, Ops);
		} else {
		// 32 bank LDS
		SDValue Ops[] = {
		Op.getOperand(1), // Src0
		Op.getOperand(2), // Attrchan
		Op.getOperand(3), // Attr
		DAG.getConstant(0, DL, MVT::i32), // $src0_modifiers
		Op.getOperand(4), // high
		DAG.getConstant(0, DL, MVT::i1), // $clamp
		DAG.getConstant(0, DL, MVT::i32), // $omod
		Glue
		};
		return DAG.getNode(AMDGPUISD::INTERP_P1LL_F16, DL, MVT::f32, Ops);
		}
		}
		case Intrinsic::amdgcn_interp_p2_f16: {
		SDValue M0 = copyToM0(DAG, DAG.getEntryNode(), DL, Op.getOperand(6));
		SDValue Glue = SDValue(M0.getNode(), 1);
		SDValue Ops[] = {
		Op.getOperand(2), // Src0
		Op.getOperand(3), // Attrchan
		Op.getOperand(4), // Attr
		DAG.getConstant(0, DL, MVT::i32), // $src0_modifiers
		Op.getOperand(1), // Src2
		DAG.getConstant(0, DL, MVT::i32), // $src2_modifiers
		Op.getOperand(5), // high
		DAG.getConstant(0, DL, MVT::i1), // $clamp
		Glue
		};
		return DAG.getNode(AMDGPUISD::INTERP_P2_F16, DL, MVT::f16, Ops);
		}
case Intrinsic::amdgcn_sin:		case Intrinsic::amdgcn_sin:
return DAG.getNode(AMDGPUISD::SIN_HW, DL, VT, Op.getOperand(1));		return DAG.getNode(AMDGPUISD::SIN_HW, DL, VT, Op.getOperand(1));

case Intrinsic::amdgcn_cos:		case Intrinsic::amdgcn_cos:
return DAG.getNode(AMDGPUISD::COS_HW, DL, VT, Op.getOperand(1));		return DAG.getNode(AMDGPUISD::COS_HW, DL, VT, Op.getOperand(1));

case Intrinsic::amdgcn_log_clamp: {		case Intrinsic::amdgcn_log_clamp: {
if (Subtarget->getGeneration() < SISubtarget::VOLCANIC_ISLANDS)		if (Subtarget->getGeneration() < SISubtarget::VOLCANIC_ISLANDS)
▲ Show 20 Lines • Show All 3,498 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrFormats.td

Show First 20 Lines • Show All 115 Lines • ▼ Show 20 Lines	class InstSI <dag outs, dag ins, string asm = "",
field bit ClampHi = 0;		field bit ClampHi = 0;

// This bit indicates that this is a packed VOP3P instruction		// This bit indicates that this is a packed VOP3P instruction
field bit IsPacked = 0;		field bit IsPacked = 0;

// This bit indicates that this is a D16 buffer instruction.		// This bit indicates that this is a D16 buffer instruction.
field bit D16Buf = 0;		field bit D16Buf = 0;

		// This bit indicates that this uses the floating point double precision
		// rounding mode flags
		field bit FPDPRounding = 0;

// These need to be kept in sync with the enum in SIInstrFlags.		// These need to be kept in sync with the enum in SIInstrFlags.
let TSFlags{0} = SALU;		let TSFlags{0} = SALU;
let TSFlags{1} = VALU;		let TSFlags{1} = VALU;

let TSFlags{2} = SOP1;		let TSFlags{2} = SOP1;
let TSFlags{3} = SOP2;		let TSFlags{3} = SOP2;
let TSFlags{4} = SOPC;		let TSFlags{4} = SOPC;
let TSFlags{5} = SOPK;		let TSFlags{5} = SOPK;
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	class InstSI <dag outs, dag ins, string asm = "",
let TSFlags{46} = IntClamp;		let TSFlags{46} = IntClamp;
let TSFlags{47} = ClampLo;		let TSFlags{47} = ClampLo;
let TSFlags{48} = ClampHi;		let TSFlags{48} = ClampHi;

let TSFlags{49} = IsPacked;		let TSFlags{49} = IsPacked;

let TSFlags{50} = D16Buf;		let TSFlags{50} = D16Buf;

		let TSFlags{51} = FPDPRounding;

let SchedRW = [Write32Bit];		let SchedRW = [Write32Bit];

field bits<1> DisableSIDecoder = 0;		field bits<1> DisableSIDecoder = 0;
field bits<1> DisableVIDecoder = 0;		field bits<1> DisableVIDecoder = 0;
field bits<1> DisableDecoder = 0;		field bits<1> DisableDecoder = 0;

let isAsmParserOnly = !if(!eq(DisableDecoder{0}, {0}), 0, 1);		let isAsmParserOnly = !if(!eq(DisableDecoder{0}, {0}), 0, 1);
let AsmVariantName = AMDGPUAsmVariants.Default;		let AsmVariantName = AMDGPUAsmVariants.Default;
▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.h

Show First 20 Lines • Show All 583 Lines • ▼ Show 20 Lines	public:
uint64_t getClampMask(const MachineInstr &MI) const {		uint64_t getClampMask(const MachineInstr &MI) const {
const uint64_t ClampFlags = SIInstrFlags::FPClamp \|		const uint64_t ClampFlags = SIInstrFlags::FPClamp \|
SIInstrFlags::IntClamp \|		SIInstrFlags::IntClamp \|
SIInstrFlags::ClampLo \|		SIInstrFlags::ClampLo \|
SIInstrFlags::ClampHi;		SIInstrFlags::ClampHi;
return MI.getDesc().TSFlags & ClampFlags;		return MI.getDesc().TSFlags & ClampFlags;
}		}

		static bool usesFPDPRounding(const MachineInstr &MI) {
		return MI.getDesc().TSFlags & SIInstrFlags::FPDPRounding;
		}

		bool usesFPDPRounding(uint16_t Opcode) const {
		return get(Opcode).TSFlags & SIInstrFlags::FPDPRounding;
		}

bool isVGPRCopy(const MachineInstr &MI) const {		bool isVGPRCopy(const MachineInstr &MI) const {
assert(MI.isCopy());		assert(MI.isCopy());
unsigned Dest = MI.getOperand(0).getReg();		unsigned Dest = MI.getOperand(0).getReg();
const MachineFunction &MF = *MI.getParent()->getParent();		const MachineFunction &MF = *MI.getParent()->getParent();
const MachineRegisterInfo &MRI = MF.getRegInfo();		const MachineRegisterInfo &MRI = MF.getRegInfo();
return !RI.isSGPRReg(MRI, Dest);		return !RI.isSGPRReg(MRI, Dest);
}		}

▲ Show 20 Lines • Show All 358 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIModeRegister.cpp

This file was added.

				//===-- SIModeRegister.cpp - Mode Register --------------------------------===//
				//
				// The LLVM Compiler Infrastructure
				//
				// This file is distributed under the University of Illinois Open Source
				// License. See LICENSE.TXT for details.
				//
				/// The pass inserts changes to the Mode register settings as required.
				/// Currently only the double precision floating point rounding mode setting is
				/// handled.
				//===----------------------------------------------------------------------===//
				//
				#include "AMDGPU.h"
				#include "AMDGPUSubtarget.h"
				#include "SIInstrInfo.h"
				#include "AMDGPUInstrInfo.h"
				#include "SIMachineFunctionInfo.h"
				#include "llvm/ADT/Statistic.h"
				#include "llvm/CodeGen/MachineFunctionPass.h"
				#include "llvm/CodeGen/MachineInstrBuilder.h"
				#include "llvm/CodeGen/MachineRegisterInfo.h"
				#include "llvm/IR/Constants.h"
				#include "llvm/IR/Function.h"
				#include "llvm/IR/LLVMContext.h"
				#include "llvm/Support/Debug.h"
				#include "llvm/Support/raw_ostream.h"
				#include "llvm/Target/TargetMachine.h"

				#define DEBUG_TYPE "si-mode-register"

				STATISTIC(NumSetregInserted,
				"Number of setreg of mode register inserted.");

				using namespace llvm;

				namespace {

				class SIModeRegister : public MachineFunctionPass {
				public:
				static char ID;
				unsigned stop;

				public:
				SIModeRegister() : MachineFunctionPass(ID) {
				}

				bool runOnMachineFunction(MachineFunction &MF) override;

				void getAnalysisUsage(AnalysisUsage &AU) const override {
				AU.setPreservesCFG();
				MachineFunctionPass::getAnalysisUsage(AU);
				}
				};
				} // End anonymous namespace.

				INITIALIZE_PASS(SIModeRegister, DEBUG_TYPE,
				"insert updates to mode register settings", false, false)

				char SIModeRegister::ID = 0;

				char &llvm::SIModeRegisterID = SIModeRegister::ID;

				FunctionPass *llvm::createSIModeRegisterPass() {
				return new SIModeRegister();
				}

				// We iterate through the instructions of each block and for any that use the
				// FP DP rounding mode we check that the current mode is appropropriate. If
				// not we insert a setreg to change it. If we find a setreg that modifies the
				// rounding mode we track that as the current value.
				// We then recursively propagate the final value to all the successor blocks.
				// For back-edges we need to revisit blocks until we revisit a block and find
				// an instruction that uses the DP rounding mode or as setreg that modifies it
				// (in those cases we know successor blocks already have the required modes set)
				// or we visit a block for the second time (we know there are no instructions
				// that use or set the FP DP rounding mode)
				static int processBlock(MachineBasicBlock &MBB, const SIInstrInfo *TII,
				int currentMode, SmallVector<unsigned, 32> &revisits) {
				MachineBasicBlock::iterator I, Next;
				for (I = MBB.SkipPHIsLabelsAndDebug(MBB.begin()); I != MBB.end(); I = Next) {
				Next = std::next(I);
				MachineInstr &MI = *I;
				if (TII->usesFPDPRounding(MI)) {
				// This instruction uses the DP rounding mode - check that the current
				// mode is suitable, and if not insert a setreg to change the mode
				if ((MI.getOpcode() == AMDGPU::V_INTERP_P1LL_F16) \|\|
				(MI.getOpcode() == AMDGPU::V_INTERP_P1LV_F16) \|\|
				(MI.getOpcode() == AMDGPU::V_INTERP_P2_F16)) {
				// f16 interpolation instructions need round to zero
				if (currentMode != FP_ROUND_ROUND_TO_ZERO) {
				currentMode = FP_ROUND_ROUND_TO_ZERO;
				BuildMI(MBB, I, 0, TII->get(AMDGPU::S_SETREG_IMM32_B32))
				.addImm(currentMode).addImm(0x881);
				++NumSetregInserted;
				}
				} else {
				// By default we use round to nearest for other DP instructions
				// NOTE: this should come from a per function rounding mode setting once
				// such a setting exists.
				if (currentMode != FP_ROUND_ROUND_TO_NEAREST) {
				currentMode = FP_ROUND_ROUND_TO_NEAREST;
				BuildMI(MBB, I, 0, TII->get(AMDGPU::S_SETREG_IMM32_B32))
				.addImm(currentMode).addImm(0x881);
				++NumSetregInserted;
				}
				}
				if (revisits[MBB.getNumber()] >= 1)
				return currentMode;
				} else if ((MI.getOpcode() == AMDGPU::S_SETREG_B32) \|\|
				(MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32)) {
				// track changes to the rounding mode

				// ignore setreg if not writing to MODE register
				unsigned dst = TII->getNamedOperand(MI, AMDGPU::OpName::simm16)->getImm();
				if (((dst & AMDGPU::Hwreg::ID_MASK_) >> AMDGPU::Hwreg::ID_SHIFT_) !=
				AMDGPU::Hwreg::ID_MODE)
				continue;

				unsigned width = ((dst & AMDGPU::Hwreg::WIDTH_M1_MASK_) >>
				AMDGPU::Hwreg::WIDTH_M1_SHIFT_) + 1;
				unsigned offset = (dst & AMDGPU::Hwreg::OFFSET_MASK_) >>
				AMDGPU::Hwreg::OFFSET_SHIFT_;
				unsigned mask = ((1 << width) - 1) << offset;

				// skip if not updating any part of the DP rounding mode
				if ((mask & FP_ROUND_MODE_DP(3)) == 0)
				continue;
				// it is possible for the setreg to update only part of the DP mode
				// field so we'll mask the current and new modes appropriately -
				// however, if we don't know the current mode we can't use a partial
				// value
				bool partial = ((mask & FP_ROUND_MODE_DP(3)) != FP_ROUND_MODE_DP(3));
				if (partial && (currentMode == -1))
				continue;
				if (MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32) {
				unsigned val = TII->getNamedOperand(MI, AMDGPU::OpName::imm)->getImm();
				currentMode = (((val << offset) & FP_ROUND_MODE_DP(3)) \|
				((FP_ROUND_MODE_DP(currentMode) & ~mask))) >> 2;
				} else {
				currentMode = -1;
				}
				// if it was a partial update we may have a different currentMode from
				// values via different paths so we need to continue the propagation,
				// otherwise if we are revisiting the block we can return
				if ((revisits[MBB.getNumber()] >= 1 ) && !partial)
				return currentMode;
				}
				}

				// propagate the current mode to all successor blocks
				if (revisits[MBB.getNumber()] < 2) {
				++revisits[MBB.getNumber()];
				MachineBasicBlock::succ_iterator S;
				for (MachineBasicBlock::succ_iterator S = MBB.succ_begin(), E = MBB.succ_end();
				S != E; S = std::next(S)) {
				MachineBasicBlock &B = (S);
				processBlock(B, TII, currentMode, revisits);
				}
				--revisits[MBB.getNumber()];
				}
				return currentMode;
				}

				// The DP Rounding flags within the Mode register are used to control both
				// 64 bit and 16 bit floating point rounding behavior.
				// The 16 bit interpolation instructions require Round to Zero for correct
				// results, so explicit mode changes may need to be inserted to ensure
				// each instruction has the required mode.
				// Other mode register settings may need to be tracked in the future.
				bool SIModeRegister::runOnMachineFunction(MachineFunction &MF) {
				if (skipFunction(MF.getFunction()))
				return false;

				SmallVector<unsigned, 32> revisits;
				revisits.resize(MF.getNumBlockIDs());
				const SISubtarget &ST = MF.getSubtarget<SISubtarget>();
				const SIInstrInfo *TII = ST.getInstrInfo();
				MachineFunction::iterator BI = MF.begin();
				// We currently assume the default rounding mode is Round to Nearest
				// NOTE: this should come from a per function rounding mode setting once such
				// a setting exists.
				processBlock(*BI, TII, FP_ROUND_ROUND_TO_NEAREST, revisits);

				return NumSetregInserted > 0;
				}

lib/Target/AMDGPU/VOP1Instructions.td

	Show First 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
	defm V_EXP_F32 : VOP1Inst <"v_exp_f32", VOP_F32_F32, fexp2>;			defm V_EXP_F32 : VOP1Inst <"v_exp_f32", VOP_F32_F32, fexp2>;
	defm V_LOG_F32 : VOP1Inst <"v_log_f32", VOP_F32_F32, flog2>;			defm V_LOG_F32 : VOP1Inst <"v_log_f32", VOP_F32_F32, flog2>;
	defm V_RCP_F32 : VOP1Inst <"v_rcp_f32", VOP_F32_F32, AMDGPUrcp>;			defm V_RCP_F32 : VOP1Inst <"v_rcp_f32", VOP_F32_F32, AMDGPUrcp>;
	defm V_RCP_IFLAG_F32 : VOP1Inst <"v_rcp_iflag_f32", VOP_F32_F32, AMDGPUrcp_iflag>;			defm V_RCP_IFLAG_F32 : VOP1Inst <"v_rcp_iflag_f32", VOP_F32_F32, AMDGPUrcp_iflag>;
	defm V_RSQ_F32 : VOP1Inst <"v_rsq_f32", VOP_F32_F32, AMDGPUrsq>;			defm V_RSQ_F32 : VOP1Inst <"v_rsq_f32", VOP_F32_F32, AMDGPUrsq>;
	defm V_SQRT_F32 : VOP1Inst <"v_sqrt_f32", VOP_F32_F32, fsqrt>;			defm V_SQRT_F32 : VOP1Inst <"v_sqrt_f32", VOP_F32_F32, fsqrt>;
	} // End SchedRW = [WriteQuarterRate32]			} // End SchedRW = [WriteQuarterRate32]

	let SchedRW = [WriteDouble] in {			let SchedRW = [WriteDouble], FPDPRounding = 1 in {
	defm V_RCP_F64 : VOP1Inst <"v_rcp_f64", VOP_F64_F64, AMDGPUrcp>;			defm V_RCP_F64 : VOP1Inst <"v_rcp_f64", VOP_F64_F64, AMDGPUrcp>;
	defm V_RSQ_F64 : VOP1Inst <"v_rsq_f64", VOP_F64_F64, AMDGPUrsq>;			defm V_RSQ_F64 : VOP1Inst <"v_rsq_f64", VOP_F64_F64, AMDGPUrsq>;
	} // End SchedRW = [WriteDouble];			} // End SchedRW = [WriteDouble];

	let SchedRW = [WriteDouble] in {			let SchedRW = [WriteDouble], FPDPRounding = 1 in {
	defm V_SQRT_F64 : VOP1Inst <"v_sqrt_f64", VOP_F64_F64, fsqrt>;			defm V_SQRT_F64 : VOP1Inst <"v_sqrt_f64", VOP_F64_F64, fsqrt>;
	} // End SchedRW = [WriteDouble]			} // End SchedRW = [WriteDouble], FPDPRounding = 1

	let SchedRW = [WriteQuarterRate32] in {			let SchedRW = [WriteQuarterRate32] in {
	defm V_SIN_F32 : VOP1Inst <"v_sin_f32", VOP_F32_F32, AMDGPUsin>;			defm V_SIN_F32 : VOP1Inst <"v_sin_f32", VOP_F32_F32, AMDGPUsin>;
	defm V_COS_F32 : VOP1Inst <"v_cos_f32", VOP_F32_F32, AMDGPUcos>;			defm V_COS_F32 : VOP1Inst <"v_cos_f32", VOP_F32_F32, AMDGPUcos>;
	} // End SchedRW = [WriteQuarterRate32]			} // End SchedRW = [WriteQuarterRate32]

	defm V_NOT_B32 : VOP1Inst <"v_not_b32", VOP_I32_I32>;			defm V_NOT_B32 : VOP1Inst <"v_not_b32", VOP_I32_I32>;
	defm V_BFREV_B32 : VOP1Inst <"v_bfrev_b32", VOP_I32_I32>;			defm V_BFREV_B32 : VOP1Inst <"v_bfrev_b32", VOP_I32_I32>;
	▲ Show 20 Lines • Show All 499 Lines • Show Last 20 Lines

lib/Target/AMDGPU/VOP3Instructions.td

Show First 20 Lines • Show All 213 Lines • ▼ Show 20 Lines	def VOP3b_I64_I1_I32_I32_I64 : VOPProfile<[i64, i32, i32, i64]> {
let Outs64 = (outs DstRC:$vdst, SReg_64:$sdst);		let Outs64 = (outs DstRC:$vdst, SReg_64:$sdst);
let Asm64 = " $vdst, $sdst, $src0, $src1, $src2$clamp";		let Asm64 = " $vdst, $sdst, $src0, $src1, $src2$clamp";
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VOP3 INTERP		// VOP3 INTERP
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

class VOP3Interp<string OpName, VOPProfile P> : VOP3_Pseudo<OpName, P> {		class VOP3Interp<string OpName, VOPProfile P, list<dag> pattern = []> :
		VOP3_Pseudo<OpName, P, pattern> {
let AsmMatchConverter = "cvtVOP3Interp";		let AsmMatchConverter = "cvtVOP3Interp";
}		}

def VOP3_INTERP : VOPProfile<[f32, f32, i32, untyped]> {		def VOP3_INTERP : VOPProfile<[f32, f32, i32, untyped]> {
let Ins64 = (ins Src0Mod:$src0_modifiers, VRegSrc_32:$src0,		let Ins64 = (ins Src0Mod:$src0_modifiers, VRegSrc_32:$src0,
Attr:$attr, AttrChan:$attrchan,		Attr:$attr, AttrChan:$attrchan,
clampmod:$clamp, omod:$omod);		clampmod:$clamp, omod:$omod);

▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines

def V_MAD_LEGACY_F32 : VOP3Inst <"v_mad_legacy_f32", VOP3_Profile<VOP_F32_F32_F32_F32>>;		def V_MAD_LEGACY_F32 : VOP3Inst <"v_mad_legacy_f32", VOP3_Profile<VOP_F32_F32_F32_F32>>;
def V_MAD_F32 : VOP3Inst <"v_mad_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, fmad>;		def V_MAD_F32 : VOP3Inst <"v_mad_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, fmad>;
def V_MAD_I32_I24 : VOP3Inst <"v_mad_i32_i24", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_MAD_I32_I24 : VOP3Inst <"v_mad_i32_i24", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_MAD_U32_U24 : VOP3Inst <"v_mad_u32_u24", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_MAD_U32_U24 : VOP3Inst <"v_mad_u32_u24", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_FMA_F32 : VOP3Inst <"v_fma_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, fma>;		def V_FMA_F32 : VOP3Inst <"v_fma_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, fma>;
def V_LERP_U8 : VOP3Inst <"v_lerp_u8", VOP3_Profile<VOP_I32_I32_I32_I32>, int_amdgcn_lerp>;		def V_LERP_U8 : VOP3Inst <"v_lerp_u8", VOP3_Profile<VOP_I32_I32_I32_I32>, int_amdgcn_lerp>;

let SchedRW = [WriteDoubleAdd] in {		let SchedRW = [WriteDoubleAdd], FPDPRounding = 1 in {
def V_FMA_F64 : VOP3Inst <"v_fma_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, fma>;		def V_FMA_F64 : VOP3Inst <"v_fma_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, fma>;
def V_ADD_F64 : VOP3Inst <"v_add_f64", VOP3_Profile<VOP_F64_F64_F64>, fadd, 1>;		def V_ADD_F64 : VOP3Inst <"v_add_f64", VOP3_Profile<VOP_F64_F64_F64>, fadd, 1>;
def V_MUL_F64 : VOP3Inst <"v_mul_f64", VOP3_Profile<VOP_F64_F64_F64>, fmul, 1>;		def V_MUL_F64 : VOP3Inst <"v_mul_f64", VOP3_Profile<VOP_F64_F64_F64>, fmul, 1>;
def V_MIN_F64 : VOP3Inst <"v_min_f64", VOP3_Profile<VOP_F64_F64_F64>, fminnum, 1>;		def V_MIN_F64 : VOP3Inst <"v_min_f64", VOP3_Profile<VOP_F64_F64_F64>, fminnum, 1>;
def V_MAX_F64 : VOP3Inst <"v_max_f64", VOP3_Profile<VOP_F64_F64_F64>, fmaxnum, 1>;		def V_MAX_F64 : VOP3Inst <"v_max_f64", VOP3_Profile<VOP_F64_F64_F64>, fmaxnum, 1>;
} // End SchedRW = [WriteDoubleAdd]		} // End SchedRW = [WriteDoubleAdd], FPDPRounding = 1

let SchedRW = [WriteQuarterRate32] in {		let SchedRW = [WriteQuarterRate32] in {
def V_MUL_LO_U32 : VOP3Inst <"v_mul_lo_u32", VOP3_Profile<VOP_I32_I32_I32>>;		def V_MUL_LO_U32 : VOP3Inst <"v_mul_lo_u32", VOP3_Profile<VOP_I32_I32_I32>>;
def V_MUL_HI_U32 : VOP3Inst <"v_mul_hi_u32", VOP3_Profile<VOP_I32_I32_I32>, mulhu>;		def V_MUL_HI_U32 : VOP3Inst <"v_mul_hi_u32", VOP3_Profile<VOP_I32_I32_I32>, mulhu>;
def V_MUL_LO_I32 : VOP3Inst <"v_mul_lo_i32", VOP3_Profile<VOP_I32_I32_I32>>;		def V_MUL_LO_I32 : VOP3Inst <"v_mul_lo_i32", VOP3_Profile<VOP_I32_I32_I32>>;
def V_MUL_HI_I32 : VOP3Inst <"v_mul_hi_i32", VOP3_Profile<VOP_I32_I32_I32>, mulhs>;		def V_MUL_HI_I32 : VOP3Inst <"v_mul_hi_i32", VOP3_Profile<VOP_I32_I32_I32>, mulhs>;
} // End SchedRW = [WriteQuarterRate32]		} // End SchedRW = [WriteQuarterRate32]

Show All 10 Lines
// v_div_fmas_f64:		// v_div_fmas_f64:
// result = src0 * src1 + src2		// result = src0 * src1 + src2
// if (vcc)		// if (vcc)
// result *= 2^64		// result *= 2^64
//		//
def V_DIV_FMAS_F64 : VOP3_Pseudo <"v_div_fmas_f64", VOP_F64_F64_F64_F64_VCC,		def V_DIV_FMAS_F64 : VOP3_Pseudo <"v_div_fmas_f64", VOP_F64_F64_F64_F64_VCC,
getVOP3VCC<VOP_F64_F64_F64_F64_VCC, AMDGPUdiv_fmas>.ret> {		getVOP3VCC<VOP_F64_F64_F64_F64_VCC, AMDGPUdiv_fmas>.ret> {
let SchedRW = [WriteDouble];		let SchedRW = [WriteDouble];
		let FPDPRounding = 1;
}		}
} // End Uses = [VCC, EXEC]		} // End Uses = [VCC, EXEC]

} // End isCommutable = 1		} // End isCommutable = 1

def V_CUBEID_F32 : VOP3Inst <"v_cubeid_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubeid>;		def V_CUBEID_F32 : VOP3Inst <"v_cubeid_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubeid>;
def V_CUBESC_F32 : VOP3Inst <"v_cubesc_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubesc>;		def V_CUBESC_F32 : VOP3Inst <"v_cubesc_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubesc>;
def V_CUBETC_F32 : VOP3Inst <"v_cubetc_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubetc>;		def V_CUBETC_F32 : VOP3Inst <"v_cubetc_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, int_amdgcn_cubetc>;
Show All 14 Lines
def V_MED3_U32 : VOP3Inst <"v_med3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumed3>;		def V_MED3_U32 : VOP3Inst <"v_med3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumed3>;
def V_SAD_U8 : VOP3Inst <"v_sad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_SAD_U8 : VOP3Inst <"v_sad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_SAD_HI_U8 : VOP3Inst <"v_sad_hi_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_SAD_HI_U8 : VOP3Inst <"v_sad_hi_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_SAD_U16 : VOP3Inst <"v_sad_u16", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_SAD_U16 : VOP3Inst <"v_sad_u16", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_SAD_U32 : VOP3Inst <"v_sad_u32", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_SAD_U32 : VOP3Inst <"v_sad_u32", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
def V_CVT_PK_U8_F32 : VOP3Inst<"v_cvt_pk_u8_f32", VOP3_Profile<VOP_I32_F32_I32_I32>, int_amdgcn_cvt_pk_u8_f32>;		def V_CVT_PK_U8_F32 : VOP3Inst<"v_cvt_pk_u8_f32", VOP3_Profile<VOP_I32_F32_I32_I32>, int_amdgcn_cvt_pk_u8_f32>;
def V_DIV_FIXUP_F32 : VOP3Inst <"v_div_fixup_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUdiv_fixup>;		def V_DIV_FIXUP_F32 : VOP3Inst <"v_div_fixup_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUdiv_fixup>;

let SchedRW = [WriteDoubleAdd] in {		let SchedRW = [WriteDoubleAdd], FPDPRounding = 1 in {
def V_DIV_FIXUP_F64 : VOP3Inst <"v_div_fixup_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, AMDGPUdiv_fixup>;		def V_DIV_FIXUP_F64 : VOP3Inst <"v_div_fixup_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, AMDGPUdiv_fixup>;
def V_LDEXP_F64 : VOP3Inst <"v_ldexp_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUldexp, 1>;		def V_LDEXP_F64 : VOP3Inst <"v_ldexp_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUldexp, 1>;
} // End SchedRW = [WriteDoubleAdd]		} // End SchedRW = [WriteDoubleAdd], FPDPRounding = 1

def V_DIV_SCALE_F32 : VOP3_Pseudo <"v_div_scale_f32", VOP3b_F32_I1_F32_F32_F32, [], 1> {		def V_DIV_SCALE_F32 : VOP3_Pseudo <"v_div_scale_f32", VOP3b_F32_I1_F32_F32_F32, [], 1> {
let SchedRW = [WriteFloatFMA, WriteSALU];		let SchedRW = [WriteFloatFMA, WriteSALU];
let AsmMatchConverter = "";		let AsmMatchConverter = "";
}		}

// Double precision division pre-scale.		// Double precision division pre-scale.
def V_DIV_SCALE_F64 : VOP3_Pseudo <"v_div_scale_f64", VOP3b_F64_I1_F64_F64_F64, [], 1> {		def V_DIV_SCALE_F64 : VOP3_Pseudo <"v_div_scale_f64", VOP3b_F64_I1_F64_F64_F64, [], 1> {
let SchedRW = [WriteDouble, WriteSALU];		let SchedRW = [WriteDouble, WriteSALU];
let AsmMatchConverter = "";		let AsmMatchConverter = "";
		let FPDPRounding = 1;
}		}

def V_MSAD_U8 : VOP3Inst <"v_msad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		def V_MSAD_U8 : VOP3Inst <"v_msad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;

let Constraints = "@earlyclobber $vdst" in {		let Constraints = "@earlyclobber $vdst" in {
def V_MQSAD_PK_U16_U8 : VOP3Inst <"v_mqsad_pk_u16_u8", VOP3_Profile<VOP_I64_I64_I32_I64, VOP3_CLAMP>>;		def V_MQSAD_PK_U16_U8 : VOP3Inst <"v_mqsad_pk_u16_u8", VOP3_Profile<VOP_I64_I64_I32_I64, VOP3_CLAMP>>;
} // End Constraints = "@earlyclobber $vdst"		} // End Constraints = "@earlyclobber $vdst"

def V_TRIG_PREOP_F64 : VOP3Inst <"v_trig_preop_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUtrig_preop> {		def V_TRIG_PREOP_F64 : VOP3Inst <"v_trig_preop_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUtrig_preop> {
let SchedRW = [WriteDouble];		let SchedRW = [WriteDouble];
		let FPDPRounding = 1;
}		}

let SchedRW = [Write64Bit] in {		let SchedRW = [Write64Bit] in {
// These instructions only exist on SI and CI		// These instructions only exist on SI and CI
let SubtargetPredicate = isSICI in {		let SubtargetPredicate = isSICI in {
def V_LSHL_B64 : VOP3Inst <"v_lshl_b64", VOP3_Profile<VOP_I64_I64_I32>>;		def V_LSHL_B64 : VOP3Inst <"v_lshl_b64", VOP3_Profile<VOP_I64_I64_I32>>;
def V_LSHR_B64 : VOP3Inst <"v_lshr_b64", VOP3_Profile<VOP_I64_I64_I32>>;		def V_LSHR_B64 : VOP3Inst <"v_lshr_b64", VOP3_Profile<VOP_I64_I64_I32>>;
def V_ASHR_I64 : VOP3Inst <"v_ashr_i64", VOP3_Profile<VOP_I64_I64_I32>>;		def V_ASHR_I64 : VOP3Inst <"v_ashr_i64", VOP3_Profile<VOP_I64_I64_I32>>;
Show All 35 Lines

let SubtargetPredicate = Has16BitInsts, isCommutable = 1 in {		let SubtargetPredicate = Has16BitInsts, isCommutable = 1 in {

let renamedInGFX9 = 1 in {		let renamedInGFX9 = 1 in {
def V_MAD_F16 : VOP3Inst <"v_mad_f16", VOP3_Profile<VOP_F16_F16_F16_F16>, fmad>;		def V_MAD_F16 : VOP3Inst <"v_mad_f16", VOP3_Profile<VOP_F16_F16_F16_F16>, fmad>;
def V_MAD_U16 : VOP3Inst <"v_mad_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_CLAMP>>;		def V_MAD_U16 : VOP3Inst <"v_mad_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_CLAMP>>;
def V_MAD_I16 : VOP3Inst <"v_mad_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_CLAMP>>;		def V_MAD_I16 : VOP3Inst <"v_mad_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_CLAMP>>;
def V_FMA_F16 : VOP3Inst <"v_fma_f16", VOP3_Profile<VOP_F16_F16_F16_F16>, fma>;		def V_FMA_F16 : VOP3Inst <"v_fma_f16", VOP3_Profile<VOP_F16_F16_F16_F16>, fma>;
def V_INTERP_P2_F16 : VOP3Interp <"v_interp_p2_f16", VOP3_INTERP16<[f16, f32, i32, f32]>>;		let Uses = [M0, EXEC], FPDPRounding = 1 in {
}		def V_INTERP_P2_F16 : VOP3Interp <"v_interp_p2_f16", VOP3_INTERP16<[f16, f32, i32, f32]>,
		[(set f16:$vdst, (AMDGPUinterp_p2_f16 f32:$src0, (i32 imm:$attrchan),
		(i32 imm:$attr),
		(i32 imm:$src0_modifiers),
		(f32 VRegSrc_32:$src2),
		(i32 imm:$src2_modifiers),
		(i1 imm:$high),
		(i1 imm:$clamp)))]>;
		} // End Uses = [M0, EXEC], FPDPRounding = 1
		} // End renamedInGfx9 = 1

let SubtargetPredicate = isGFX9 in {		let SubtargetPredicate = isGFX9 in {
def V_MAD_F16_gfx9 : VOP3Inst <"v_mad_f16_gfx9", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>>;		def V_MAD_F16_gfx9 : VOP3Inst <"v_mad_f16_gfx9", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>>;
def V_MAD_U16_gfx9 : VOP3Inst <"v_mad_u16_gfx9", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>>;		def V_MAD_U16_gfx9 : VOP3Inst <"v_mad_u16_gfx9", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>>;
def V_MAD_I16_gfx9 : VOP3Inst <"v_mad_i16_gfx9", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>>;		def V_MAD_I16_gfx9 : VOP3Inst <"v_mad_i16_gfx9", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>>;
def V_FMA_F16_gfx9 : VOP3Inst <"v_fma_f16_gfx9", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>>;		def V_FMA_F16_gfx9 : VOP3Inst <"v_fma_f16_gfx9", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>>;
def V_INTERP_P2_F16_gfx9 : VOP3Interp <"v_interp_p2_f16_gfx9", VOP3_INTERP16<[f16, f32, i32, f32]>>;		def V_INTERP_P2_F16_gfx9 : VOP3Interp <"v_interp_p2_f16_gfx9", VOP3_INTERP16<[f16, f32, i32, f32]>>;
} // End SubtargetPredicate = isGFX9		} // End SubtargetPredicate = isGFX9

def V_INTERP_P1LL_F16 : VOP3Interp <"v_interp_p1ll_f16", VOP3_INTERP16<[f32, f32, i32, untyped]>>;		let Uses = [M0, EXEC], FPDPRounding = 1 in {
def V_INTERP_P1LV_F16 : VOP3Interp <"v_interp_p1lv_f16", VOP3_INTERP16<[f32, f32, i32, f16]>>;		def V_INTERP_P1LL_F16 : VOP3Interp <"v_interp_p1ll_f16", VOP3_INTERP16<[f32, f32, i32, untyped]>,
		[(set f32:$vdst, (AMDGPUinterp_p1ll_f16 f32:$src0, (i32 imm:$attrchan),
		(i32 imm:$attr),
		(i32 imm:$src0_modifiers),
		(i1 imm:$high),
		(i1 imm:$clamp),
		(i32 imm:$omod)))]>;
		tprUnsubmitted Done Reply Inline Actions Don't forget to fix the problem found with this i1 in testing. tpr: Don't forget to fix the problem found with this i1 in testing.
		def V_INTERP_P1LV_F16 : VOP3Interp <"v_interp_p1lv_f16", VOP3_INTERP16<[f32, f32, i32, f16]>,
		[(set f32:$vdst, (AMDGPUinterp_p1lv_f16 f32:$src0, (i32 imm:$attrchan),
		(i32 imm:$attr),
		(i32 imm:$src0_modifiers),
		(f32 VRegSrc_32:$src2),
		(i32 imm:$src2_modifiers),
		(i1 imm:$high),
		(i1 imm:$clamp),
		(i32 imm:$omod)))]>;
		} // End Uses = [M0, EXEC], FPDPRounding = 1

} // End SubtargetPredicate = Has16BitInsts, isCommutable = 1		} // End SubtargetPredicate = Has16BitInsts, isCommutable = 1

let SubtargetPredicate = isVI in {		let SubtargetPredicate = isVI in {
def V_INTERP_P1_F32_e64 : VOP3Interp <"v_interp_p1_f32", VOP3_INTERP>;		def V_INTERP_P1_F32_e64 : VOP3Interp <"v_interp_p1_f32", VOP3_INTERP>;
def V_INTERP_P2_F32_e64 : VOP3Interp <"v_interp_p2_f32", VOP3_INTERP>;		def V_INTERP_P2_F32_e64 : VOP3Interp <"v_interp_p2_f32", VOP3_INTERP>;
def V_INTERP_MOV_F32_e64 : VOP3Interp <"v_interp_mov_f32", VOP3_INTERP_MOV>;		def V_INTERP_MOV_F32_e64 : VOP3Interp <"v_interp_mov_f32", VOP3_INTERP_MOV>;

▲ Show 20 Lines • Show All 410 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.interp.f16.ll

This file was added.

				; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9_32BANK %s
				; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8_32BANK %s
				; RUN: llc -march=amdgcn -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8_16BANK %s

				arsenmUnsubmitted Done Reply Inline Actions Use -'s instead of _'s in the check prefixes arsenm: Use -'s instead of _'s in the check prefixes
				; GFX9_32BANK-LABEL: {{^}}interp_f16:
				; GFX9_32BANK: s_mov_b32 m0, s{{[0-9]+}}
				; GFX9_32BANK: v_interp_p1ll_f16{{(_e32)*}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y{{$}}
				; GFX9_32BANK: v_interp_p1ll_f16{{(_e32)*}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y high
				arsenmUnsubmitted Done Reply Inline Actions Might as well just use update_llc_test_checks at this point? arsenm: Might as well just use update_llc_test_checks at this point?
				; GFX9_32BANK: v_interp_p2_legacy_f16{{(_e32)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}}{{$}}
				; GFX9_32BANK: v_interp_p2_legacy_f16{{(_e32)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}} high

				; GFX8_32BANK-LABEL: {{^}}interp_f16:
				; GFX8_32BANK: s_mov_b32 m0, s{{[0-9]+}}
				; GFX8_32BANK: v_interp_p1ll_f16{{(_e32)*}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y{{$}}
				; GFX8_32BANK: v_interp_p1ll_f16{{(_e32)*}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y high
				; GFX8_32BANK: v_interp_p2_f16{{(_e32)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}}{{$}}
				; GFX8_32BANK: v_interp_p2_f16{{(_e32)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}} high

				; GFX8_16BANK-LABEL: {{^}}interp_f16:
				; GFX8_16BANK: s_mov_b32 m0, s{{[0-9]+}}
				; there should be only one v_interp_mov
				; GFX8_16BANK: v_interp_mov_f32_e32 v{{[0-9]+}}, p0, attr2.y
				; GFX8_16BANK-NOT: v_interp_mov_f32_e32 v{{[0-9]+}}, p0, attr2.y
				; GFX8_16BANK: v_interp_p1lv_f16{{(_e64)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}}{{$}}
				; GFX8_16BANK: v_interp_p1lv_f16{{(_e64)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}} high
				; GFX8_16BANK: v_interp_p2_f16{{(_e64)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}}{{$}}
				; GFX8_16BANK: v_interp_p2_f16{{(_e64)}} v{{[0-9]+}}, v{{[0-9]+}}, attr2.y, v{{[0-9]}} high

				define amdgpu_ps half @interp_f16(float inreg %i, float inreg %j, i32 inreg %m0) #0 {
				main_body:
				%p1_0 = call float @llvm.amdgcn.interp.p1.f16(float %i, i32 1, i32 2, i1 0, i32 %m0)
				%p2_0 = call half @llvm.amdgcn.interp.p2.f16(float %p1_0, float %j, i32 1, i32 2, i1 0, i32 %m0)
				%p1_1 = call float @llvm.amdgcn.interp.p1.f16(float %i, i32 1, i32 2, i1 1, i32 %m0)
				%p2_1 = call half @llvm.amdgcn.interp.p2.f16(float %p1_1, float %j, i32 1, i32 2, i1 1, i32 %m0)
				%res = fadd half %p2_0, %p2_1
				ret half %res
				}

				; float @llvm.amdgcn.interp.p1.f16(i, attrchan, attr, high, m0)
				declare float @llvm.amdgcn.interp.p1.f16(float, i32, i32, i1, i32) #0
				; half @llvm.amdgcn.interp.p1.f16(p1, j, attrchan, attr, high, m0)
				declare half @llvm.amdgcn.interp.p2.f16(float, float, i32, i32, i1, i32) #0
				declare float @llvm.amdgcn.interp.mov(i32, i32, i32, i32) #0

				attributes #0 = { nounwind readnone }
				arsenmUnsubmitted Not Done Reply Inline Actions Can you add a test case with LDS usage to make sure m0 is properly restored after? arsenm: Can you add a test case with LDS usage to make sure m0 is properly restored after?
				timcorringhamAuthorUnsubmitted Done Reply Inline Actions I have added test cases to check that m0 is set up before each of the interp f16 instructions if necessary. I have done this by explicitly writing to m0 rather than using LDS as I couldn't see a way to do the latter, and other tests use the technique of writing to m0. timcorringham: I have added test cases to check that m0 is set up before each of the interp f16 instructions…

test/CodeGen/AMDGPU/mode-register.mir

This file was added.

				# RUN: llc -march=amdgcn -mcpu=gfx900 -run-pass si-mode-register %s -o - \| FileCheck %s

				---
				# check that the mode is changed to rtz from default rtn for interp f16
				# CHECK-LABEL: name: interp_f16_default
				# CHECK-LABEL: bb.0:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK-NOT: S_SETREG_IMM32_B32

				name: interp_f16_default

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2
				$m0 = S_MOV_B32 killed $sgpr2
				$vgpr0 = V_MOV_B32_e32 killed $sgpr0, implicit $exec, implicit $exec
				$vgpr1 = V_INTERP_P1LL_F16 0, $vgpr0, 2, 1, 0, 0, 0, implicit $m0, implicit $exec
				$vgpr2 = V_MOV_B32_e32 killed $sgpr1, implicit $exec, implicit $exec
				$vgpr0 = V_INTERP_P1LL_F16 0, killed $vgpr0, 2, 1, -1, 0, 0, implicit $m0, implicit $exec
				$vgpr1 = V_INTERP_P2_F16 0, $vgpr2, 2, 1, 0, killed $vgpr1, 0, 0, implicit $m0, implicit $exec
				$vgpr0 = V_INTERP_P2_F16 0, killed $vgpr2, 2, 1, 0, killed $vgpr0, -1, 0, implicit $m0, implicit $exec
				$vgpr0 = V_ADD_F16_e32 killed $vgpr1, killed $vgpr0, implicit $exec
				S_ENDPGM
				...
				---
				# check that the mode is not changed for interp f16 when the mode is already RTZ
				# CHECK-LABEL: name: interp_f16_explicit_rtz
				# CHECK-LABEL: bb.0:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK-NOT: S_SETREG_IMM32_B32

				name: interp_f16_explicit_rtz

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2
				$m0 = S_MOV_B32 killed $sgpr2
				S_SETREG_IMM32_B32 3, 2177
				$vgpr0 = V_MOV_B32_e32 killed $sgpr0, implicit $exec, implicit $exec
				$vgpr1 = V_INTERP_P1LL_F16 0, $vgpr0, 2, 1, 0, 0, 0, implicit $m0, implicit $exec
				$vgpr2 = V_MOV_B32_e32 killed $sgpr1, implicit $exec, implicit $exec
				$vgpr0 = V_INTERP_P1LL_F16 0, killed $vgpr0, 2, 1, -1, 0, 0, implicit $m0, implicit $exec
				$vgpr1 = V_INTERP_P2_F16 0, $vgpr2, 2, 1, 0, killed $vgpr1, 0, 0, implicit $m0, implicit $exec
				$vgpr0 = V_INTERP_P2_F16 0, killed $vgpr2, 2, 1, 0, killed $vgpr0, -1, 0, implicit $m0, implicit $exec
				$vgpr0 = V_ADD_F16_e32 killed $vgpr1, killed $vgpr0, implicit $exec
				S_ENDPGM
				...
				---
				# check that the mode is unchanged from RTN for F64 instruction
				# CHECK-LABEL: name: rtn_default
				# CHECK-LABEL: bb.0:
				# CHECK-NOT: S_SETREG_IMM32_B32
				# CHECK: V_SQRT_F64

				name: rtn_default

				body: \|
				bb.0:
				liveins: $vgpr1_vgpr2
				$vgpr1_vgpr2 = V_SQRT_F64_e32 killed $vgpr1_vgpr2, implicit $exec
				S_ENDPGM
				...
				---
				# check that the mode is changed from RTZ to RTN for F64 instruction
				# CHECK-LABEL: name: rtn_from_rtz
				# CHECK-LABEL: bb.0:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK-NEXT: S_SETREG_IMM32_B32 0, 2177
				# CHECK-NOT: S_SETREG_IMM32_B32
				# CHECK: V_SQRT_F64

				name: rtn_from_rtz

				body: \|
				bb.0:
				liveins: $vgpr1_vgpr2
				S_SETREG_IMM32_B32 3, 2177
				$vgpr1_vgpr2 = V_SQRT_F64_e32 killed $vgpr1_vgpr2, implicit $exec
				S_ENDPGM
				...
				---
				# check that the mode is changed from RTZ to RTN for F64 instruction
				# and back again for remaining interp instruction
				# CHECK-LABEL: name: interp_f16_plus_sqrt_f64
				# CHECK-LABEL: bb.0:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK: V_INTERP_P1LL_F16
				# CHECK: V_INTERP_P1LL_F16
				# CHECK: V_INTERP_P2_F16
				# CHECK: S_SETREG_IMM32_B32 0, 2177
				# CHECK: V_SQRT_F64
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK: V_INTERP_P2_F16

				name: interp_f16_plus_sqrt_f64

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr3, $vgpr4
				$m0 = S_MOV_B32 killed $sgpr2
				$vgpr0 = V_MOV_B32_e32 $sgpr0, implicit $exec, implicit $exec
				$vgpr1 = V_INTERP_P1LL_F16 0, $vgpr0, 2, 1, 0, 0, 0, implicit $m0, implicit $exec
				$vgpr2 = V_MOV_B32_e32 $sgpr1, implicit $exec, implicit $exec
				$vgpr0 = V_INTERP_P1LL_F16 0, killed $vgpr0, 2, 1, -1, 0, 0, implicit $m0, implicit $exec
				$vgpr1 = V_INTERP_P2_F16 0, $vgpr2, 2, 1, 0, killed $vgpr1, 0, 0, implicit $m0, implicit $exec
				$vgpr3_vgpr4 = V_SQRT_F64_e32 killed $vgpr3_vgpr4, implicit $exec
				$vgpr0 = V_INTERP_P2_F16 0, killed $vgpr2, 2, 1, 0, killed $vgpr0, -1, 0, implicit $m0, implicit $exec
				$vgpr0 = V_ADD_F16_e32 killed $sgpr0, killed $vgpr0, implicit $exec
				S_ENDPGM
				...
				---
				# check that an explicit change to the single precision mode has no effect
				# CHECK-LABEL: name: single_precision_mode_change
				# CHECK-LABEL: bb.0:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK: V_INTERP_P1LL_F16
				# CHECK: V_INTERP_P1LL_F16
				# CHECK: V_INTERP_P2_F16
				# CHECK: S_SETREG_IMM32_B32 0, 2177
				# CHECK: V_SQRT_F64
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK: V_INTERP_P2_F16

				name: single_precision_mode_change

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr3, $vgpr4
				$m0 = S_MOV_B32 killed $sgpr2
				$vgpr0 = V_MOV_B32_e32 $sgpr0, implicit $exec, implicit $exec
				$vgpr1 = V_INTERP_P1LL_F16 0, $vgpr0, 2, 1, 0, 0, 0, implicit $m0, implicit $exec
				S_SETREG_IMM32_B32 2, 2049
				$vgpr2 = V_MOV_B32_e32 $sgpr1, implicit $exec, implicit $exec
				$vgpr0 = V_INTERP_P1LL_F16 0, killed $vgpr0, 2, 1, -1, 0, 0, implicit $m0, implicit $exec
				$vgpr1 = V_INTERP_P2_F16 0, $vgpr2, 2, 1, 0, killed $vgpr1, 0, 0, implicit $m0, implicit $exec
				$vgpr3_vgpr4 = V_SQRT_F64_e32 killed $vgpr3_vgpr4, implicit $exec
				$vgpr0 = V_INTERP_P2_F16 0, killed $vgpr2, 2, 1, 0, killed $vgpr0, -1, 0, implicit $m0, implicit $exec
				$vgpr0 = V_ADD_F16_e32 killed $sgpr0, killed $vgpr0, implicit $exec
				S_ENDPGM
				...
				---
				# check that mode is propagated back to start of loop - first instruction is RTN but needs
				# setreg as RTZ is set in loop
				# CHECK-LABEL: name: loop
				# CHECK-LABEL: bb.1:
				# CHECK: S_SETREG_IMM32_B32 0, 2177
				# CHECK: V_SQRT_F64
				# CHECK-LABEL: bb.2:
				# CHECK: S_SETREG_IMM32_B32 3, 2177
				# CHECK: V_INTERP_P1LL_F16
				# CHECK-NOT: S_SETREG_IMM32_B32

				name: loop

				body: \|
				bb.0:
				liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr3, $vgpr4
				successors: %bb.1
				$m0 = S_MOV_B32 killed $sgpr2
				S_BRANCH %bb.1

				bb.1:
				successors: %bb.2
				$vgpr3_vgpr4 = V_SQRT_F64_e32 killed $vgpr3_vgpr4, implicit $exec
				S_BRANCH %bb.2

				bb.2:
				successors: %bb.1, %bb.3
				$vgpr0 = V_MOV_B32_e32 $sgpr0, implicit $exec, implicit $exec
				$vgpr1 = V_INTERP_P1LL_F16 0, $vgpr0, 2, 1, 0, 0, 0, implicit $m0, implicit $exec
				S_CBRANCH_VCCZ %bb.1, implicit $vcc
				S_BRANCH %bb.3

				bb.3:
				S_ENDPGM
				...

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add intrinsics for 16 bit interpolation
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 153913

include/llvm/IR/IntrinsicsAMDGPU.td

lib/Target/AMDGPU/AMDGPU.h

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/AMDGPUSearchableTables.td

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

lib/Target/AMDGPU/CMakeLists.txt

lib/Target/AMDGPU/SIDefines.h

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrFormats.td

lib/Target/AMDGPU/SIInstrInfo.h

lib/Target/AMDGPU/SIModeRegister.cpp

lib/Target/AMDGPU/VOP1Instructions.td

lib/Target/AMDGPU/VOP3Instructions.td

test/CodeGen/AMDGPU/llvm.amdgcn.interp.f16.ll

test/CodeGen/AMDGPU/mode-register.mir

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add intrinsics for 16 bit interpolationClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 153913

include/llvm/IR/IntrinsicsAMDGPU.td

lib/Target/AMDGPU/AMDGPU.h

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/AMDGPUSearchableTables.td

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

lib/Target/AMDGPU/CMakeLists.txt

lib/Target/AMDGPU/SIDefines.h

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrFormats.td

lib/Target/AMDGPU/SIInstrInfo.h

lib/Target/AMDGPU/SIModeRegister.cpp

lib/Target/AMDGPU/VOP1Instructions.td

lib/Target/AMDGPU/VOP3Instructions.td

test/CodeGen/AMDGPU/llvm.amdgcn.interp.f16.ll

test/CodeGen/AMDGPU/mode-register.mir

[AMDGPU] Add intrinsics for 16 bit interpolation
ClosedPublic