Diff 80320

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	private:
bool SelectVOP3Mods0Clamp(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3Mods0Clamp(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Omod) const;		SDValue &Omod) const;
bool SelectVOP3Mods0Clamp0OMod(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3Mods0Clamp0OMod(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Clamp,		SDValue &Clamp,
SDValue &Omod) const;		SDValue &Omod) const;

void SelectADD_SUB_I64(SDNode *N);		void SelectADD_SUB_I64(SDNode *N);
void SelectDIV_SCALE(SDNode *N);		void SelectDIV_SCALE(SDNode *N);
		void SelectFMA_W_CHAIN(SDNode *N);
		void SelectFMUL_W_CHAIN(SDNode *N);

SDNode *getS_BFE(unsigned Opcode, const SDLoc &DL, SDValue Val,		SDNode *getS_BFE(unsigned Opcode, const SDLoc &DL, SDValue Val,
uint32_t Offset, uint32_t Width);		uint32_t Offset, uint32_t Width);
void SelectS_BFEFromShifts(SDNode *N);		void SelectS_BFEFromShifts(SDNode *N);
void SelectS_BFE(SDNode *N);		void SelectS_BFE(SDNode *N);
bool isCBranchSCC(const SDNode *N) const;		bool isCBranchSCC(const SDNode *N) const;
void SelectBRCOND(SDNode *N);		void SelectBRCOND(SDNode *N);
void SelectATOMIC_CMP_SWAP(SDNode *N);		void SelectATOMIC_CMP_SWAP(SDNode *N);
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	void AMDGPUDAGToDAGISel::Select(SDNode *N) {
case ISD::SUBE: {		case ISD::SUBE: {
if (N->getValueType(0) != MVT::i64 \|\|		if (N->getValueType(0) != MVT::i64 \|\|
Subtarget->getGeneration() < AMDGPUSubtarget::SOUTHERN_ISLANDS)		Subtarget->getGeneration() < AMDGPUSubtarget::SOUTHERN_ISLANDS)
break;		break;

SelectADD_SUB_I64(N);		SelectADD_SUB_I64(N);
return;		return;
}		}
		case AMDGPUISD::FMUL_W_CHAIN: {
		SelectFMUL_W_CHAIN(N);
		return;
		}
		case AMDGPUISD::FMA_W_CHAIN: {
		SelectFMA_W_CHAIN(N);
		return;
		}

case ISD::SCALAR_TO_VECTOR:		case ISD::SCALAR_TO_VECTOR:
case AMDGPUISD::BUILD_VERTICAL_VECTOR:		case AMDGPUISD::BUILD_VERTICAL_VECTOR:
case ISD::BUILD_VECTOR: {		case ISD::BUILD_VECTOR: {
unsigned RegClassID;		unsigned RegClassID;
const AMDGPURegisterInfo *TRI = Subtarget->getRegisterInfo();		const AMDGPURegisterInfo *TRI = Subtarget->getRegisterInfo();
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
unsigned NumVectorElts = VT.getVectorNumElements();		unsigned NumVectorElts = VT.getVectorNumElements();
EVT EltVT = VT.getVectorElementType();		EVT EltVT = VT.getVectorElementType();
▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines	if (ProduceCarry) {
CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 1), SDValue(AddHi, 1));		CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 1), SDValue(AddHi, 1));
}		}

// Replace the remaining uses.		// Replace the remaining uses.
CurDAG->ReplaceAllUsesWith(N, RegSequence);		CurDAG->ReplaceAllUsesWith(N, RegSequence);
CurDAG->RemoveDeadNode(N);		CurDAG->RemoveDeadNode(N);
}		}

		void AMDGPUDAGToDAGISel::SelectFMA_W_CHAIN(SDNode *N) {
		SDLoc SL(N);
		// src0_modifiers, src0, src1_modifiers, src1, src2_modifiers, src2, clamp, omod
		SDValue Ops[10];

		SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[6], Ops[7]);
		SelectVOP3Mods(N->getOperand(2), Ops[3], Ops[2]);
		SelectVOP3Mods(N->getOperand(3), Ops[5], Ops[4]);
		Ops[8] = N->getOperand(0);
		Ops[9] = N->getOperand(4);

		CurDAG->SelectNodeTo(N, AMDGPU::V_FMA_F32, N->getVTList(), Ops);
		}

		void AMDGPUDAGToDAGISel::SelectFMUL_W_CHAIN(SDNode *N) {
		SDLoc SL(N);
		// src0_modifiers, src0, src1_modifiers, src1, clamp, omod
		SDValue Ops[8];

		SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[4], Ops[5]);
		SelectVOP3Mods(N->getOperand(2), Ops[3], Ops[2]);
		Ops[6] = N->getOperand(0);
		Ops[7] = N->getOperand(3);

		CurDAG->SelectNodeTo(N, AMDGPU::V_MUL_F32_e64, N->getVTList(), Ops);
		}

// We need to handle this here because tablegen doesn't support matching		// We need to handle this here because tablegen doesn't support matching
// instructions with multiple outputs.		// instructions with multiple outputs.
void AMDGPUDAGToDAGISel::SelectDIV_SCALE(SDNode *N) {		void AMDGPUDAGToDAGISel::SelectDIV_SCALE(SDNode *N) {
SDLoc SL(N);		SDLoc SL(N);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

assert(VT == MVT::f32 \|\| VT == MVT::f64);		assert(VT == MVT::f32 \|\| VT == MVT::f64);

▲ Show 20 Lines • Show All 908 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 218 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
// AMDIL ISD Opcodes		// AMDIL ISD Opcodes
FIRST_NUMBER = ISD::BUILTIN_OP_END,		FIRST_NUMBER = ISD::BUILTIN_OP_END,
CALL, // Function call based on a single integer		CALL, // Function call based on a single integer
UMUL, // 32bit unsigned multiplication		UMUL, // 32bit unsigned multiplication
BRANCH_COND,		BRANCH_COND,
// End AMDIL ISD Opcodes		// End AMDIL ISD Opcodes
ENDPGM,		ENDPGM,
RETURN,		RETURN,
DWORDADDR,		DWORDADDR,
FRACT,		FRACT,
CLAMP,		CLAMP,
		arsenmUnsubmitted Done Reply Inline Actions These should be FMA_W_CHAIN, FMUL_W_CHAIN arsenm: These should be FMA_W_CHAIN, FMUL_W_CHAIN
// This is SETCC with the full mask result which is used for a compare with a		// This is SETCC with the full mask result which is used for a compare with a
// result bit per item in the wavefront.		// result bit per item in the wavefront.
SETCC,		SETCC,
		SETREG,
		// This FMA has input and out chain
		FMA_W_CHAIN,
		//This MUL has input and output chain
		arsenmUnsubmitted Done Reply Inline Actions I would only put the comment once for the block of the 2 instructions arsenm: I would only put the comment once for the block of the 2 instructions
		FMUL_W_CHAIN,

// SIN_HW, COS_HW - f32 for SI, 1 ULP max error, valid from -100 pi to 100 pi.		// SIN_HW, COS_HW - f32 for SI, 1 ULP max error, valid from -100 pi to 100 pi.
// Denormals handled on some parts.		// Denormals handled on some parts.
COS_HW,		COS_HW,
SIN_HW,		SIN_HW,
FMAX_LEGACY,		FMAX_LEGACY,
FMIN_LEGACY,		FMIN_LEGACY,
FMAX3,		FMAX3,
▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 2,947 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(BRANCH_COND);		NODE_NAME_CASE(BRANCH_COND);

// AMDGPU DAG nodes		// AMDGPU DAG nodes
NODE_NAME_CASE(ENDPGM)		NODE_NAME_CASE(ENDPGM)
NODE_NAME_CASE(RETURN)		NODE_NAME_CASE(RETURN)
NODE_NAME_CASE(DWORDADDR)		NODE_NAME_CASE(DWORDADDR)
NODE_NAME_CASE(FRACT)		NODE_NAME_CASE(FRACT)
NODE_NAME_CASE(SETCC)		NODE_NAME_CASE(SETCC)
		NODE_NAME_CASE(SETREG)
		NODE_NAME_CASE(FMA_W_CHAIN)
		NODE_NAME_CASE(FMUL_W_CHAIN)
NODE_NAME_CASE(CLAMP)		NODE_NAME_CASE(CLAMP)
NODE_NAME_CASE(COS_HW)		NODE_NAME_CASE(COS_HW)
NODE_NAME_CASE(SIN_HW)		NODE_NAME_CASE(SIN_HW)
NODE_NAME_CASE(FMAX_LEGACY)		NODE_NAME_CASE(FMAX_LEGACY)
NODE_NAME_CASE(FMIN_LEGACY)		NODE_NAME_CASE(FMIN_LEGACY)
NODE_NAME_CASE(FMAX3)		NODE_NAME_CASE(FMAX3)
NODE_NAME_CASE(SMAX3)		NODE_NAME_CASE(SMAX3)
NODE_NAME_CASE(UMAX3)		NODE_NAME_CASE(UMAX3)
▲ Show 20 Lines • Show All 180 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUInstrInfo.td

	Show First 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	def AMDGPUborrow : SDNode<"AMDGPUISD::BORROW", SDTIntBinOp, []>;			def AMDGPUborrow : SDNode<"AMDGPUISD::BORROW", SDTIntBinOp, []>;

	def AMDGPUSetCCOp : SDTypeProfile<1, 3, [ // setcc			def AMDGPUSetCCOp : SDTypeProfile<1, 3, [ // setcc
	SDTCisVT<0, i64>, SDTCisSameAs<1, 2>, SDTCisVT<3, OtherVT>			SDTCisVT<0, i64>, SDTCisSameAs<1, 2>, SDTCisVT<3, OtherVT>
	]>;			]>;

	def AMDGPUsetcc : SDNode<"AMDGPUISD::SETCC", AMDGPUSetCCOp>;			def AMDGPUsetcc : SDNode<"AMDGPUISD::SETCC", AMDGPUSetCCOp>;

				def AMDGPUSetRegOp : SDTypeProfile<0, 2, [
				SDTCisSameAs<0, 1>, SDTCisInt<0>
				]>;

				def AMDGPUsetreg : SDNode<"AMDGPUISD::SETREG", AMDGPUSetRegOp, [
				SDNPHasChain, SDNPSideEffect, SDNPOptInGlue, SDNPOutGlue]>;

				def AMDGPUfma : SDNode<"AMDGPUISD::FMA_W_CHAIN", SDTFPTernaryOp, [
				SDNPHasChain, SDNPOptInGlue, SDNPOutGlue]>;

				def AMDGPUmul : SDNode<"AMDGPUISD::FMUL_W_CHAIN", SDTFPBinOp, [
				SDNPHasChain, SDNPOptInGlue, SDNPOutGlue]>;

	def AMDGPUcvt_f32_ubyte0 : SDNode<"AMDGPUISD::CVT_F32_UBYTE0",			def AMDGPUcvt_f32_ubyte0 : SDNode<"AMDGPUISD::CVT_F32_UBYTE0",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte1 : SDNode<"AMDGPUISD::CVT_F32_UBYTE1",			def AMDGPUcvt_f32_ubyte1 : SDNode<"AMDGPUISD::CVT_F32_UBYTE1",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte2 : SDNode<"AMDGPUISD::CVT_F32_UBYTE2",			def AMDGPUcvt_f32_ubyte2 : SDNode<"AMDGPUISD::CVT_F32_UBYTE2",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte3 : SDNode<"AMDGPUISD::CVT_F32_UBYTE3",			def AMDGPUcvt_f32_ubyte3 : SDNode<"AMDGPUISD::CVT_F32_UBYTE3",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

Show All 15 Lines
// Provide M_PI.		// Provide M_PI.
#define _USE_MATH_DEFINES		#define _USE_MATH_DEFINES
#include <cmath>		#include <cmath>
#endif		#endif

#include "AMDGPU.h"		#include "AMDGPU.h"
#include "AMDGPUIntrinsicInfo.h"		#include "AMDGPUIntrinsicInfo.h"
#include "AMDGPUSubtarget.h"		#include "AMDGPUSubtarget.h"
		#include "SIDefines.h"
#include "SIISelLowering.h"		#include "SIISelLowering.h"
#include "SIInstrInfo.h"		#include "SIInstrInfo.h"
#include "SIMachineFunctionInfo.h"		#include "SIMachineFunctionInfo.h"
#include "SIRegisterInfo.h"		#include "SIRegisterInfo.h"
#include "llvm/ADT/BitVector.h"		#include "llvm/ADT/BitVector.h"
#include "llvm/ADT/StringSwitch.h"		#include "llvm/ADT/StringSwitch.h"
#include "llvm/CodeGen/CallingConvLower.h"		#include "llvm/CodeGen/CallingConvLower.h"
#include "llvm/CodeGen/MachineInstrBuilder.h"		#include "llvm/CodeGen/MachineInstrBuilder.h"
▲ Show 20 Lines • Show All 2,734 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
case AMDGPUAS::LOCAL_ADDRESS: {		case AMDGPUAS::LOCAL_ADDRESS: {
if (NumElements > 2)		if (NumElements > 2)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);

if (NumElements == 2)		if (NumElements == 2)
return SDValue();		return SDValue();

// If properly aligned, if we split we might be able to use ds_read_b64.		// If properly aligned, if we split we might be able to use ds_read_b64.
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
		arsenmUnsubmitted Done Reply Inline Actions The constant should be a bitmask formed from the enums for the fields you are setting rather than the magic numbers arsenm: The constant should be a bitmask formed from the enums for the fields you are setting rather…
}		}
default:		default:
return SDValue();		return SDValue();
}		}
}		}
		arsenmUnsubmitted Done Reply Inline Actions These lines go over 80 columns arsenm: These lines go over 80 columns
		tstellarAMDAuthorUnsubmitted Not Done Reply Inline Actions These magic number still need to be replaced with enum values. tstellarAMD: These magic number still need to be replaced with enum values.

SDValue SITargetLowering::LowerSELECT(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerSELECT(SDValue Op, SelectionDAG &DAG) const {
if (Op.getValueType() != MVT::i64)		if (Op.getValueType() != MVT::i64)
return SDValue();		return SDValue();

SDLoc DL(Op);		SDLoc DL(Op);
SDValue Cond = Op.getOperand(0);		SDValue Cond = Op.getOperand(0);

Show All 26 Lines	SDValue SITargetLowering::lowerFastUnsafeFDIV(SDValue Op,
SDValue RHS = Op.getOperand(1);		SDValue RHS = Op.getOperand(1);
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();
bool Unsafe = DAG.getTarget().Options.UnsafeFPMath;		bool Unsafe = DAG.getTarget().Options.UnsafeFPMath;

if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {		if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {
if ((Unsafe \|\| (VT == MVT::f32 && !Subtarget->hasFP32Denormals()))) {		if ((Unsafe \|\| (VT == MVT::f32 && !Subtarget->hasFP32Denormals()))) {

if (CLHS->isExactlyValue(1.0)) {		if (CLHS->isExactlyValue(1.0)) {
// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to		// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to
		arsenmUnsubmitted Done Reply Inline Actions You don't need any of the getValue(0)s arsenm: You don't need any of the getValue(0)s
// the CI documentation has a worst case error of 1 ulp.		// the CI documentation has a worst case error of 1 ulp.
// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to		// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to
		tstellarAMDAuthorUnsubmitted Not Done Reply Inline Actions Another magic number here. tstellarAMD: Another magic number here.
// use it as long as we aren't trying to use denormals.		// use it as long as we aren't trying to use denormals.

// 1.0 / sqrt(x) -> rsq(x)		// 1.0 / sqrt(x) -> rsq(x)
//		//
// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP		// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP
// error seems really high at 2^29 ULP.		// error seems really high at 2^29 ULP.
		tstellarAMDAuthorUnsubmitted Done Reply Inline Actions The indentation here and in the rest of the block looks wrong. tstellarAMD: The indentation here and in the rest of the block looks wrong.
if (RHS.getOpcode() == ISD::FSQRT)		if (RHS.getOpcode() == ISD::FSQRT)
return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));		return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));

// 1.0 / x -> rcp(x)		// 1.0 / x -> rcp(x)
return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);		return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
}		}

// Same as for 1.0, but expand the sign out of the constant.		// Same as for 1.0, but expand the sign out of the constant.
if (CLHS->isExactlyValue(-1.0)) {		if (CLHS->isExactlyValue(-1.0)) {
// -1.0 / x -> rcp (fneg x)		// -1.0 / x -> rcp (fneg x)
SDValue FNegRHS = DAG.getNode(ISD::FNEG, SL, VT, RHS);		SDValue FNegRHS = DAG.getNode(ISD::FNEG, SL, VT, RHS);
return DAG.getNode(AMDGPUISD::RCP, SL, VT, FNegRHS);		return DAG.getNode(AMDGPUISD::RCP, SL, VT, FNegRHS);
		tstellarAMDAuthorUnsubmitted Done Reply Inline Actions Extra whitespace change. tstellarAMD: Extra whitespace change.
}		}
}		}
}		}

const SDNodeFlags *Flags = Op->getFlags();		const SDNodeFlags *Flags = Op->getFlags();

if (Unsafe \|\| Flags->hasAllowReciprocal()) {		if (Unsafe \|\| Flags->hasAllowReciprocal()) {
// Turn into multiply by the reciprocal.		// Turn into multiply by the reciprocal.
// x / y -> x * (1.0 / y)		// x / y -> x * (1.0 / y)
SDNodeFlags Flags;		SDNodeFlags Flags;
Flags.setUnsafeAlgebra(true);		Flags.setUnsafeAlgebra(true);
SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);		SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, &Flags);		return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, &Flags);
}		}

return SDValue();		return SDValue();
}		}

		static SDValue getFPBinOp(SelectionDAG &DAG, unsigned Opcode, const SDLoc &SL,
		EVT VT, SDValue A, SDValue B, SDValue GlueChain) {
		if (GlueChain->getNumValues() <= 1) {
		return DAG.getNode(Opcode, SL, VT, A, B);
		}

		assert(GlueChain->getNumValues() == 3);

		SDVTList VTList = DAG.getVTList(VT, MVT::Other, MVT::Glue);
		switch (Opcode) {
		default: llvm_unreachable("no chain equivalent for opcode");
		case ISD::FMUL:
		Opcode = AMDGPUISD::FMUL_W_CHAIN;
		break;
		}

		return DAG.getNode(Opcode, SL, VTList, GlueChain.getValue(1), A, B,
		GlueChain.getValue(2));
		}

		static SDValue getFPTernOp(SelectionDAG &DAG, unsigned Opcode, const SDLoc &SL,
		EVT VT, SDValue A, SDValue B, SDValue C,
		SDValue GlueChain) {
		if (GlueChain->getNumValues() <= 1) {
		return DAG.getNode(Opcode, SL, VT, A, B, C);
		}

		assert(GlueChain->getNumValues() == 3);

		SDVTList VTList = DAG.getVTList(VT, MVT::Other, MVT::Glue);
		switch (Opcode) {
		default: llvm_unreachable("no chain equivalent for opcode");
		case ISD::FMA:
		Opcode = AMDGPUISD::FMA_W_CHAIN;
		break;
		}

		return DAG.getNode(Opcode, SL, VTList, GlueChain.getValue(1), A, B, C,
		GlueChain.getValue(2));
		}

// Faster 2.5 ULP division that does not support denormals.		// Faster 2.5 ULP division that does not support denormals.
SDValue SITargetLowering::lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const {
SDLoc SL(Op);		SDLoc SL(Op);
SDValue LHS = Op.getOperand(1);		SDValue LHS = Op.getOperand(1);
SDValue RHS = Op.getOperand(2);		SDValue RHS = Op.getOperand(2);

SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);		SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);

Show All 30 Lines	SDValue SITargetLowering::LowerFDIV32(SDValue Op, SelectionDAG &DAG) const {
SDLoc SL(Op);		SDLoc SL(Op);
SDValue LHS = Op.getOperand(0);		SDValue LHS = Op.getOperand(0);
SDValue RHS = Op.getOperand(1);		SDValue RHS = Op.getOperand(1);

const SDValue One = DAG.getConstantFP(1.0, SL, MVT::f32);		const SDValue One = DAG.getConstantFP(1.0, SL, MVT::f32);

SDVTList ScaleVT = DAG.getVTList(MVT::f32, MVT::i1);		SDVTList ScaleVT = DAG.getVTList(MVT::f32, MVT::i1);

SDValue DenominatorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT, RHS, RHS, LHS);		SDValue DenominatorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT,
SDValue NumeratorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT, LHS, RHS, LHS);		RHS, RHS, LHS);
		SDValue NumeratorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT,
		LHS, RHS, LHS);

// Denominator is scaled to not be denormal, so using rcp is ok.		// Denominator is scaled to not be denormal, so using rcp is ok.
SDValue ApproxRcp = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32, DenominatorScaled);		SDValue ApproxRcp = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32,
		DenominatorScaled);
		SDValue NegDivScale0 = DAG.getNode(ISD::FNEG, SL, MVT::f32,
		DenominatorScaled);

		const unsigned Denorm32Reg = AMDGPU::Hwreg::ID_MODE \|
		(4 << AMDGPU::Hwreg::OFFSET_SHIFT_) \|
		(1 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_);

		const SDValue BitField = DAG.getTargetConstant(Denorm32Reg, SL, MVT::i32);

		if (!Subtarget->hasFP32Denormals()) {
		SDVTList BindParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
		const SDValue EnableDenormValue =
		DAG.getTargetConstant(FP_DENORM_FLUSH_NONE, SL, MVT::i32);
		arsenmUnsubmitted Not Done Reply Inline Actions We should probably not use target constant here and teach FoldImmediate to turn the register setreg into the immediate setreg to save the code size on multiple uses of the immediate, like will happen in the unrolled vector case arsenm: We should probably not use target constant here and teach FoldImmediate to turn the register…
		SDValue EnableDenorm = DAG.getNode(AMDGPUISD::SETREG, SL, BindParamVTs,
		DAG.getEntryNode(),
		EnableDenormValue, BitField);
		SDValue Ops[3] = {
		NegDivScale0,
		EnableDenorm.getValue(0),
		EnableDenorm.getValue(1)
		};

		NegDivScale0 = DAG.getMergeValues(Ops, SL);
		}

SDValue NegDivScale0 = DAG.getNode(ISD::FNEG, SL, MVT::f32, DenominatorScaled);		SDValue Fma0 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0,
		ApproxRcp, One, NegDivScale0);

SDValue Fma0 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, ApproxRcp, One);		SDValue Fma1 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, Fma0, ApproxRcp,
SDValue Fma1 = DAG.getNode(ISD::FMA, SL, MVT::f32, Fma0, ApproxRcp, ApproxRcp);		ApproxRcp, Fma0);

SDValue Mul = DAG.getNode(ISD::FMUL, SL, MVT::f32, NumeratorScaled, Fma1);		SDValue Mul = getFPBinOp(DAG, ISD::FMUL, SL, MVT::f32, NumeratorScaled,
		Fma1, Fma1);

SDValue Fma2 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, Mul, NumeratorScaled);		SDValue Fma2 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0, Mul,
SDValue Fma3 = DAG.getNode(ISD::FMA, SL, MVT::f32, Fma2, Fma1, Mul);		NumeratorScaled, Mul);
SDValue Fma4 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, Fma3, NumeratorScaled);
		SDValue Fma3 = getFPTernOp(DAG, ISD::FMA,SL, MVT::f32, Fma2, Fma1, Mul, Fma2);

		SDValue Fma4 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0, Fma3,
		NumeratorScaled, Fma3);

		if (!Subtarget->hasFP32Denormals()) {
		const SDValue DisableDenormValue =
		DAG.getTargetConstant(FP_DENORM_FLUSH_IN_FLUSH_OUT, SL, MVT::i32);
		SDValue DisableDenorm = DAG.getNode(AMDGPUISD::SETREG, SL, MVT::Other,
		Fma4.getValue(1),
		DisableDenormValue,
		BitField,
		Fma4.getValue(2));

		SDValue OutputChain = DAG.getNode(ISD::TokenFactor, SL, MVT::Other,
		DisableDenorm, DAG.getRoot());
		DAG.setRoot(OutputChain);
		}

SDValue Scale = NumeratorScaled.getValue(1);		SDValue Scale = NumeratorScaled.getValue(1);
SDValue Fmas = DAG.getNode(AMDGPUISD::DIV_FMAS, SL, MVT::f32, Fma4, Fma1, Fma3, Scale);		SDValue Fmas = DAG.getNode(AMDGPUISD::DIV_FMAS, SL, MVT::f32,
		Fma4, Fma1, Fma3, Scale);

return DAG.getNode(AMDGPUISD::DIV_FIXUP, SL, MVT::f32, Fmas, RHS, LHS);		return DAG.getNode(AMDGPUISD::DIV_FIXUP, SL, MVT::f32, Fmas, RHS, LHS);
}		}

SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {
if (DAG.getTarget().Options.UnsafeFPMath)		if (DAG.getTarget().Options.UnsafeFPMath)
return lowerFastUnsafeFDIV(Op, DAG);		return lowerFastUnsafeFDIV(Op, DAG);

▲ Show 20 Lines • Show All 1,312 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 1,663 Lines • ▼ Show 20 Lines	bool SIInstrInfo::isSchedulingBoundary(const MachineInstr &MI,
const MachineFunction &MF) const {		const MachineFunction &MF) const {
// XXX - Do we want the SP check in the base implementation?		// XXX - Do we want the SP check in the base implementation?

// Target-independent instructions do not have an implicit-use of EXEC, even		// Target-independent instructions do not have an implicit-use of EXEC, even
// when they operate on VGPRs. Treating EXEC modifications as scheduling		// when they operate on VGPRs. Treating EXEC modifications as scheduling
// boundaries prevents incorrect movements of such instructions.		// boundaries prevents incorrect movements of such instructions.
return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|		return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|
MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|		MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|
		MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32 \|\|
changesVGPRIndexingMode(MI);		changesVGPRIndexingMode(MI);
}		}

bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {		bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {
int64_t SVal = Imm.getSExtValue();		int64_t SVal = Imm.getSExtValue();
if (SVal >= -16 && SVal <= 64)		if (SVal >= -16 && SVal <= 64)
return true;		return true;

▲ Show 20 Lines • Show All 1,954 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 584 Lines • ▼ Show 20 Lines
	let mayLoad = 1 in {			let mayLoad = 1 in {
	def S_GETREG_B32 : SOPK_Pseudo <			def S_GETREG_B32 : SOPK_Pseudo <
	"s_getreg_b32",			"s_getreg_b32",
	(outs SReg_32:$sdst), (ins hwreg:$simm16),			(outs SReg_32:$sdst), (ins hwreg:$simm16),
	"$sdst, $simm16"			"$sdst, $simm16"
	>;			>;
	}			}

	def S_SETREG_B32 : SOPK_Pseudo <			def S_SETREG_B32 : SOPK_Pseudo <
				arsenmUnsubmitted Not Done Reply Inline Actions This shouldn't have isBarrier set arsenm: This shouldn't have isBarrier set
	"s_setreg_b32",			"s_setreg_b32",
	(outs), (ins SReg_32:$sdst, hwreg:$simm16),			(outs), (ins SReg_32:$sdst, hwreg:$simm16),
	"$simm16, $sdst"			"$simm16, $sdst"
	>;			>;

				arsenmUnsubmitted Done Reply Inline Actions You can move the hasSideEffects here instead of the let block since it's just the one instruction arsenm: You can move the hasSideEffects here instead of the let block since it's just the one…
	// FIXME: Not on SI?			// FIXME: Not on SI?
	//def S_GETREG_REGRD_B32 : SOPK_32 <sopk<0x14, 0x13>, "s_getreg_regrd_b32">;			//def S_GETREG_REGRD_B32 : SOPK_32 <sopk<0x14, 0x13>, "s_getreg_regrd_b32">;

	def S_SETREG_IMM32_B32 : SOPK_Pseudo <			def S_SETREG_IMM32_B32 : SOPK_Pseudo <
	"s_setreg_imm32_b32",			"s_setreg_imm32_b32",
	(outs), (ins i32imm:$imm, hwreg:$simm16),			(outs), (ins i32imm:$imm, hwreg:$simm16),
	"$simm16, $imm"> {			"$simm16, $imm"> {
	let Size = 8; // Unlike every other SOPK instruction.			let Size = 8; // Unlike every other SOPK instruction.
	let has_sdst = 0;			let has_sdst = 0;
				let hasSideEffects = 1;
	}			}


	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SOPC Instructions			// SOPC Instructions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class SOPCe <bits<7> op> : Enc32 {			class SOPCe <bits<7> op> : Enc32 {
	▲ Show 20 Lines • Show All 251 Lines • ▼ Show 20 Lines
	// S_GETREG_B32 Intrinsic Pattern.			// S_GETREG_B32 Intrinsic Pattern.
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	def : Pat <			def : Pat <
	(int_amdgcn_s_getreg imm:$simm16),			(int_amdgcn_s_getreg imm:$simm16),
	(S_GETREG_B32 (as_i16imm $simm16))			(S_GETREG_B32 (as_i16imm $simm16))
	>;			>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
				// S_SETREG_B32 Pattern.
				//===----------------------------------------------------------------------===//
				def : Pat <
				(AMDGPUsetreg i32:$reg, i32:$simm16),
				(S_SETREG_IMM32_B32 $reg, (as_i16imm $simm16))
				>;
				//===----------------------------------------------------------------------===//
	// SOP1 Patterns			// SOP1 Patterns
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def : Pat <			def : Pat <
	(i64 (ctpop i64:$src)),			(i64 (ctpop i64:$src)),
	(i64 (REG_SEQUENCE SReg_64,			(i64 (REG_SEQUENCE SReg_64,
	(i32 (COPY_TO_REGCLASS (S_BCNT1_I32_B64 $src), SReg_32)), sub0,			(i32 (COPY_TO_REGCLASS (S_BCNT1_I32_B64 $src), SReg_32)), sub0,
	(S_MOV_B32 (i32 0)), sub1))			(S_MOV_B32 (i32 0)), sub1))
	▲ Show 20 Lines • Show All 343 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fdiv.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
				; RUN: llc -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
				; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s

	; These tests check that fdiv is expanded correctly and also test that the			; These tests check that fdiv is expanded correctly and also test that the
	; scheduler is scheduling the RECIP_IEEE and MUL_IEEE instructions in separate			; scheduler is scheduling the RECIP_IEEE and MUL_IEEE instructions in separate
	; instruction groups.			; instruction groups.

	; These test check that fdiv using unsafe_fp_math, coarse fp div, and IEEE754 fp div.			; These test check that fdiv using unsafe_fp_math, coarse fp div, and IEEE754 fp div.

	; FUNC-LABEL: {{^}}fdiv_f32:			; FUNC-LABEL: {{^}}fdiv_f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_div_scale_f32			; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
	; SI-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
				; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]
	; SI-DAG: v_rcp_f32
	; SI: v_fma_f32			; GCN: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; SI: v_fma_f32			; GCN: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
	; SI: v_mul_f32			; GCN: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
	; SI: v_fma_f32			; GCN: v_mul_f32_e32 [[C:v[0-9]+]], [[B]], [[DEN_SCALE]]
	; SI: v_fma_f32			; GCN: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
	; SI: v_fma_f32			; GCN: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
	; SI: v_div_fmas_f32			; GCN: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
	; SI: v_div_fixup_f32			; GCN: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
				; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
				; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
	define void @fdiv_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv float %a, %b			%fdiv = fdiv float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

				; FUNC-LABEL: {{^}}fdiv_f32_denormals:
				; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
				; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

				; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
				; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
				; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]

				; GCN-NOT: s_setreg_imm32_b32
				; GCN: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
				; GCN: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
				; GCN: v_mul_f32_e32 [[C:v[0-9]+]], [[B]], [[DEN_SCALE]]
				; GCN: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
				; GCN: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
				; GCN: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
				; GCN-NOT: s_setreg_imm32_b32
				; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
				; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
				define void @fdiv_f32_denormals(float addrspace(1)* %out, float %a, float %b) #2 {
				entry:
				%fdiv = fdiv float %a, %b
				store float %fdiv, float addrspace(1)* %out
				ret void
				}

	; FUNC-LABEL: {{^}}fdiv_25ulp_f32:			; FUNC-LABEL: {{^}}fdiv_25ulp_f32:
	; SI: v_cndmask_b32			; GCN: v_cndmask_b32
	; SI: v_mul_f32			; GCN: v_mul_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_mul_f32			; GCN: v_mul_f32
	; SI: v_mul_f32			; GCN: v_mul_f32
	define void @fdiv_25ulp_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_25ulp_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv float %a, %b, !fpmath !0			%fdiv = fdiv float %a, %b, !fpmath !0
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; Use correct fdiv			; Use correct fdiv
	; FUNC-LABEL: {{^}}fdiv_25ulp_denormals_f32:			; FUNC-LABEL: {{^}}fdiv_25ulp_denormals_f32:
	; SI: v_fma_f32			; GCN: v_fma_f32
	; SI: v_div_fmas_f32			; GCN: v_div_fmas_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define void @fdiv_25ulp_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {			define void @fdiv_25ulp_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {
	entry:			entry:
	%fdiv = fdiv float %a, %b, !fpmath !0			%fdiv = fdiv float %a, %b, !fpmath !0
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_fast_denormals_f32:			; FUNC-LABEL: {{^}}fdiv_fast_denormals_f32:
	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_fast_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {			define void @fdiv_fast_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {
	entry:			entry:
	%fdiv = fdiv fast float %a, %b			%fdiv = fdiv fast float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_f32_fast_math(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32_fast_math(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv fast float %a, %b			%fdiv = fdiv fast float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_f32_arcp_math(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32_arcp_math(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp float %a, %b			%fdiv = fdiv arcp float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32:			; FUNC-LABEL: {{^}}fdiv_v2f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	define void @fdiv_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv <2 x float> %a, %b			%fdiv = fdiv <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_ulp25_v2f32:			; FUNC-LABEL: {{^}}fdiv_ulp25_v2f32:
	; SI: v_cmp_gt_f32			; GCN: v_cmp_gt_f32
	; SI: v_cmp_gt_f32			; GCN: v_cmp_gt_f32
	define void @fdiv_ulp25_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_ulp25_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp <2 x float> %a, %b, !fpmath !0			%fdiv = fdiv arcp <2 x float> %a, %b, !fpmath !0
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_v2f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v2f32_fast_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32_fast_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv fast <2 x float> %a, %b			%fdiv = fdiv fast <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_v2f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v2f32_arcp_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32_arcp_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp <2 x float> %a, %b			%fdiv = fdiv arcp <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32:			; FUNC-LABEL: {{^}}fdiv_v4f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define void @fdiv_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv <4 x float> %a, %b			%result = fdiv <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_v4f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v4f32_fast_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32_fast_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv fast <4 x float> %a, %b			%result = fdiv fast <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_v4f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v4f32_arcp_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32_arcp_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv arcp <4 x float> %a, %b			%result = fdiv arcp <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="-fp32-denormals" }			attributes #0 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="-fp32-denormals" }
	attributes #1 = { nounwind "enable-unsafe-fp-math"="true" "target-features"="-fp32-denormals" }			attributes #1 = { nounwind "enable-unsafe-fp-math"="true" "target-features"="-fp32-denormals" }
	attributes #2 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="+fp32-denormals" }			attributes #2 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="+fp32-denormals" }

	!0 = !{float 2.500000e+00}			!0 = !{float 2.500000e+00}

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 80320

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.cpp

lib/Target/AMDGPU/SOPInstructions.td

test/CodeGen/AMDGPU/fdiv.ll

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 80320

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

lib/Target/AMDGPU/AMDGPUInstrInfo.td

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.cpp

lib/Target/AMDGPU/SOPInstructions.td

test/CodeGen/AMDGPU/fdiv.ll

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.
ClosedPublic