Diff 80530

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	private:
bool SelectVOP3Mods0Clamp(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3Mods0Clamp(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Omod) const;		SDValue &Omod) const;
bool SelectVOP3Mods0Clamp0OMod(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3Mods0Clamp0OMod(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Clamp,		SDValue &Clamp,
SDValue &Omod) const;		SDValue &Omod) const;

void SelectADD_SUB_I64(SDNode *N);		void SelectADD_SUB_I64(SDNode *N);
void SelectDIV_SCALE(SDNode *N);		void SelectDIV_SCALE(SDNode *N);
		void SelectFMA_W_CHAIN(SDNode *N);
		void SelectFMUL_W_CHAIN(SDNode *N);

SDNode *getS_BFE(unsigned Opcode, const SDLoc &DL, SDValue Val,		SDNode *getS_BFE(unsigned Opcode, const SDLoc &DL, SDValue Val,
uint32_t Offset, uint32_t Width);		uint32_t Offset, uint32_t Width);
void SelectS_BFEFromShifts(SDNode *N);		void SelectS_BFEFromShifts(SDNode *N);
void SelectS_BFE(SDNode *N);		void SelectS_BFE(SDNode *N);
bool isCBranchSCC(const SDNode *N) const;		bool isCBranchSCC(const SDNode *N) const;
void SelectBRCOND(SDNode *N);		void SelectBRCOND(SDNode *N);
void SelectATOMIC_CMP_SWAP(SDNode *N);		void SelectATOMIC_CMP_SWAP(SDNode *N);
▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	void AMDGPUDAGToDAGISel::Select(SDNode *N) {
case ISD::SUBE: {		case ISD::SUBE: {
if (N->getValueType(0) != MVT::i64 \|\|		if (N->getValueType(0) != MVT::i64 \|\|
Subtarget->getGeneration() < AMDGPUSubtarget::SOUTHERN_ISLANDS)		Subtarget->getGeneration() < AMDGPUSubtarget::SOUTHERN_ISLANDS)
break;		break;

SelectADD_SUB_I64(N);		SelectADD_SUB_I64(N);
return;		return;
}		}
		case AMDGPUISD::FMUL_W_CHAIN: {
		SelectFMUL_W_CHAIN(N);
		return;
		}
		case AMDGPUISD::FMA_W_CHAIN: {
		SelectFMA_W_CHAIN(N);
		return;
		}

case ISD::SCALAR_TO_VECTOR:		case ISD::SCALAR_TO_VECTOR:
case AMDGPUISD::BUILD_VERTICAL_VECTOR:		case AMDGPUISD::BUILD_VERTICAL_VECTOR:
case ISD::BUILD_VECTOR: {		case ISD::BUILD_VECTOR: {
unsigned RegClassID;		unsigned RegClassID;
const AMDGPURegisterInfo *TRI = Subtarget->getRegisterInfo();		const AMDGPURegisterInfo *TRI = Subtarget->getRegisterInfo();
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
unsigned NumVectorElts = VT.getVectorNumElements();		unsigned NumVectorElts = VT.getVectorNumElements();
EVT EltVT = VT.getVectorElementType();		EVT EltVT = VT.getVectorElementType();
▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines	if (ProduceCarry) {
CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 1), SDValue(AddHi, 1));		CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 1), SDValue(AddHi, 1));
}		}

// Replace the remaining uses.		// Replace the remaining uses.
CurDAG->ReplaceAllUsesWith(N, RegSequence);		CurDAG->ReplaceAllUsesWith(N, RegSequence);
CurDAG->RemoveDeadNode(N);		CurDAG->RemoveDeadNode(N);
}		}

		void AMDGPUDAGToDAGISel::SelectFMA_W_CHAIN(SDNode *N) {
		SDLoc SL(N);
		// src0_modifiers, src0, src1_modifiers, src1, src2_modifiers, src2, clamp, omod
		SDValue Ops[10];

		SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[6], Ops[7]);
		SelectVOP3Mods(N->getOperand(2), Ops[3], Ops[2]);
		SelectVOP3Mods(N->getOperand(3), Ops[5], Ops[4]);
		Ops[8] = N->getOperand(0);
		Ops[9] = N->getOperand(4);

		CurDAG->SelectNodeTo(N, AMDGPU::V_FMA_F32, N->getVTList(), Ops);
		}

		void AMDGPUDAGToDAGISel::SelectFMUL_W_CHAIN(SDNode *N) {
		SDLoc SL(N);
		// src0_modifiers, src0, src1_modifiers, src1, clamp, omod
		SDValue Ops[8];

		SelectVOP3Mods0(N->getOperand(1), Ops[1], Ops[0], Ops[4], Ops[5]);
		SelectVOP3Mods(N->getOperand(2), Ops[3], Ops[2]);
		Ops[6] = N->getOperand(0);
		Ops[7] = N->getOperand(3);

		CurDAG->SelectNodeTo(N, AMDGPU::V_MUL_F32_e64, N->getVTList(), Ops);
		}

// We need to handle this here because tablegen doesn't support matching		// We need to handle this here because tablegen doesn't support matching
// instructions with multiple outputs.		// instructions with multiple outputs.
void AMDGPUDAGToDAGISel::SelectDIV_SCALE(SDNode *N) {		void AMDGPUDAGToDAGISel::SelectDIV_SCALE(SDNode *N) {
SDLoc SL(N);		SDLoc SL(N);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

assert(VT == MVT::f32 \|\| VT == MVT::f64);		assert(VT == MVT::f32 \|\| VT == MVT::f64);

▲ Show 20 Lines • Show All 908 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 224 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
ENDPGM,		ENDPGM,
RETURN,		RETURN,
DWORDADDR,		DWORDADDR,
FRACT,		FRACT,
CLAMP,		CLAMP,
// This is SETCC with the full mask result which is used for a compare with a		// This is SETCC with the full mask result which is used for a compare with a
// result bit per item in the wavefront.		// result bit per item in the wavefront.
SETCC,		SETCC,
		SETREG,
		// FP ops with input and output chain.
		FMA_W_CHAIN,
		FMUL_W_CHAIN,

// SIN_HW, COS_HW - f32 for SI, 1 ULP max error, valid from -100 pi to 100 pi.		// SIN_HW, COS_HW - f32 for SI, 1 ULP max error, valid from -100 pi to 100 pi.
// Denormals handled on some parts.		// Denormals handled on some parts.
COS_HW,		COS_HW,
SIN_HW,		SIN_HW,
FMAX_LEGACY,		FMAX_LEGACY,
FMIN_LEGACY,		FMIN_LEGACY,
FMAX3,		FMAX3,
▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 2,947 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(BRANCH_COND);		NODE_NAME_CASE(BRANCH_COND);

// AMDGPU DAG nodes		// AMDGPU DAG nodes
NODE_NAME_CASE(ENDPGM)		NODE_NAME_CASE(ENDPGM)
NODE_NAME_CASE(RETURN)		NODE_NAME_CASE(RETURN)
NODE_NAME_CASE(DWORDADDR)		NODE_NAME_CASE(DWORDADDR)
NODE_NAME_CASE(FRACT)		NODE_NAME_CASE(FRACT)
NODE_NAME_CASE(SETCC)		NODE_NAME_CASE(SETCC)
		NODE_NAME_CASE(SETREG)
		NODE_NAME_CASE(FMA_W_CHAIN)
		NODE_NAME_CASE(FMUL_W_CHAIN)
NODE_NAME_CASE(CLAMP)		NODE_NAME_CASE(CLAMP)
NODE_NAME_CASE(COS_HW)		NODE_NAME_CASE(COS_HW)
NODE_NAME_CASE(SIN_HW)		NODE_NAME_CASE(SIN_HW)
NODE_NAME_CASE(FMAX_LEGACY)		NODE_NAME_CASE(FMAX_LEGACY)
NODE_NAME_CASE(FMIN_LEGACY)		NODE_NAME_CASE(FMIN_LEGACY)
NODE_NAME_CASE(FMAX3)		NODE_NAME_CASE(FMAX3)
NODE_NAME_CASE(SMAX3)		NODE_NAME_CASE(SMAX3)
NODE_NAME_CASE(UMAX3)		NODE_NAME_CASE(UMAX3)
▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstrInfo.td

	Show First 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	def AMDGPUborrow : SDNode<"AMDGPUISD::BORROW", SDTIntBinOp, []>;			def AMDGPUborrow : SDNode<"AMDGPUISD::BORROW", SDTIntBinOp, []>;

	def AMDGPUSetCCOp : SDTypeProfile<1, 3, [ // setcc			def AMDGPUSetCCOp : SDTypeProfile<1, 3, [ // setcc
	SDTCisVT<0, i64>, SDTCisSameAs<1, 2>, SDTCisVT<3, OtherVT>			SDTCisVT<0, i64>, SDTCisSameAs<1, 2>, SDTCisVT<3, OtherVT>
	]>;			]>;

	def AMDGPUsetcc : SDNode<"AMDGPUISD::SETCC", AMDGPUSetCCOp>;			def AMDGPUsetcc : SDNode<"AMDGPUISD::SETCC", AMDGPUSetCCOp>;

				def AMDGPUSetRegOp : SDTypeProfile<0, 2, [
				SDTCisInt<0>, SDTCisInt<1>
				]>;

				def AMDGPUsetreg : SDNode<"AMDGPUISD::SETREG", AMDGPUSetRegOp, [
				SDNPHasChain, SDNPSideEffect, SDNPOptInGlue, SDNPOutGlue]>;

				def AMDGPUfma : SDNode<"AMDGPUISD::FMA_W_CHAIN", SDTFPTernaryOp, [
				SDNPHasChain, SDNPOptInGlue, SDNPOutGlue]>;

				def AMDGPUmul : SDNode<"AMDGPUISD::FMUL_W_CHAIN", SDTFPBinOp, [
				SDNPHasChain, SDNPOptInGlue, SDNPOutGlue]>;

	def AMDGPUcvt_f32_ubyte0 : SDNode<"AMDGPUISD::CVT_F32_UBYTE0",			def AMDGPUcvt_f32_ubyte0 : SDNode<"AMDGPUISD::CVT_F32_UBYTE0",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte1 : SDNode<"AMDGPUISD::CVT_F32_UBYTE1",			def AMDGPUcvt_f32_ubyte1 : SDNode<"AMDGPUISD::CVT_F32_UBYTE1",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte2 : SDNode<"AMDGPUISD::CVT_F32_UBYTE2",			def AMDGPUcvt_f32_ubyte2 : SDNode<"AMDGPUISD::CVT_F32_UBYTE2",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	def AMDGPUcvt_f32_ubyte3 : SDNode<"AMDGPUISD::CVT_F32_UBYTE3",			def AMDGPUcvt_f32_ubyte3 : SDNode<"AMDGPUISD::CVT_F32_UBYTE3",
	SDTIntToFPOp, []>;			SDTIntToFPOp, []>;
	▲ Show 20 Lines • Show All 157 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIFoldOperands.cpp

Show First 20 Lines • Show All 167 Lines • ▼ Show 20 Lines	if ((Opc == AMDGPU::V_MAC_F32_e64 \|\| Opc == AMDGPU::V_MAC_F16_e64) &&
bool FoldAsMAD = tryAddToFoldList(FoldList, MI, OpNo, OpToFold, TII);		bool FoldAsMAD = tryAddToFoldList(FoldList, MI, OpNo, OpToFold, TII);
if (FoldAsMAD) {		if (FoldAsMAD) {
MI->untieRegOperand(OpNo);		MI->untieRegOperand(OpNo);
return true;		return true;
}		}
MI->setDesc(TII->get(Opc));		MI->setDesc(TII->get(Opc));
}		}

		// Special case for s_setreg_b32
		if (Opc == AMDGPU::S_SETREG_B32 && OpToFold->isImm()) {
		MI->setDesc(TII->get(AMDGPU::S_SETREG_IMM32_B32));
		FoldList.push_back(FoldCandidate(MI, OpNo, OpToFold));
		return true;
		}

// If we are already folding into another operand of MI, then		// If we are already folding into another operand of MI, then
// we can't commute the instruction, otherwise we risk making the		// we can't commute the instruction, otherwise we risk making the
// other fold illegal.		// other fold illegal.
if (isUseMIInFoldList(FoldList, MI))		if (isUseMIInFoldList(FoldList, MI))
return false;		return false;

// Operand is not legal, so try to commute the instruction to		// Operand is not legal, so try to commute the instruction to
// see if this makes it possible to fold.		// see if this makes it possible to fold.
▲ Show 20 Lines • Show All 428 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

Show All 15 Lines
// Provide M_PI.		// Provide M_PI.
#define _USE_MATH_DEFINES		#define _USE_MATH_DEFINES
#include <cmath>		#include <cmath>
#endif		#endif

#include "AMDGPU.h"		#include "AMDGPU.h"
#include "AMDGPUIntrinsicInfo.h"		#include "AMDGPUIntrinsicInfo.h"
#include "AMDGPUSubtarget.h"		#include "AMDGPUSubtarget.h"
		#include "SIDefines.h"
#include "SIISelLowering.h"		#include "SIISelLowering.h"
#include "SIInstrInfo.h"		#include "SIInstrInfo.h"
#include "SIMachineFunctionInfo.h"		#include "SIMachineFunctionInfo.h"
#include "SIRegisterInfo.h"		#include "SIRegisterInfo.h"
#include "llvm/ADT/BitVector.h"		#include "llvm/ADT/BitVector.h"
#include "llvm/ADT/StringSwitch.h"		#include "llvm/ADT/StringSwitch.h"
#include "llvm/CodeGen/CallingConvLower.h"		#include "llvm/CodeGen/CallingConvLower.h"
#include "llvm/CodeGen/MachineInstrBuilder.h"		#include "llvm/CodeGen/MachineInstrBuilder.h"
▲ Show 20 Lines • Show All 2,860 Lines • ▼ Show 20 Lines	if (Unsafe \|\| Flags->hasAllowReciprocal()) {
Flags.setUnsafeAlgebra(true);		Flags.setUnsafeAlgebra(true);
SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);		SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, &Flags);		return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, &Flags);
}		}

return SDValue();		return SDValue();
}		}

		static SDValue getFPBinOp(SelectionDAG &DAG, unsigned Opcode, const SDLoc &SL,
		EVT VT, SDValue A, SDValue B, SDValue GlueChain) {
		if (GlueChain->getNumValues() <= 1) {
		return DAG.getNode(Opcode, SL, VT, A, B);
		}

		assert(GlueChain->getNumValues() == 3);

		SDVTList VTList = DAG.getVTList(VT, MVT::Other, MVT::Glue);
		switch (Opcode) {
		default: llvm_unreachable("no chain equivalent for opcode");
		case ISD::FMUL:
		Opcode = AMDGPUISD::FMUL_W_CHAIN;
		break;
		}

		return DAG.getNode(Opcode, SL, VTList, GlueChain.getValue(1), A, B,
		GlueChain.getValue(2));
		}

		static SDValue getFPTernOp(SelectionDAG &DAG, unsigned Opcode, const SDLoc &SL,
		EVT VT, SDValue A, SDValue B, SDValue C,
		SDValue GlueChain) {
		if (GlueChain->getNumValues() <= 1) {
		return DAG.getNode(Opcode, SL, VT, A, B, C);
		}

		assert(GlueChain->getNumValues() == 3);

		SDVTList VTList = DAG.getVTList(VT, MVT::Other, MVT::Glue);
		switch (Opcode) {
		default: llvm_unreachable("no chain equivalent for opcode");
		case ISD::FMA:
		Opcode = AMDGPUISD::FMA_W_CHAIN;
		break;
		}

		return DAG.getNode(Opcode, SL, VTList, GlueChain.getValue(1), A, B, C,
		GlueChain.getValue(2));
		}

// Faster 2.5 ULP division that does not support denormals.		// Faster 2.5 ULP division that does not support denormals.
SDValue SITargetLowering::lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::lowerFDIV_FAST(SDValue Op, SelectionDAG &DAG) const {
SDLoc SL(Op);		SDLoc SL(Op);
SDValue LHS = Op.getOperand(1);		SDValue LHS = Op.getOperand(1);
SDValue RHS = Op.getOperand(2);		SDValue RHS = Op.getOperand(2);

SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);		SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);

Show All 30 Lines	SDValue SITargetLowering::LowerFDIV32(SDValue Op, SelectionDAG &DAG) const {
SDLoc SL(Op);		SDLoc SL(Op);
SDValue LHS = Op.getOperand(0);		SDValue LHS = Op.getOperand(0);
SDValue RHS = Op.getOperand(1);		SDValue RHS = Op.getOperand(1);

const SDValue One = DAG.getConstantFP(1.0, SL, MVT::f32);		const SDValue One = DAG.getConstantFP(1.0, SL, MVT::f32);

SDVTList ScaleVT = DAG.getVTList(MVT::f32, MVT::i1);		SDVTList ScaleVT = DAG.getVTList(MVT::f32, MVT::i1);

SDValue DenominatorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT, RHS, RHS, LHS);		SDValue DenominatorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT,
SDValue NumeratorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT, LHS, RHS, LHS);		RHS, RHS, LHS);
		SDValue NumeratorScaled = DAG.getNode(AMDGPUISD::DIV_SCALE, SL, ScaleVT,
		LHS, RHS, LHS);

// Denominator is scaled to not be denormal, so using rcp is ok.		// Denominator is scaled to not be denormal, so using rcp is ok.
SDValue ApproxRcp = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32, DenominatorScaled);		SDValue ApproxRcp = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32,
		DenominatorScaled);
		SDValue NegDivScale0 = DAG.getNode(ISD::FNEG, SL, MVT::f32,
		DenominatorScaled);

		const unsigned Denorm32Reg = AMDGPU::Hwreg::ID_MODE \|
		(4 << AMDGPU::Hwreg::OFFSET_SHIFT_) \|
		(1 << AMDGPU::Hwreg::WIDTH_M1_SHIFT_);

		const SDValue BitField = DAG.getTargetConstant(Denorm32Reg, SL, MVT::i16);

		if (!Subtarget->hasFP32Denormals()) {
		SDVTList BindParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
		const SDValue EnableDenormValue = DAG.getConstant(FP_DENORM_FLUSH_NONE,
		SL, MVT::i32);
		SDValue EnableDenorm = DAG.getNode(AMDGPUISD::SETREG, SL, BindParamVTs,
		DAG.getEntryNode(),
		EnableDenormValue, BitField);
		SDValue Ops[3] = {
		NegDivScale0,
		EnableDenorm.getValue(0),
		EnableDenorm.getValue(1)
		};

		NegDivScale0 = DAG.getMergeValues(Ops, SL);
		}

SDValue NegDivScale0 = DAG.getNode(ISD::FNEG, SL, MVT::f32, DenominatorScaled);		SDValue Fma0 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0,
		ApproxRcp, One, NegDivScale0);

SDValue Fma0 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, ApproxRcp, One);		SDValue Fma1 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, Fma0, ApproxRcp,
SDValue Fma1 = DAG.getNode(ISD::FMA, SL, MVT::f32, Fma0, ApproxRcp, ApproxRcp);		ApproxRcp, Fma0);

SDValue Mul = DAG.getNode(ISD::FMUL, SL, MVT::f32, NumeratorScaled, Fma1);		SDValue Mul = getFPBinOp(DAG, ISD::FMUL, SL, MVT::f32, NumeratorScaled,
		Fma1, Fma1);

SDValue Fma2 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, Mul, NumeratorScaled);		SDValue Fma2 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0, Mul,
SDValue Fma3 = DAG.getNode(ISD::FMA, SL, MVT::f32, Fma2, Fma1, Mul);		NumeratorScaled, Mul);
SDValue Fma4 = DAG.getNode(ISD::FMA, SL, MVT::f32, NegDivScale0, Fma3, NumeratorScaled);
		SDValue Fma3 = getFPTernOp(DAG, ISD::FMA,SL, MVT::f32, Fma2, Fma1, Mul, Fma2);

		SDValue Fma4 = getFPTernOp(DAG, ISD::FMA, SL, MVT::f32, NegDivScale0, Fma3,
		NumeratorScaled, Fma3);

		if (!Subtarget->hasFP32Denormals()) {
		const SDValue DisableDenormValue =
		DAG.getConstant(FP_DENORM_FLUSH_IN_FLUSH_OUT, SL, MVT::i32);
		SDValue DisableDenorm = DAG.getNode(AMDGPUISD::SETREG, SL, MVT::Other,
		Fma4.getValue(1),
		DisableDenormValue,
		BitField,
		Fma4.getValue(2));

		SDValue OutputChain = DAG.getNode(ISD::TokenFactor, SL, MVT::Other,
		DisableDenorm, DAG.getRoot());
		DAG.setRoot(OutputChain);
		}

SDValue Scale = NumeratorScaled.getValue(1);		SDValue Scale = NumeratorScaled.getValue(1);
SDValue Fmas = DAG.getNode(AMDGPUISD::DIV_FMAS, SL, MVT::f32, Fma4, Fma1, Fma3, Scale);		SDValue Fmas = DAG.getNode(AMDGPUISD::DIV_FMAS, SL, MVT::f32,
		Fma4, Fma1, Fma3, Scale);

return DAG.getNode(AMDGPUISD::DIV_FIXUP, SL, MVT::f32, Fmas, RHS, LHS);		return DAG.getNode(AMDGPUISD::DIV_FIXUP, SL, MVT::f32, Fmas, RHS, LHS);
}		}

SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {
if (DAG.getTarget().Options.UnsafeFPMath)		if (DAG.getTarget().Options.UnsafeFPMath)
return lowerFastUnsafeFDIV(Op, DAG);		return lowerFastUnsafeFDIV(Op, DAG);

▲ Show 20 Lines • Show All 1,312 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 1,663 Lines • ▼ Show 20 Lines	bool SIInstrInfo::isSchedulingBoundary(const MachineInstr &MI,
const MachineFunction &MF) const {		const MachineFunction &MF) const {
// XXX - Do we want the SP check in the base implementation?		// XXX - Do we want the SP check in the base implementation?

// Target-independent instructions do not have an implicit-use of EXEC, even		// Target-independent instructions do not have an implicit-use of EXEC, even
// when they operate on VGPRs. Treating EXEC modifications as scheduling		// when they operate on VGPRs. Treating EXEC modifications as scheduling
// boundaries prevents incorrect movements of such instructions.		// boundaries prevents incorrect movements of such instructions.
return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|		return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|
MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|		MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|
		MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32 \|\|
		MI.getOpcode() == AMDGPU::S_SETREG_B32 \|\|
changesVGPRIndexingMode(MI);		changesVGPRIndexingMode(MI);
}		}

bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {		bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {
switch (Imm.getBitWidth()) {		switch (Imm.getBitWidth()) {
case 32:		case 32:
return AMDGPU::isInlinableLiteral32(Imm.getSExtValue(),		return AMDGPU::isInlinableLiteral32(Imm.getSExtValue(),
ST.hasInv2PiInlineImm());		ST.hasInv2PiInlineImm());
▲ Show 20 Lines • Show All 1,933 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SOPInstructions.td

	Show First 20 Lines • Show All 584 Lines • ▼ Show 20 Lines
	let mayLoad = 1 in {			let mayLoad = 1 in {
	def S_GETREG_B32 : SOPK_Pseudo <			def S_GETREG_B32 : SOPK_Pseudo <
	"s_getreg_b32",			"s_getreg_b32",
	(outs SReg_32:$sdst), (ins hwreg:$simm16),			(outs SReg_32:$sdst), (ins hwreg:$simm16),
	"$sdst, $simm16"			"$sdst, $simm16"
	>;			>;
	}			}

				let hasSideEffects = 1 in {

	def S_SETREG_B32 : SOPK_Pseudo <			def S_SETREG_B32 : SOPK_Pseudo <
	"s_setreg_b32",			"s_setreg_b32",
	(outs), (ins SReg_32:$sdst, hwreg:$simm16),			(outs), (ins SReg_32:$sdst, hwreg:$simm16),
	"$simm16, $sdst"			"$simm16, $sdst",
				[(AMDGPUsetreg i32:$sdst, (i16 timm:$simm16))]
	>;			>;

	// FIXME: Not on SI?			// FIXME: Not on SI?
	//def S_GETREG_REGRD_B32 : SOPK_32 <sopk<0x14, 0x13>, "s_getreg_regrd_b32">;			//def S_GETREG_REGRD_B32 : SOPK_32 <sopk<0x14, 0x13>, "s_getreg_regrd_b32">;

	def S_SETREG_IMM32_B32 : SOPK_Pseudo <			def S_SETREG_IMM32_B32 : SOPK_Pseudo <
	"s_setreg_imm32_b32",			"s_setreg_imm32_b32",
	(outs), (ins i32imm:$imm, hwreg:$simm16),			(outs), (ins i32imm:$imm, hwreg:$simm16),
	"$simm16, $imm"> {			"$simm16, $imm"> {
	let Size = 8; // Unlike every other SOPK instruction.			let Size = 8; // Unlike every other SOPK instruction.
	let has_sdst = 0;			let has_sdst = 0;
	}			}

				} // End hasSideEffects = 1

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SOPC Instructions			// SOPC Instructions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class SOPCe <bits<7> op> : Enc32 {			class SOPCe <bits<7> op> : Enc32 {
	bits<8> src0;			bits<8> src0;
	bits<8> src1;			bits<8> src1;
	▲ Show 20 Lines • Show All 608 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fdiv.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
				; RUN: llc -march=amdgcn -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
				; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s

	; These tests check that fdiv is expanded correctly and also test that the			; These tests check that fdiv is expanded correctly and also test that the
	; scheduler is scheduling the RECIP_IEEE and MUL_IEEE instructions in separate			; scheduler is scheduling the RECIP_IEEE and MUL_IEEE instructions in separate
	; instruction groups.			; instruction groups.

	; These test check that fdiv using unsafe_fp_math, coarse fp div, and IEEE754 fp div.			; These test check that fdiv using unsafe_fp_math, coarse fp div, and IEEE754 fp div.

	; FUNC-LABEL: {{^}}fdiv_f32:			; FUNC-LABEL: {{^}}fdiv_f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_div_scale_f32			; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
	; SI-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
				; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]
	; SI-DAG: v_rcp_f32
	; SI: v_fma_f32			; GCN: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; SI: v_fma_f32			; GCN: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
	; SI: v_mul_f32			; GCN: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
	; SI: v_fma_f32			; GCN: v_mul_f32_e32 [[C:v[0-9]+]], [[B]], [[DEN_SCALE]]
	; SI: v_fma_f32			; GCN: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
	; SI: v_fma_f32			; GCN: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
	; SI: v_div_fmas_f32			; GCN: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
	; SI: v_div_fixup_f32			; GCN: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
				; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
				; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
	define void @fdiv_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv float %a, %b			%fdiv = fdiv float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

				; FUNC-LABEL: {{^}}fdiv_f32_denormals:
				; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
				; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

				; GCN: v_div_scale_f32 [[NUM_SCALE:v[0-9]+]]
				; GCN-DAG: v_div_scale_f32 [[DEN_SCALE:v[0-9]+]]
				; GCN-DAG: v_rcp_f32_e32 [[NUM_RCP:v[0-9]+]], [[NUM_SCALE]]

				; GCN-NOT: s_setreg
				; GCN: v_fma_f32 [[A:v[0-9]+]], -[[NUM_SCALE]], [[NUM_RCP]], 1.0
				; GCN: v_fma_f32 [[B:v[0-9]+]], [[A]], [[NUM_RCP]], [[NUM_RCP]]
				; GCN: v_mul_f32_e32 [[C:v[0-9]+]], [[B]], [[DEN_SCALE]]
				; GCN: v_fma_f32 [[D:v[0-9]+]], -[[NUM_SCALE]], [[C]], [[DEN_SCALE]]
				; GCN: v_fma_f32 [[E:v[0-9]+]], [[D]], [[B]], [[C]]
				; GCN: v_fma_f32 [[F:v[0-9]+]], -[[NUM_SCALE]], [[E]], [[DEN_SCALE]]
				; GCN-NOT: s_setreg
				; GCN: v_div_fmas_f32 [[FMAS:v[0-9]+]], [[F]], [[B]], [[E]]
				; GCN: v_div_fixup_f32 v{{[0-9]+}}, [[FMAS]],
				define void @fdiv_f32_denormals(float addrspace(1)* %out, float %a, float %b) #2 {
				entry:
				%fdiv = fdiv float %a, %b
				store float %fdiv, float addrspace(1)* %out
				ret void
				}

	; FUNC-LABEL: {{^}}fdiv_25ulp_f32:			; FUNC-LABEL: {{^}}fdiv_25ulp_f32:
	; SI: v_cndmask_b32			; GCN: v_cndmask_b32
	; SI: v_mul_f32			; GCN: v_mul_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_mul_f32			; GCN: v_mul_f32
	; SI: v_mul_f32			; GCN: v_mul_f32
	define void @fdiv_25ulp_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_25ulp_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv float %a, %b, !fpmath !0			%fdiv = fdiv float %a, %b, !fpmath !0
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; Use correct fdiv			; Use correct fdiv
	; FUNC-LABEL: {{^}}fdiv_25ulp_denormals_f32:			; FUNC-LABEL: {{^}}fdiv_25ulp_denormals_f32:
	; SI: v_fma_f32			; GCN: v_fma_f32
	; SI: v_div_fmas_f32			; GCN: v_div_fmas_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define void @fdiv_25ulp_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {			define void @fdiv_25ulp_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {
	entry:			entry:
	%fdiv = fdiv float %a, %b, !fpmath !0			%fdiv = fdiv float %a, %b, !fpmath !0
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_fast_denormals_f32:			; FUNC-LABEL: {{^}}fdiv_fast_denormals_f32:
	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_fast_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {			define void @fdiv_fast_denormals_f32(float addrspace(1)* %out, float %a, float %b) #2 {
	entry:			entry:
	%fdiv = fdiv fast float %a, %b			%fdiv = fdiv fast float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_f32_fast_math(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32_fast_math(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv fast float %a, %b			%fdiv = fdiv fast float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[2].W
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, PS

	; SI: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], s{{[0-9]+}}
	; SI: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]			; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], s{{[0-9]+}}, [[RCP]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define void @fdiv_f32_arcp_math(float addrspace(1)* %out, float %a, float %b) #0 {			define void @fdiv_f32_arcp_math(float addrspace(1)* %out, float %a, float %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp float %a, %b			%fdiv = fdiv arcp float %a, %b
	store float %fdiv, float addrspace(1)* %out			store float %fdiv, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32:			; FUNC-LABEL: {{^}}fdiv_v2f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	; SI: v_div_scale_f32			; GCN: v_div_scale_f32
	define void @fdiv_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv <2 x float> %a, %b			%fdiv = fdiv <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_ulp25_v2f32:			; FUNC-LABEL: {{^}}fdiv_ulp25_v2f32:
	; SI: v_cmp_gt_f32			; GCN: v_cmp_gt_f32
	; SI: v_cmp_gt_f32			; GCN: v_cmp_gt_f32
	define void @fdiv_ulp25_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_ulp25_v2f32(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp <2 x float> %a, %b, !fpmath !0			%fdiv = fdiv arcp <2 x float> %a, %b, !fpmath !0
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_v2f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v2f32_fast_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32_fast_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv fast <2 x float> %a, %b			%fdiv = fdiv fast <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v2f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_v2f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Z
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW]}}, KC0[3].Y
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[3].X, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].W, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v2f32_arcp_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {			define void @fdiv_v2f32_arcp_math(<2 x float> addrspace(1)* %out, <2 x float> %a, <2 x float> %b) #0 {
	entry:			entry:
	%fdiv = fdiv arcp <2 x float> %a, %b			%fdiv = fdiv arcp <2 x float> %a, %b
	store <2 x float> %fdiv, <2 x float> addrspace(1)* %out			store <2 x float> %fdiv, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32:			; FUNC-LABEL: {{^}}fdiv_v4f32:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	; SI: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define void @fdiv_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv <4 x float> %a, %b			%result = fdiv <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32_fast_math:			; FUNC-LABEL: {{^}}fdiv_v4f32_fast_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v4f32_fast_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32_fast_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv fast <4 x float> %a, %b			%result = fdiv fast <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fdiv_v4f32_arcp_math:			; FUNC-LABEL: {{^}}fdiv_v4f32_arcp_math:
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}			; R600-DAG: RECIP_IEEE * T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS
	; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS			; R600-DAG: MUL_IEEE {{\** *}}T{{[0-9]+\.[XYZW], T[0-9]+\.[XYZW]}}, PS

	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	; SI: v_rcp_f32			; GCN: v_rcp_f32
	define void @fdiv_v4f32_arcp_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @fdiv_v4f32_arcp_math(<4 x float> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1			%b_ptr = getelementptr <4 x float>, <4 x float> addrspace(1)* %in, i32 1
	%a = load <4 x float>, <4 x float> addrspace(1) * %in			%a = load <4 x float>, <4 x float> addrspace(1) * %in
	%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr			%b = load <4 x float>, <4 x float> addrspace(1) * %b_ptr
	%result = fdiv arcp <4 x float> %a, %b			%result = fdiv arcp <4 x float> %a, %b
	store <4 x float> %result, <4 x float> addrspace(1)* %out			store <4 x float> %result, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="-fp32-denormals" }			attributes #0 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="-fp32-denormals" }
	attributes #1 = { nounwind "enable-unsafe-fp-math"="true" "target-features"="-fp32-denormals" }			attributes #1 = { nounwind "enable-unsafe-fp-math"="true" "target-features"="-fp32-denormals" }
	attributes #2 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="+fp32-denormals" }			attributes #2 = { nounwind "enable-unsafe-fp-math"="false" "target-features"="+fp32-denormals" }

	!0 = !{float 2.500000e+00}			!0 = !{float 2.500000e+00}

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 80530

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstrInfo.td

llvm/trunk/lib/Target/AMDGPU/SIFoldOperands.cpp

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SOPInstructions.td

llvm/trunk/test/CodeGen/AMDGPU/fdiv.ll

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 80530

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstrInfo.td

llvm/trunk/lib/Target/AMDGPU/SIFoldOperands.cpp

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.cpp

llvm/trunk/lib/Target/AMDGPU/SOPInstructions.td

llvm/trunk/test/CodeGen/AMDGPU/fdiv.ll

AMDGPU : Add S_SETREG instructions to fix fdiv precision issues.
ClosedPublic