Diff 95716

lib/Target/AMDGPU/AMDGPUISelLowering.h

Context not available.
	SDValue LowerFROUND64(SDValue Op, SelectionDAG &DAG) const;	SDValue LowerFROUND64(SDValue Op, SelectionDAG &DAG) const;
	SDValue LowerFROUND(SDValue Op, SelectionDAG &DAG) const;	SDValue LowerFROUND(SDValue Op, SelectionDAG &DAG) const;
	SDValue LowerFFLOOR(SDValue Op, SelectionDAG &DAG) const;	SDValue LowerFFLOOR(SDValue Op, SelectionDAG &DAG) const;
		SDValue LowerFLOG(SDValue Op, SelectionDAG &Dag) const;

	SDValue LowerCTLZ(SDValue Op, SelectionDAG &DAG) const;	SDValue LowerCTLZ(SDValue Op, SelectionDAG &DAG) const;

Context not available.

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Context not available.
	//	//
	//===----------------------------------------------------------------------===//	//===----------------------------------------------------------------------===//

		#define AMDGPU_LOG2E_F 1.44269504088896340735992468100189214f
		#define AMDGPU_LN2_F 0.693147180559945309417232121458176568f
		#define AMDGPU_LN10_F 2.30258509299404568401799145468436421f
		arsenmUnsubmitted Done Reply Inline Actions Should name something else that doesn't collide with the standard names arsenm: Should name something else that doesn't collide with the standard names

	#include "AMDGPUISelLowering.h"	#include "AMDGPUISelLowering.h"
	#include "AMDGPU.h"	#include "AMDGPU.h"
	#include "AMDGPUCallLowering.h"	#include "AMDGPUCallLowering.h"
		jveselyUnsubmitted Done Reply Inline Actions v2f32 and v4f32 can be moved to for (MVT VT : FloatVectorTypes) { block (line ~398) jvesely: v2f32 and v4f32 can be moved to for (MVT VT : FloatVectorTypes) { block (line ~398)
Context not available.
	setOperationAction(ISD::FROUND, MVT::f32, Custom);	setOperationAction(ISD::FROUND, MVT::f32, Custom);
	setOperationAction(ISD::FROUND, MVT::f64, Custom);	setOperationAction(ISD::FROUND, MVT::f64, Custom);

		setOperationAction(ISD::FLOG, MVT::f32, Custom);
		setOperationAction(ISD::FLOG10, MVT::f32, Custom);

		if (Subtarget->has16BitInsts()) {
		setOperationAction(ISD::FLOG, MVT::f16, Custom);
		setOperationAction(ISD::FLOG10, MVT::f16, Custom);
		}

	setOperationAction(ISD::FNEARBYINT, MVT::f32, Custom);	setOperationAction(ISD::FNEARBYINT, MVT::f32, Custom);
	setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);	setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);

Context not available.
	setOperationAction(ISD::FEXP2, VT, Expand);	setOperationAction(ISD::FEXP2, VT, Expand);
	setOperationAction(ISD::FLOG2, VT, Expand);	setOperationAction(ISD::FLOG2, VT, Expand);
	setOperationAction(ISD::FREM, VT, Expand);	setOperationAction(ISD::FREM, VT, Expand);
		setOperationAction(ISD::FLOG, VT, Expand);
		setOperationAction(ISD::FLOG10, VT, Expand);
	setOperationAction(ISD::FPOW, VT, Expand);	setOperationAction(ISD::FPOW, VT, Expand);
	setOperationAction(ISD::FFLOOR, VT, Expand);	setOperationAction(ISD::FFLOOR, VT, Expand);
	setOperationAction(ISD::FTRUNC, VT, Expand);	setOperationAction(ISD::FTRUNC, VT, Expand);
Context not available.
	case ISD::FNEARBYINT: return LowerFNEARBYINT(Op, DAG);	case ISD::FNEARBYINT: return LowerFNEARBYINT(Op, DAG);
	case ISD::FROUND: return LowerFROUND(Op, DAG);	case ISD::FROUND: return LowerFROUND(Op, DAG);
	case ISD::FFLOOR: return LowerFFLOOR(Op, DAG);	case ISD::FFLOOR: return LowerFFLOOR(Op, DAG);
		case ISD::FLOG:
		case ISD::FLOG10:
		return LowerFLOG(Op, DAG);
	case ISD::SINT_TO_FP: return LowerSINT_TO_FP(Op, DAG);	case ISD::SINT_TO_FP: return LowerSINT_TO_FP(Op, DAG);
	case ISD::UINT_TO_FP: return LowerUINT_TO_FP(Op, DAG);	case ISD::UINT_TO_FP: return LowerUINT_TO_FP(Op, DAG);
	case ISD::FP_TO_FP16: return LowerFP_TO_FP16(Op, DAG);	case ISD::FP_TO_FP16: return LowerFP_TO_FP16(Op, DAG);
		jveselyUnsubmitted Done Reply Inline Actions Does FDIV have good enough precision to do this? OCL requires 2.5 ULP, and I'm not sure how good the EG/CM hw is. libclc uses precomputed constants and multiplication, maybe the same can be applied here. jvesely: Does FDIV have good enough precision to do this? OCL requires 2.5 ULP, and I'm not sure how…
Context not available.
	return DAG.getNode(ISD::FADD, SL, MVT::f64, Trunc, Add);	return DAG.getNode(ISD::FADD, SL, MVT::f64, Trunc, Add);
	}	}

		SDValue AMDGPUTargetLowering::LowerFLOG(SDValue Op, SelectionDAG &DAG) const {
		jveselyUnsubmitted Done Reply Inline Actions You can pass the log2base constant here to avoid second switch and simplify the code. Just a nitpick jvesely: You can pass the log2base constant here to avoid second switch and simplify the code. Just a…
		EVT VT = Op.getValueType();

		SDLoc SL(Op);
		SDValue Operand = Op.getOperand(0);

		SDValue Log2Operand = DAG.getNode(ISD::FLOG2, SL, VT, Operand);
		SDValue Log2Base;
		switch (Op.getOpcode()) {
		case ISD::FLOG:
		Log2Base = DAG.getConstantFP(AMDGPU_LOG2E_F, SL, VT);
		break;
		case ISD::FLOG10:
		Log2Base = DAG.getConstantFP(AMDGPU_LN10_F / AMDGPU_LN2_F, SL, VT);
		break;
		default:
		llvm_unreachable("Wrong log opcode");
		}

		return DAG.getNode(ISD::FDIV, SL, VT, Log2Operand, Log2Base);
		jveselyUnsubmitted Done Reply Inline Actions Using FMUL and inverted Log2Base should be both faster and more precise. jvesely: Using FMUL and inverted Log2Base should be both faster and more precise.
		}

	SDValue AMDGPUTargetLowering::LowerCTLZ(SDValue Op, SelectionDAG &DAG) const {	SDValue AMDGPUTargetLowering::LowerCTLZ(SDValue Op, SelectionDAG &DAG) const {
	SDLoc SL(Op);	SDLoc SL(Op);
	SDValue Src = Op.getOperand(0);	SDValue Src = Op.getOperand(0);
Context not available.

test/CodeGen/AMDGPU/llvm.log.ll

	; RUN: llc < %s -march=amdgcn \| FileCheck %s --check-prefix=SI --check-prefix=FUNC	; RUN: llc < %s -march=amdgcn \| FileCheck %s --check-prefix=GCN --check-prefix=FUNC
	; RUN: llc < %s -march=amdgcn -mcpu=tonga \| FileCheck %s --check-prefix=SI --check-prefix=FUNC	; RUN: llc < %s -march=amdgcn -mcpu=tonga \| FileCheck %s --check-prefix=GCN --check-prefix=FUNC
	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s --check-prefix=EG --check-prefix=FUNC	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s --check-prefix=EG --check-prefix=FUNC
	; RUN: llc < %s -march=r600 -mcpu=cayman \| FileCheck %s --check-prefix=CM --check-prefix=FUNC	; RUN: llc < %s -march=r600 -mcpu=cayman \| FileCheck %s --check-prefix=CM --check-prefix=FUNC

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32

	define void @test(float addrspace(1)* %out, float %in) {	define void @test(float addrspace(1)* %out, float %in) {
	entry:	entry:
	%0 = call float @llvm.log.f32(float %in)	%res = call float @llvm.log.f32(float %in)
	store float %0, float addrspace(1)* %out	store float %res, float addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32

	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {
	entry:	entry:
	%0 = call <2 x float> @llvm.log.v2f32(<2 x float> %in)	%res = call <2 x float> @llvm.log.v2f32(<2 x float> %in)
	store <2 x float> %0, <2 x float> addrspace(1)* %out	store <2 x float> %res, <2 x float> addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {
	entry:	entry:
	%0 = call <4 x float> @llvm.log.v4f32(<4 x float> %in)	%res = call <4 x float> @llvm.log.v4f32(<4 x float> %in)
	store <4 x float> %0, <4 x float> addrspace(1)* %out	store <4 x float> %res, <4 x float> addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.

test/CodeGen/AMDGPU/llvm.log10.ll

	; RUN: llc < %s -march=amdgcn \| FileCheck %s --check-prefix=SI --check-prefix=FUNC	; RUN: llc < %s -march=amdgcn \| FileCheck %s --check-prefix=GCN --check-prefix=FUNC
	; RUN: llc < %s -march=amdgcn -mcpu=tonga \| FileCheck %s --check-prefix=SI --check-prefix=FUNC	; RUN: llc < %s -march=amdgcn -mcpu=tonga \| FileCheck %s --check-prefix=GCN --check-prefix=FUNC
		arsenmUnsubmitted Done Reply Inline Actions s/SI/GCN arsenm: s/SI/GCN
	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s --check-prefix=EG --check-prefix=FUNC	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s --check-prefix=EG --check-prefix=FUNC
		arsenmUnsubmitted Done Reply Inline Actions Remove -mcpu=SI. Also should sort r600 lines later arsenm: Remove -mcpu=SI. Also should sort r600 lines later
	; RUN: llc < %s -march=r600 -mcpu=cayman \| FileCheck %s --check-prefix=CM --check-prefix=FUNC	; RUN: llc < %s -march=r600 -mcpu=cayman \| FileCheck %s --check-prefix=CM --check-prefix=FUNC

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32

	define void @test(float addrspace(1)* %out, float %in) {	define void @test(float addrspace(1)* %out, float %in) {
	entry:	entry:
	%0 = call float @llvm.log10.f32(float %in)	%res = call float @llvm.log10.f32(float %in)
		arsenmUnsubmitted Done Reply Inline Actions Can you name these vars? arsenm: Can you name these vars?
	store float %0, float addrspace(1)* %out	store float %res, float addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32

	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {
	entry:	entry:
	%0 = call <2 x float> @llvm.log10.v2f32(<2 x float> %in)	%res = call <2 x float> @llvm.log10.v2f32(<2 x float> %in)
	store <2 x float> %0, <2 x float> addrspace(1)* %out	store <2 x float> %res, <2 x float> addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_log_f32	; GCN: v_log_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	; SI: v_div_scale_f32	; GCN: v_div_scale_f32
	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {
	entry:	entry:
	%0 = call <4 x float> @llvm.log10.v4f32(<4 x float> %in)	%res = call <4 x float> @llvm.log10.v4f32(<4 x float> %in)
	store <4 x float> %0, <4 x float> addrspace(1)* %out	store <4 x float> %res, <4 x float> addrspace(1)* %out
	ret void	ret void
	}	}

Context not available.

This is an archive of the discontinued LLVM Phabricator instance.

Add custom lowering for llvm.log{,10}.{f16,f32} intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 95716

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

test/CodeGen/AMDGPU/llvm.log.ll

test/CodeGen/AMDGPU/llvm.log10.ll

This is an archive of the discontinued LLVM Phabricator instance.

Add custom lowering for llvm.log{,10}.{f16,f32} intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 95716

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

test/CodeGen/AMDGPU/llvm.log.ll

test/CodeGen/AMDGPU/llvm.log10.ll

Add custom lowering for llvm.log{,10}.{f16,f32} intrinsics
ClosedPublic