Download Raw Diff

Details

Reviewers

bkramer
ftynse
bondhugula
ThomasRaoux
herhut
tra

Commits

rGbcfc0a905101: [MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with…

Summary

This is correct for all values, i.e. the same as promoting the division to fp32 in the NVPTX backend. But it is faster (~10% in average, sometimes more) because:

it performs less Newton iterations
it avoids the slow path for e.g. denormals
it allows reuse of the reciprocal for multiple divisions by the same divisor

Test program:

#include <stdio.h>
#include "cuda_fp16.h"

// This is a variant of CUDA's own __hdiv which is fast than hdiv_promote below
// and doesn't suffer from the perf cliff of div.rn.fp32 with 'special' values.
__device__ half hdiv_newton(half a, half b) {
  float fa = __half2float(a);
  float fb = __half2float(b);

  float rcp;
  asm("{rcp.approx.ftz.f32 %0, %1;\n}" : "=f"(rcp) : "f"(fb));

  float result = fa * rcp;
  auto exponent = reinterpret_cast<const unsigned&>(result) & 0x7f800000;
  if (exponent != 0 && exponent != 0x7f800000) {
    float err = __fmaf_rn(-fb, result, fa);
    result = __fmaf_rn(rcp, err, result);
  }

  return __float2half(result);
}

// Surprisingly, this is faster than CUDA's own __hdiv.
__device__ half hdiv_promote(half a, half b) {
  return __float2half(__half2float(a) / __half2float(b));
}

// This is an approximation that is accurate up to 1 ulp.
__device__ half hdiv_approx(half a, half b) {
  float fa = __half2float(a);
  float fb = __half2float(b);

  float result;
  asm("{div.approx.ftz.f32 %0, %1, %2;\n}" : "=f"(result) : "f"(fa), "f"(fb));
  return __float2half(result);
}

__global__ void CheckCorrectness() {
  int i = threadIdx.x + blockIdx.x * blockDim.x;
  half x = reinterpret_cast<const half&>(i);
  for (int j = 0; j < 65536; ++j) {
    half y = reinterpret_cast<const half&>(j);
    half d1 = hdiv_newton(x, y);
    half d2 = hdiv_promote(x, y);
    auto s1 = reinterpret_cast<const short&>(d1);
    auto s2 = reinterpret_cast<const short&>(d2);
    if (s1 != s2) {
      printf("%f (%u) / %f (%u), got %f (%hu), expected: %f (%hu)\n",
             __half2float(x), i, __half2float(y), j, __half2float(d1), s1,
             __half2float(d2), s2);
      //__trap();
    }
  }
}

__device__ half dst;

__global__ void ProfileBuiltin(half x) {
  #pragma unroll 1
  for (int i = 0; i < 10000000; ++i) {
    x = x / x;
  }
  dst = x;
}

__global__ void ProfilePromote(half x) {
  #pragma unroll 1
  for (int i = 0; i < 10000000; ++i) {
    x = hdiv_promote(x, x);
  }
  dst = x;
}

__global__ void ProfileNewton(half x) {
  #pragma unroll 1
  for (int i = 0; i < 10000000; ++i) {
    x = hdiv_newton(x, x);
  }
  dst = x;
}

__global__ void ProfileApprox(half x) {
  #pragma unroll 1
  for (int i = 0; i < 10000000; ++i) {
    x = hdiv_approx(x, x);
  }
  dst = x;
}

int main() {
  CheckCorrectness<<<256, 256>>>();
  half one = __float2half(1.0f);
  ProfileBuiltin<<<1, 1>>>(one);  // 1.001s
  ProfilePromote<<<1, 1>>>(one);  // 0.560s
  ProfileNewton<<<1, 1>>>(one);   // 0.508s
  ProfileApprox<<<1, 1>>>(one);   // 0.304s
  auto status = cudaDeviceSynchronize();
  printf("%s\n", cudaGetErrorString(status));
}

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

csigg created this revision.May 22 2022, 1:00 AM

Herald added a reviewer: ftynse. · View Herald TranscriptMay 22 2022, 1:00 AM

Herald added a reviewer: bondhugula. · View Herald Transcript

Herald added a reviewer: ThomasRaoux. · View Herald Transcript

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: bzcheeseman, mattd, gchakrabarti and 27 others. · View Herald Transcript

csigg requested review of this revision.May 22 2022, 1:00 AM

Herald added a reviewer: herhut. · View Herald TranscriptMay 22 2022, 1:00 AM

Herald added projects: Restricted Project, Restricted Project, Restricted Project. · View Herald Transcript

Herald added subscribers: llvm-commits, cfe-commits, stephenneuendorffer and 2 others. · View Herald Transcript

Harbormaster completed remote builds in B165721: Diff 431218.May 22 2022, 1:49 AM

I would suggest separating it into separate LLVM and MLIR patches.

LLVM changes look OK to me. No idea about MLIR. we would probably want to lower fp16 fdiv the same way in LLVM, too, but that would also have to be a separate patch.

tra added a reviewer: tra.May 24 2022, 10:33 AM

csigg mentioned this in D126369: [LLVM] Add rcp.approx.ftz.f32 intrinsic.May 25 2022, 4:42 AM

In D126158#3534750, @tra wrote:

I would suggest separating it into separate LLVM and MLIR patches.

Thanks Artem. I separated out the LLVM changes in https://reviews.llvm.org/D126369.

herhut added inline comments.May 25 2022, 8:26 AM

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp
158 ↗	(On Diff #431218)	This pattern is a bit misplaced here, as `LLVM::FDivOp` is not really a GPU dialect operation. Instead, should this be a special lowering of the arith dialect to NVVM (which we do not have yet) or a rewrite at the LLVM dialect level? When lowering to LLVM, we already typically configure a different lowering for math dialect, so configuring the lowering of arith dialect differently seems like an OK option. That would mean a specialized pattern for `arith.divf` with higher priority. That would also give users a choice.
304 ↗	(On Diff #431218)	I assume this is to differentiate this pattern somehow but there is no need for an extra `patterns.add` here.

csigg mentioned this in rGc4bc416418a2: [LLVM] Add rcp.approx.ftz.f32 intrinsic.May 25 2022, 12:05 PM

Rebase.

Harbormaster completed remote builds in B166330: Diff 432074.May 25 2022, 1:04 PM

csigg added inline comments.May 30 2022, 12:03 AM

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp
158 ↗	(On Diff #431218)	Yes, I agree it's a bit misplaced. I considered it the best of all questionable options. Adding it to ArithToLLVM doesn't really work, because we don't want it to depend on the NVVM dialect. How about adding it as a separate pass to `mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.td`?

Rebase.

Harbormaster completed remote builds in B166877: Diff 432871.May 30 2022, 2:48 AM

Make fdiv rewrite an NVVM transform pass instead.

Herald added a subscriber: mgorny. · View Herald TranscriptMay 30 2022, 3:31 AM

Rebase

Harbormaster completed remote builds in B166884: Diff 432881.May 30 2022, 3:55 AM

Fix.

Harbormaster completed remote builds in B166895: Diff 432894.May 30 2022, 5:38 AM

Separate pass works for me.

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.td
19	Maybe `llvm-optimize-for-nvvm`? Or even `llvm-optimize-for-nvvm-target`? This does not really optimize `nvvm` but rewrites `llvm` ir.

This revision is now accepted and ready to land.May 31 2022, 1:41 AM

Rename pass.

Harbormaster completed remote builds in B167534: Diff 433772.Jun 2 2022, 9:39 AM

Fix.

Harbormaster completed remote builds in B167802: Diff 434142.Jun 3 2022, 2:58 PM

Closed by commit rGbcfc0a905101: [MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with… (authored by csigg). · Explain WhyJun 3 2022, 11:03 PM

This revision was automatically updated to reflect the committed changes.

csigg added a commit: rGbcfc0a905101: [MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with….

mehdi_amini added a reverting change: rG369ce54bb302: Revert "[MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication….Jun 4 2022, 1:36 AM

The shared library build was broken, I had to revert: https://lab.llvm.org/buildbot/#/builders/61/builds/27377

Thanks Mehdi for reverting.

This diff was recommited in 400fef081adbafc358858709861cdb14303de0e9.

Diff 434142

mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	class NVVM_Op<string mnemonic, list<Trait> traits = []> :			class NVVM_Op<string mnemonic, list<Trait> traits = []> :
	LLVM_OpBase<NVVM_Dialect, mnemonic, traits> {			LLVM_OpBase<NVVM_Dialect, mnemonic, traits> {
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// NVVM intrinsic operations			// NVVM intrinsic operations
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class NVVM_IntrOp<string mnem, list<int> overloadedResults,			class NVVM_IntrOp<string mnem, list<Trait> traits,
	list<int> overloadedOperands, list<Trait> traits,
	int numResults>			int numResults>
	: LLVM_IntrOpBase<NVVM_Dialect, mnem, "nvvm_" # !subst(".", "_", mnem),			: LLVM_IntrOpBase<NVVM_Dialect, mnem, "nvvm_" # !subst(".", "_", mnem),
	overloadedResults, overloadedOperands, traits, numResults>;			/list<int> overloadedResults=/[],
				/list<int> overloadedOperands=/[],
				traits, numResults>;


	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// NVVM special register op definitions			// NVVM special register op definitions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	class NVVM_SpecialRegisterOp<string mnemonic,			class NVVM_SpecialRegisterOp<string mnemonic, list<Trait> traits = []> :
	list<Trait> traits = []> :			NVVM_IntrOp<mnemonic, !listconcat(traits, [NoSideEffect]), 1> {
	NVVM_IntrOp<mnemonic, [], [], !listconcat(traits, [NoSideEffect]), 1>,			let arguments = (ins);
	Arguments<(ins)> {
	let assemblyFormat = "attr-dict `:` type($res)";			let assemblyFormat = "attr-dict `:` type($res)";
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Lane index and range			// Lane index and range
	def NVVM_LaneIdOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.laneid">;			def NVVM_LaneIdOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.laneid">;
	def NVVM_WarpSizeOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.warpsize">;			def NVVM_WarpSizeOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.warpsize">;

	Show All 11 Lines
	def NVVM_BlockIdXOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.x">;			def NVVM_BlockIdXOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.x">;
	def NVVM_BlockIdYOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.y">;			def NVVM_BlockIdYOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.y">;
	def NVVM_BlockIdZOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.z">;			def NVVM_BlockIdZOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.ctaid.z">;
	def NVVM_GridDimXOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.x">;			def NVVM_GridDimXOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.x">;
	def NVVM_GridDimYOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.y">;			def NVVM_GridDimYOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.y">;
	def NVVM_GridDimZOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.z">;			def NVVM_GridDimZOp : NVVM_SpecialRegisterOp<"read.ptx.sreg.nctaid.z">;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
				// NVVM approximate op definitions
				//===----------------------------------------------------------------------===//

				def NVVM_RcpApproxFtzF32Op : NVVM_IntrOp<"rcp.approx.ftz.f", [NoSideEffect], 1> {
				let arguments = (ins F32:$arg);
				let results = (outs F32:$res);
				let assemblyFormat = "$arg attr-dict `:` type($res)";
				}

				//===----------------------------------------------------------------------===//
	// NVVM synchronization op definitions			// NVVM synchronization op definitions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def NVVM_Barrier0Op : NVVM_Op<"barrier0"> {			def NVVM_Barrier0Op : NVVM_Op<"barrier0"> {
	string llvmBuilder = [{			string llvmBuilder = [{
	createIntrinsicCall(builder, llvm::Intrinsic::nvvm_barrier0);			createIntrinsicCall(builder, llvm::Intrinsic::nvvm_barrier0);
	}];			}];
	let assemblyFormat = "attr-dict";			let assemblyFormat = "attr-dict";
	▲ Show 20 Lines • Show All 889 Lines • Show Last 20 Lines

mlir/include/mlir/Dialect/LLVMIR/Transforms/OptimizeForNVVM.h

This file was added.

				//===- OptimizeForNVVM.h - Optimize LLVM IR for NVVM -- C++ --===//
				//
				// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				// See https://llvm.org/LICENSE.txt for license information.
				// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
				//
				//===----------------------------------------------------------------------===//

				#ifndef MLIR_DIALECT_LLVMIR_TRANSFORMS_OPTIMIZENVVM_H
				#define MLIR_DIALECT_LLVMIR_TRANSFORMS_OPTIMIZENVVM_H

				#include <memory>

				namespace mlir {
				class Pass;

				namespace NVVM {

				/// Creates a pass that optimizes LLVM IR for the NVVM target.
				std::unique_ptr<Pass> createOptimizeForTargetPass();

				} // namespace NVVM
				} // namespace mlir

				#endif // MLIR_DIALECT_LLVMIR_TRANSFORMS_OPTIMIZENVVM_H

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.h

	//===- Passes.h - LLVM Pass Construction and Registration -----------------===//			//===- Passes.h - LLVM Pass Construction and Registration -----------------===//
	//			//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.			// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.			// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception			// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//			//
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	#ifndef MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H			#ifndef MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H
	#define MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H			#define MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H

	#include "mlir/Dialect/LLVMIR/Transforms/LegalizeForExport.h"			#include "mlir/Dialect/LLVMIR/Transforms/LegalizeForExport.h"
				#include "mlir/Dialect/LLVMIR/Transforms/OptimizeForNVVM.h"
	#include "mlir/Pass/Pass.h"			#include "mlir/Pass/Pass.h"

	namespace mlir {			namespace mlir {

	namespace LLVM {			namespace LLVM {

	/// Generate the code for registering conversion passes.			/// Generate the code for registering conversion passes.
	#define GEN_PASS_REGISTRATION			#define GEN_PASS_REGISTRATION
	#include "mlir/Dialect/LLVMIR/Transforms/Passes.h.inc"			#include "mlir/Dialect/LLVMIR/Transforms/Passes.h.inc"

	} // namespace LLVM			} // namespace LLVM
	} // namespace mlir			} // namespace mlir

	#endif // MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H			#endif // MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES_H

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.td

	Show All 10 Lines

	include "mlir/Pass/PassBase.td"			include "mlir/Pass/PassBase.td"

	def LLVMLegalizeForExport : Pass<"llvm-legalize-for-export"> {			def LLVMLegalizeForExport : Pass<"llvm-legalize-for-export"> {
	let summary = "Legalize LLVM dialect to be convertible to LLVM IR";			let summary = "Legalize LLVM dialect to be convertible to LLVM IR";
	let constructor = "mlir::LLVM::createLegalizeForExportPass()";			let constructor = "mlir::LLVM::createLegalizeForExportPass()";
	}			}

				def NVVMOptimizeForTarget : Pass<"llvm-optimize-for-nvvm-target"> {
				herhutUnsubmitted Not Done Reply Inline Actions Maybe `llvm-optimize-for-nvvm`? Or even `llvm-optimize-for-nvvm-target`? This does not really optimize `nvvm` but rewrites `llvm` ir. herhut: Maybe `llvm-optimize-for-nvvm`? Or even `llvm-optimize-for-nvvm-target`? This does not really…
				let summary = "Optimize NVVM IR";
				let constructor = "mlir::NVVM::createOptimizeForTargetPass()";
				}

	#endif // MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES			#endif // MLIR_DIALECT_LLVMIR_TRANSFORMS_PASSES

mlir/lib/Dialect/LLVMIR/Transforms/CMakeLists.txt

	add_mlir_dialect_library(MLIRLLVMIRTransforms			add_mlir_dialect_library(MLIRLLVMIRTransforms
	LegalizeForExport.cpp			LegalizeForExport.cpp
				OptimizeForNVVM.cpp

	DEPENDS			DEPENDS
	MLIRLLVMPassIncGen			MLIRLLVMPassIncGen

	LINK_LIBS PUBLIC			LINK_LIBS PUBLIC
	MLIRIR			MLIRIR
	MLIRLLVMIR			MLIRLLVMIR
	MLIRPass			MLIRPass
	)			)

mlir/lib/Dialect/LLVMIR/Transforms/OptimizeForNVVM.cpp

This file was added.

				//===- OptimizeForNVVM.cpp - Optimize LLVM IR for NVVM ---------===//
				//
				// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				// See https://llvm.org/LICENSE.txt for license information.
				// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
				//
				//===----------------------------------------------------------------------===//

				#include "mlir/Dialect/LLVMIR/Transforms/OptimizeForNVVM.h"
				#include "PassDetail.h"
				#include "mlir/Dialect/LLVMIR/NVVMDialect.h"
				#include "mlir/IR/Builders.h"
				#include "mlir/IR/PatternMatch.h"
				#include "mlir/Transforms/GreedyPatternRewriteDriver.h"

				using namespace mlir;

				namespace {
				// Replaces fdiv on fp16 with fp32 multiplication with reciprocal plus one
				// (conditional) Newton iteration.
				//
				// This as accurate as promoting the division to fp32 in the NVPTX backend, but
				// faster because it performs less Newton iterations, avoids the slow path
				// for e.g. denormals, and allows reuse of the reciprocal for multiple divisions
				// by the same divisor.
				struct ExpandDivF16 : public OpRewritePattern<LLVM::FDivOp> {
				using OpRewritePattern<LLVM::FDivOp>::OpRewritePattern;

				private:
				LogicalResult matchAndRewrite(LLVM::FDivOp op,
				PatternRewriter &rewriter) const override;
				};

				struct NVVMOptimizeForTarget
				: public NVVMOptimizeForTargetBase<NVVMOptimizeForTarget> {
				void runOnOperation() override;

				void getDependentDialects(DialectRegistry &registry) const override {
				registry.insert<NVVM::NVVMDialect>();
				}
				};
				} // namespace

				LogicalResult ExpandDivF16::matchAndRewrite(LLVM::FDivOp op,
				PatternRewriter &rewriter) const {
				if (!op.getType().isF16())
				return rewriter.notifyMatchFailure(op, "not f16");
				Location loc = op.getLoc();

				Type f32Type = rewriter.getF32Type();
				Type i32Type = rewriter.getI32Type();

				// Extend lhs and rhs to fp32.
				Value lhs = rewriter.create<LLVM::FPExtOp>(loc, f32Type, op.getLhs());
				Value rhs = rewriter.create<LLVM::FPExtOp>(loc, f32Type, op.getRhs());

				// float rcp = rcp.approx.ftz.f32(rhs), approx = lhs * rcp.
				Value rcp = rewriter.create<NVVM::RcpApproxFtzF32Op>(loc, f32Type, rhs);
				Value approx = rewriter.create<LLVM::FMulOp>(loc, lhs, rcp);

				// Refine the approximation with one Newton iteration:
				// float refined = approx + (lhs - approx * rhs) * rcp;
				Value err = rewriter.create<LLVM::FMAOp>(
				loc, approx, rewriter.create<LLVM::FNegOp>(loc, rhs), lhs);
				Value refined = rewriter.create<LLVM::FMAOp>(loc, err, rcp, approx);

				// Use refined value if approx is normal (exponent neither all 0 or all 1).
				Value mask = rewriter.create<LLVM::ConstantOp>(
				loc, i32Type, rewriter.getUI32IntegerAttr(0x7f800000));
				Value cast = rewriter.create<LLVM::BitcastOp>(loc, i32Type, approx);
				Value exp = rewriter.create<LLVM::AndOp>(loc, i32Type, cast, mask);
				Value zero = rewriter.create<LLVM::ConstantOp>(
				loc, i32Type, rewriter.getUI32IntegerAttr(0));
				Value pred = rewriter.create<LLVM::OrOp>(
				loc,
				rewriter.create<LLVM::ICmpOp>(loc, LLVM::ICmpPredicate::eq, exp, zero),
				rewriter.create<LLVM::ICmpOp>(loc, LLVM::ICmpPredicate::eq, exp, mask));
				Value result =
				rewriter.create<LLVM::SelectOp>(loc, f32Type, pred, approx, refined);

				// Replace with trucation back to fp16.
				rewriter.replaceOpWithNewOp<LLVM::FPTruncOp>(op, op.getType(), result);

				return success();
				}

				void NVVMOptimizeForTarget::runOnOperation() {
				MLIRContext *ctx = getOperation()->getContext();
				RewritePatternSet patterns(ctx);
				patterns.add<ExpandDivF16>(ctx);
				if (failed(applyPatternsAndFoldGreedily(getOperation(), std::move(patterns))))
				return signalPassFailure();
				}

				std::unique_ptr<Pass> NVVM::createOptimizeForTargetPass() {
				return std::make_unique<NVVMOptimizeForTarget>();
				}

mlir/test/Dialect/LLVMIR/nvvm.mlir

Show All 23 Lines	func.func @nvvm_special_regs() -> i32 {
%9 = nvvm.read.ptx.sreg.nctaid.x : i32		%9 = nvvm.read.ptx.sreg.nctaid.x : i32
// CHECK: nvvm.read.ptx.sreg.nctaid.y : i32		// CHECK: nvvm.read.ptx.sreg.nctaid.y : i32
%10 = nvvm.read.ptx.sreg.nctaid.y : i32		%10 = nvvm.read.ptx.sreg.nctaid.y : i32
// CHECK: nvvm.read.ptx.sreg.nctaid.z : i32		// CHECK: nvvm.read.ptx.sreg.nctaid.z : i32
%11 = nvvm.read.ptx.sreg.nctaid.z : i32		%11 = nvvm.read.ptx.sreg.nctaid.z : i32
llvm.return %0 : i32		llvm.return %0 : i32
}		}

		// CHECK-LABEL: @nvvm_rcp
		func.func @nvvm_rcp(%arg0: f32) -> f32 {
		// CHECK: nvvm.rcp.approx.ftz.f %arg0 : f32
		%0 = nvvm.rcp.approx.ftz.f %arg0 : f32
		llvm.return %0 : f32
		}

// CHECK-LABEL: @llvm_nvvm_barrier0		// CHECK-LABEL: @llvm_nvvm_barrier0
func.func @llvm_nvvm_barrier0() {		func.func @llvm_nvvm_barrier0() {
// CHECK: nvvm.barrier0		// CHECK: nvvm.barrier0
nvvm.barrier0		nvvm.barrier0
llvm.return		llvm.return
}		}

// CHECK-LABEL: @nvvm_shfl		// CHECK-LABEL: @nvvm_shfl
▲ Show 20 Lines • Show All 263 Lines • Show Last 20 Lines

mlir/test/Dialect/LLVMIR/optimize-for-nvvm.mlir

This file was added.

				// RUN: mlir-opt %s -llvm-optimize-for-nvvm-target \| FileCheck %s

				// CHECK-LABEL: llvm.func @fdiv_fp16
				llvm.func @fdiv_fp16(%arg0 : f16, %arg1 : f16) -> f16 {
				// CHECK-DAG: %[[c0:.*]] = llvm.mlir.constant(0 : ui32) : i32
				// CHECK-DAG: %[[mask:.*]] = llvm.mlir.constant(2139095040 : ui32) : i32
				// CHECK-DAG: %[[lhs:.*]] = llvm.fpext %arg0 : f16 to f32
				// CHECK-DAG: %[[rhs:.*]] = llvm.fpext %arg1 : f16 to f32
				// CHECK-DAG: %[[rcp:.*]] = nvvm.rcp.approx.ftz.f %[[rhs]] : f32
				// CHECK-DAG: %[[approx:.*]] = llvm.fmul %[[lhs]], %[[rcp]] : f32
				// CHECK-DAG: %[[neg:.*]] = llvm.fneg %[[rhs]] : f32
				// CHECK-DAG: %[[err:.*]] = "llvm.intr.fma"(%[[approx]], %[[neg]], %[[lhs]]) : (f32, f32, f32) -> f32
				// CHECK-DAG: %[[refined:.*]] = "llvm.intr.fma"(%[[err]], %[[rcp]], %[[approx]]) : (f32, f32, f32) -> f32
				// CHECK-DAG: %[[cast:.*]] = llvm.bitcast %[[approx]] : f32 to i32
				// CHECK-DAG: %[[exp:.*]] = llvm.and %[[cast]], %[[mask]] : i32
				// CHECK-DAG: %[[is_zero:.*]] = llvm.icmp "eq" %[[exp]], %[[c0]] : i32
				// CHECK-DAG: %[[is_mask:.*]] = llvm.icmp "eq" %[[exp]], %[[mask]] : i32
				// CHECK-DAG: %[[pred:.*]] = llvm.or %[[is_zero]], %[[is_mask]] : i1
				// CHECK-DAG: %[[select:.*]] = llvm.select %[[pred]], %[[approx]], %[[refined]] : i1, f32
				// CHECK-DAG: %[[result:.*]] = llvm.fptrunc %[[select]] : f32 to f16
				%result = llvm.fdiv %arg0, %arg1 : f16
				// CHECK: llvm.return %[[result]] : f16
				llvm.return %result : f16
				}

mlir/test/Target/LLVMIR/nvvmir.mlir

Show All 27 Lines	llvm.func @nvvm_special_regs() -> i32 {
%12 = nvvm.read.ptx.sreg.nctaid.z : i32		%12 = nvvm.read.ptx.sreg.nctaid.z : i32
// CHECK: call i32 @llvm.nvvm.read.ptx.sreg.warpsize()		// CHECK: call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
%13 = nvvm.read.ptx.sreg.warpsize : i32		%13 = nvvm.read.ptx.sreg.warpsize : i32
// CHECK: call i32 @llvm.nvvm.read.ptx.sreg.laneid()		// CHECK: call i32 @llvm.nvvm.read.ptx.sreg.laneid()
%14 = nvvm.read.ptx.sreg.laneid : i32		%14 = nvvm.read.ptx.sreg.laneid : i32
llvm.return %1 : i32		llvm.return %1 : i32
}		}

		// CHECK-LABEL: @nvvm_rcp
		llvm.func @nvvm_rcp(%0: f32) -> f32 {
		// CHECK: call float @llvm.nvvm.rcp.approx.ftz.f
		%1 = nvvm.rcp.approx.ftz.f %0 : f32
		llvm.return %1 : f32
		}

// CHECK-LABEL: @llvm_nvvm_barrier0		// CHECK-LABEL: @llvm_nvvm_barrier0
llvm.func @llvm_nvvm_barrier0() {		llvm.func @llvm_nvvm_barrier0() {
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
nvvm.barrier0		nvvm.barrier0
llvm.return		llvm.return
}		}

// CHECK-LABEL: @nvvm_shfl		// CHECK-LABEL: @nvvm_shfl
▲ Show 20 Lines • Show All 301 Lines • Show Last 20 Lines

utils/bazel/llvm-project-overlay/mlir/BUILD.bazel

Show First 20 Lines • Show All 3,373 Lines • ▼ Show 20 Lines	srcs = glob([
"lib/Dialect/LLVMIR/Transforms/*.h",		"lib/Dialect/LLVMIR/Transforms/*.h",
]),		]),
hdrs = glob(["include/mlir/Dialect/LLVMIR/Transforms/*.h"]),		hdrs = glob(["include/mlir/Dialect/LLVMIR/Transforms/*.h"]),
includes = ["include"],		includes = ["include"],
deps = [		deps = [
":IR",		":IR",
":LLVMDialect",		":LLVMDialect",
":LLVMPassIncGen",		":LLVMPassIncGen",
		":NVVMDialect",
":Pass",		":Pass",
		":Transforms",
],		],
)		)

td_library(		td_library(
name = "GPUOpsTdFiles",		name = "GPUOpsTdFiles",
srcs = [		srcs = [
"include/mlir/Dialect/GPU/GPUBase.td",		"include/mlir/Dialect/GPU/GPUBase.td",
"include/mlir/Dialect/GPU/GPUOps.td",		"include/mlir/Dialect/GPU/GPUOps.td",
▲ Show 20 Lines • Show All 5,743 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with reciprocal plus one (conditional) Newton iteration.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 434142

mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td

mlir/include/mlir/Dialect/LLVMIR/Transforms/OptimizeForNVVM.h

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.h

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.td

mlir/lib/Dialect/LLVMIR/Transforms/CMakeLists.txt

mlir/lib/Dialect/LLVMIR/Transforms/OptimizeForNVVM.cpp

mlir/test/Dialect/LLVMIR/nvvm.mlir

mlir/test/Dialect/LLVMIR/optimize-for-nvvm.mlir

mlir/test/Target/LLVMIR/nvvmir.mlir

utils/bazel/llvm-project-overlay/mlir/BUILD.bazel

This is an archive of the discontinued LLVM Phabricator instance.

[MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with reciprocal plus one (conditional) Newton iteration.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 434142

mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td

mlir/include/mlir/Dialect/LLVMIR/Transforms/OptimizeForNVVM.h

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.h

mlir/include/mlir/Dialect/LLVMIR/Transforms/Passes.td

mlir/lib/Dialect/LLVMIR/Transforms/CMakeLists.txt

mlir/lib/Dialect/LLVMIR/Transforms/OptimizeForNVVM.cpp

mlir/test/Dialect/LLVMIR/nvvm.mlir

mlir/test/Dialect/LLVMIR/optimize-for-nvvm.mlir

mlir/test/Target/LLVMIR/nvvmir.mlir

utils/bazel/llvm-project-overlay/mlir/BUILD.bazel

[MLIR][GPU] Replace fdiv on fp16 with promoted (fp32) multiplication with reciprocal plus one (conditional) Newton iteration.
ClosedPublic