This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
mlir/
-
include/mlir/Conversion/
-
mlir/
-
Conversion/
-
GPUToNVVM/
-
GPUToNVVMPass.h
-
Passes.td
-
lib/Conversion/GPUToNVVM/
-
Conversion/
-
GPUToNVVM/
3/4
LowerGpuOpsToNVVMOps.cpp
-
test/Conversion/GPUToNVVM/
-
Conversion/
-
GPUToNVVM/
-
gpu-to-nvvm.mlir

Differential D142103

[mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op`
ClosedPublic

Authored by guraypp on Jan 19 2023, 3:46 AM.

Download Raw Diff

Details

Reviewers

ThomasRaoux
herhut
nicolasvasilache

Commits

rGa3388f3e2a30: [mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op`

Summary

This revision introduces a pattern to lower gpu.subgroup_reduce op into to the nvvm.redux_sync op. The op must be run by the entire subgroup, otherwise it is undefined behaviour.

It also adds a flag and populate function, because the op is not avaiable for every gpu (sm80+), so it can be used when it is desired.

Depends on D142088

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

guraypp created this revision.Jan 19 2023, 3:46 AM

Herald added a reviewer: ThomasRaoux. · View Herald TranscriptJan 19 2023, 3:46 AM

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: Moerafaat, zero9178, bzcheeseman and 23 others. · View Herald Transcript

guraypp requested review of this revision.Jan 19 2023, 3:46 AM

Herald added a reviewer: herhut. · View Herald TranscriptJan 19 2023, 3:46 AM

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: stephenneuendorffer, nicolasvasilache, jholewinski. · View Herald Transcript

guraypp added a reviewer: nicolasvasilache.Jan 19 2023, 3:47 AM

Harbormaster completed remote builds in B208714: Diff 490450.Jan 19 2023, 4:06 AM

Hardcode84 added a subscriber: Hardcode84.Jan 19 2023, 5:47 AM

Hardcode84 added inline comments.

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp
76	Instead of hard crashing should probably return optional and check it in pattern.
92	missing return

address comments

guraypp marked 2 inline comments as done.Jan 19 2023, 5:56 AM

guraypp added inline comments.

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp
76	good catch, thanks!

Harbormaster completed remote builds in B208730: Diff 490479.Jan 19 2023, 6:19 AM

Looks good once we purge errors

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp
92	not an error but rewriter.notifyMatchFailure everywhere plz

This revision is now accepted and ready to land.Jan 20 2023, 3:30 AM

Change emitErrors to notifyMatchFailure

Harbormaster completed remote builds in B208941: Diff 490775.Jan 20 2023, 4:19 AM

Closed by commit rGa3388f3e2a30: [mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op` (authored by guraypp). · Explain WhyJan 20 2023, 4:56 AM

This revision was automatically updated to reflect the committed changes.

guraypp added a commit: rGa3388f3e2a30: [mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op`.

Revision Contents

Path

Size

mlir/

include/

mlir/

Conversion/

GPUToNVVM/

GPUToNVVMPass.h

8 lines

Passes.td

4 lines

lib/

Conversion/

GPUToNVVM/

LowerGpuOpsToNVVMOps.cpp

68 lines

test/

Conversion/

GPUToNVVM/

gpu-to-nvvm.mlir

45 lines

Diff 490789

mlir/include/mlir/Conversion/GPUToNVVM/GPUToNVVMPass.h

	Show All 31 Lines

	/// Configure target to convert from the GPU dialect to NVVM.			/// Configure target to convert from the GPU dialect to NVVM.
	void configureGpuToNVVMConversionLegality(ConversionTarget &target);			void configureGpuToNVVMConversionLegality(ConversionTarget &target);

	/// Collect a set of patterns to convert from the GPU dialect to NVVM.			/// Collect a set of patterns to convert from the GPU dialect to NVVM.
	void populateGpuToNVVMConversionPatterns(LLVMTypeConverter &converter,			void populateGpuToNVVMConversionPatterns(LLVMTypeConverter &converter,
	RewritePatternSet &patterns);			RewritePatternSet &patterns);

				/// Populate GpuSubgroupReduce pattern to NVVM. It generates a specific nvvm
				/// op that is not available on every GPU.
				void populateGpuSubgroupReduceOpLoweringPattern(LLVMTypeConverter &converter,
				RewritePatternSet &patterns);

	/// Collect a set of patterns to convert WMMA ops from GPU dialect to NVVM.			/// Collect a set of patterns to convert WMMA ops from GPU dialect to NVVM.
	void populateGpuWMMAToNVVMConversionPatterns(LLVMTypeConverter &converter,			void populateGpuWMMAToNVVMConversionPatterns(LLVMTypeConverter &converter,
	RewritePatternSet &patterns);			RewritePatternSet &patterns);

	/// Creates a pass that lowers GPU dialect operations to NVVM counterparts. The			/// Creates a pass that lowers GPU dialect operations to NVVM counterparts. The
	/// index bitwidth used for the lowering of the device side index computations			/// index bitwidth used for the lowering of the device side index computations
	/// is configurable.			/// is configurable.
	std::unique_ptr<OperationPass<gpu::GPUModuleOp>> createLowerGpuOpsToNVVMOpsPass(			std::unique_ptr<OperationPass<gpu::GPUModuleOp>> createLowerGpuOpsToNVVMOpsPass(
	unsigned indexBitwidth = kDeriveIndexBitwidthFromDataLayout);			unsigned indexBitwidth = kDeriveIndexBitwidthFromDataLayout,
				bool hasRedux = false);

	} // namespace mlir			} // namespace mlir

	#endif // MLIR_CONVERSION_GPUTONVVM_GPUTONVVMPASS_H_			#endif // MLIR_CONVERSION_GPUTONVVM_GPUTONVVMPASS_H_

mlir/include/mlir/Conversion/Passes.td

Show First 20 Lines • Show All 353 Lines • ▼ Show 20 Lines	def ConvertGpuOpsToNVVMOps : Pass<"convert-gpu-to-nvvm", "gpu::GPUModuleOp"> {
let dependentDialects = [		let dependentDialects = [
"cf::ControlFlowDialect",		"cf::ControlFlowDialect",
"memref::MemRefDialect",		"memref::MemRefDialect",
"NVVM::NVVMDialect",		"NVVM::NVVMDialect",
];		];
let options = [		let options = [
Option<"indexBitwidth", "index-bitwidth", "unsigned",		Option<"indexBitwidth", "index-bitwidth", "unsigned",
/default=kDeriveIndexBitwidthFromDataLayout/"0",		/default=kDeriveIndexBitwidthFromDataLayout/"0",
"Bitwidth of the index type, 0 to use size of machine word">		"Bitwidth of the index type, 0 to use size of machine word">,
		Option<"hasRedux", "has-redux", "bool", /default=/"false",
		"Target gpu supports redux">,
];		];
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// GPUToROCDL		// GPUToROCDL
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def ConvertGpuOpsToROCDLOps : Pass<"convert-gpu-to-rocdl", "gpu::GPUModuleOp"> {		def ConvertGpuOpsToROCDLOps : Pass<"convert-gpu-to-rocdl", "gpu::GPUModuleOp"> {
▲ Show 20 Lines • Show All 635 Lines • Show Last 20 Lines

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp

Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	static NVVM::ShflKind convertShflKind(gpu::ShuffleMode mode) {
case gpu::ShuffleMode::DOWN:		case gpu::ShuffleMode::DOWN:
return NVVM::ShflKind::down;		return NVVM::ShflKind::down;
case gpu::ShuffleMode::IDX:		case gpu::ShuffleMode::IDX:
return NVVM::ShflKind::idx;		return NVVM::ShflKind::idx;
}		}
llvm_unreachable("unknown shuffle mode");		llvm_unreachable("unknown shuffle mode");
}		}

		static Optional<NVVM::ReduxKind>
		convertReduxKind(gpu::AllReduceOperation mode) {
		switch (mode) {
		case gpu::AllReduceOperation::ADD:
		return NVVM::ReduxKind::ADD;
		case gpu::AllReduceOperation::AND:
		return NVVM::ReduxKind::AND;
		case gpu::AllReduceOperation::MAX:
		return NVVM::ReduxKind::MAX;
		case gpu::AllReduceOperation::MIN:
		return NVVM::ReduxKind::MIN;
		case gpu::AllReduceOperation::OR:
		return NVVM::ReduxKind::OR;
		case gpu::AllReduceOperation::XOR:
		return NVVM::ReduxKind::XOR;
		case gpu::AllReduceOperation::MUL:
		Hardcode84Unsubmitted Done Reply Inline Actions Instead of hard crashing should probably return optional and check it in pattern. Hardcode84: Instead of hard crashing should probably return optional and check it in pattern.
		gurayppAuthorUnsubmitted Done Reply Inline Actions good catch, thanks! guraypp: good catch, thanks!
		return std::nullopt;
		}
		return std::nullopt;
		}

		/// This pass lowers gpu.subgroup_reduce op into to the nvvm.redux op. The op
		/// must be run by the entire subgroup, otherwise it is undefined behaviour.
		struct GPUSubgroupReduceOpLowering
		: public ConvertOpToLLVMPattern<gpu::SubgroupReduceOp> {
		using ConvertOpToLLVMPattern<gpu::SubgroupReduceOp>::ConvertOpToLLVMPattern;
		LogicalResult

		matchAndRewrite(gpu::SubgroupReduceOp op, OpAdaptor adaptor,
		ConversionPatternRewriter &rewriter) const override {
		if (!op.getUniform())
		return rewriter.notifyMatchFailure(
		Hardcode84Unsubmitted Done Reply Inline Actions missing return Hardcode84: missing return
		nicolasvasilacheUnsubmitted Not Done Reply Inline Actions not an error but rewriter.notifyMatchFailure everywhere plz nicolasvasilache: not an error but rewriter.notifyMatchFailure everywhere plz
		op, "cannot be lowered to redux as the op must be run "
		"uniformly (entire subgroup).");
		if (!op.getValue().getType().isInteger(32))
		return rewriter.notifyMatchFailure(op, "unsupported data type");

		Optional<NVVM::ReduxKind> mode = convertReduxKind(op.getOp());
		if (!mode.has_value())
		return rewriter.notifyMatchFailure(
		op, "unsupported reduction mode for redux");

		Location loc = op->getLoc();
		auto int32Type = IntegerType::get(rewriter.getContext(), 32);
		Value offset = rewriter.create<LLVM::ConstantOp>(loc, int32Type, -1);

		auto reduxOp = rewriter.create<NVVM::ReduxOp>(loc, int32Type, op.getValue(),
		mode.value(), offset);

		rewriter.replaceOp(op, reduxOp->getResult(0));
		return success();
		}
		};

struct GPUShuffleOpLowering : public ConvertOpToLLVMPattern<gpu::ShuffleOp> {		struct GPUShuffleOpLowering : public ConvertOpToLLVMPattern<gpu::ShuffleOp> {
using ConvertOpToLLVMPattern<gpu::ShuffleOp>::ConvertOpToLLVMPattern;		using ConvertOpToLLVMPattern<gpu::ShuffleOp>::ConvertOpToLLVMPattern;

/// Lowers a shuffle to the corresponding NVVM op.		/// Lowers a shuffle to the corresponding NVVM op.
///		///
/// Convert the `width` argument into an activeMask (a bitmask which specifies		/// Convert the `width` argument into an activeMask (a bitmask which specifies
/// which threads participate in the shuffle) and a maskAndClamp (specifying		/// which threads participate in the shuffle) and a maskAndClamp (specifying
/// the highest lane which participates in the shuffle).		/// the highest lane which participates in the shuffle).
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
/// A pass that replaces all occurrences of GPU device operations with their		/// A pass that replaces all occurrences of GPU device operations with their
/// corresponding NVVM equivalent.		/// corresponding NVVM equivalent.
///		///
/// This pass only handles device code and is not meant to be run on GPU host		/// This pass only handles device code and is not meant to be run on GPU host
/// code.		/// code.
struct LowerGpuOpsToNVVMOpsPass		struct LowerGpuOpsToNVVMOpsPass
: public impl::ConvertGpuOpsToNVVMOpsBase<LowerGpuOpsToNVVMOpsPass> {		: public impl::ConvertGpuOpsToNVVMOpsBase<LowerGpuOpsToNVVMOpsPass> {
LowerGpuOpsToNVVMOpsPass() = default;		LowerGpuOpsToNVVMOpsPass() = default;
LowerGpuOpsToNVVMOpsPass(unsigned indexBitwidth) {		LowerGpuOpsToNVVMOpsPass(unsigned indexBitwidth, bool hasRedux = false) {
this->indexBitwidth = indexBitwidth;		this->indexBitwidth = indexBitwidth;
		this->hasRedux = hasRedux;
}		}

void runOnOperation() override {		void runOnOperation() override {
gpu::GPUModuleOp m = getOperation();		gpu::GPUModuleOp m = getOperation();

// Request C wrapper emission.		// Request C wrapper emission.
for (auto func : m.getOps<func::FuncOp>()) {		for (auto func : m.getOps<func::FuncOp>()) {
func->setAttr(LLVM::LLVMDialect::getEmitCWrapperAttrName(),		func->setAttr(LLVM::LLVMDialect::getEmitCWrapperAttrName(),
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	void runOnOperation() override {
RewritePatternSet llvmPatterns(m.getContext());		RewritePatternSet llvmPatterns(m.getContext());

arith::populateArithToLLVMConversionPatterns(converter, llvmPatterns);		arith::populateArithToLLVMConversionPatterns(converter, llvmPatterns);
cf::populateControlFlowToLLVMConversionPatterns(converter, llvmPatterns);		cf::populateControlFlowToLLVMConversionPatterns(converter, llvmPatterns);
populateFuncToLLVMConversionPatterns(converter, llvmPatterns);		populateFuncToLLVMConversionPatterns(converter, llvmPatterns);
populateMemRefToLLVMConversionPatterns(converter, llvmPatterns);		populateMemRefToLLVMConversionPatterns(converter, llvmPatterns);
populateGpuToNVVMConversionPatterns(converter, llvmPatterns);		populateGpuToNVVMConversionPatterns(converter, llvmPatterns);
populateGpuWMMAToNVVMConversionPatterns(converter, llvmPatterns);		populateGpuWMMAToNVVMConversionPatterns(converter, llvmPatterns);
		if (this->hasRedux)
		populateGpuSubgroupReduceOpLoweringPattern(converter, llvmPatterns);
LLVMConversionTarget target(getContext());		LLVMConversionTarget target(getContext());
configureGpuToNVVMConversionLegality(target);		configureGpuToNVVMConversionLegality(target);
if (failed(applyPartialConversion(m, target, std::move(llvmPatterns))))		if (failed(applyPartialConversion(m, target, std::move(llvmPatterns))))
signalPassFailure();		signalPassFailure();
}		}
};		};

} // namespace		} // namespace
Show All 14 Lines
template <typename OpTy>		template <typename OpTy>
static void populateOpPatterns(LLVMTypeConverter &converter,		static void populateOpPatterns(LLVMTypeConverter &converter,
RewritePatternSet &patterns, StringRef f32Func,		RewritePatternSet &patterns, StringRef f32Func,
StringRef f64Func) {		StringRef f64Func) {
patterns.add<ScalarizeVectorOpLowering<OpTy>>(converter);		patterns.add<ScalarizeVectorOpLowering<OpTy>>(converter);
patterns.add<OpToFuncCallLowering<OpTy>>(converter, f32Func, f64Func);		patterns.add<OpToFuncCallLowering<OpTy>>(converter, f32Func, f64Func);
}		}

		void mlir::populateGpuSubgroupReduceOpLoweringPattern(
		LLVMTypeConverter &converter, RewritePatternSet &patterns) {
		patterns.add<GPUSubgroupReduceOpLowering>(converter);
		}

void mlir::populateGpuToNVVMConversionPatterns(LLVMTypeConverter &converter,		void mlir::populateGpuToNVVMConversionPatterns(LLVMTypeConverter &converter,
RewritePatternSet &patterns) {		RewritePatternSet &patterns) {
populateWithGenerated(patterns);		populateWithGenerated(patterns);
patterns.add<GPUPrintfOpToVPrintfLowering>(converter);		patterns.add<GPUPrintfOpToVPrintfLowering>(converter);
patterns		patterns
.add<GPUIndexIntrinsicOpLowering<gpu::ThreadIdOp, NVVM::ThreadIdXOp,		.add<GPUIndexIntrinsicOpLowering<gpu::ThreadIdOp, NVVM::ThreadIdXOp,
NVVM::ThreadIdYOp, NVVM::ThreadIdZOp>,		NVVM::ThreadIdYOp, NVVM::ThreadIdZOp>,
GPUIndexIntrinsicOpLowering<gpu::BlockDimOp, NVVM::BlockDimXOp,		GPUIndexIntrinsicOpLowering<gpu::BlockDimOp, NVVM::BlockDimXOp,
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	void mlir::populateGpuToNVVMConversionPatterns(LLVMTypeConverter &converter,
populateOpPatterns<math::SqrtOp>(converter, patterns, "__nv_sqrtf",		populateOpPatterns<math::SqrtOp>(converter, patterns, "__nv_sqrtf",
"__nv_sqrt");		"__nv_sqrt");
populateOpPatterns<math::TanhOp>(converter, patterns, "__nv_tanhf",		populateOpPatterns<math::TanhOp>(converter, patterns, "__nv_tanhf",
"__nv_tanh");		"__nv_tanh");
populateOpPatterns<math::TanOp>(converter, patterns, "__nv_tanf", "__nv_tan");		populateOpPatterns<math::TanOp>(converter, patterns, "__nv_tanf", "__nv_tan");
}		}

std::unique_ptr<OperationPass<gpu::GPUModuleOp>>		std::unique_ptr<OperationPass<gpu::GPUModuleOp>>
mlir::createLowerGpuOpsToNVVMOpsPass(unsigned indexBitwidth) {		mlir::createLowerGpuOpsToNVVMOpsPass(unsigned indexBitwidth, bool hasRedux) {
return std::make_unique<LowerGpuOpsToNVVMOpsPass>(indexBitwidth);		return std::make_unique<LowerGpuOpsToNVVMOpsPass>(indexBitwidth, hasRedux);
}		}

mlir/test/Conversion/GPUToNVVM/gpu-to-nvvm.mlir

// RUN: mlir-opt %s -convert-gpu-to-nvvm -split-input-file \| FileCheck %s		// RUN: mlir-opt %s -convert-gpu-to-nvvm='has-redux=1' -split-input-file \| FileCheck %s
// RUN: mlir-opt %s -convert-gpu-to-nvvm='index-bitwidth=32' -split-input-file \| FileCheck --check-prefix=CHECK32 %s		// RUN: mlir-opt %s -convert-gpu-to-nvvm='has-redux=1 index-bitwidth=32' -split-input-file \| FileCheck --check-prefix=CHECK32 %s

gpu.module @test_module {		gpu.module @test_module {
// CHECK-LABEL: func @gpu_index_ops()		// CHECK-LABEL: func @gpu_index_ops()
// CHECK32-LABEL: func @gpu_index_ops()		// CHECK32-LABEL: func @gpu_index_ops()
func.func @gpu_index_ops()		func.func @gpu_index_ops()
-> (index, index, index, index, index, index,		-> (index, index, index, index, index, index,
index, index, index, index, index, index,		index, index, index, index, index, index,
index) {		index) {
▲ Show 20 Lines • Show All 558 Lines • ▼ Show 20 Lines	gpu.func @test_printf(%arg0: i32, %arg1: f32) {
// CHECK-NEXT: llvm.store %[[EXT]], %[[EL1]] : !llvm.ptr<f64>		// CHECK-NEXT: llvm.store %[[EXT]], %[[EL1]] : !llvm.ptr<f64>
// CHECK-NEXT: %[[ARGPTR:.*]] = llvm.bitcast %[[ALLOC]] : !llvm.ptr<struct<(i32, f64)>> to !llvm.ptr<i8>		// CHECK-NEXT: %[[ARGPTR:.*]] = llvm.bitcast %[[ALLOC]] : !llvm.ptr<struct<(i32, f64)>> to !llvm.ptr<i8>
// CHECK-NEXT: llvm.call @vprintf(%[[FORMATSTART]], %[[ARGPTR]]) : (!llvm.ptr<i8>, !llvm.ptr<i8>) -> i32		// CHECK-NEXT: llvm.call @vprintf(%[[FORMATSTART]], %[[ARGPTR]]) : (!llvm.ptr<i8>, !llvm.ptr<i8>) -> i32
gpu.printf "Hello: %d\n" %arg0, %arg1 : i32, f32		gpu.printf "Hello: %d\n" %arg0, %arg1 : i32, f32
gpu.return		gpu.return
}		}
}		}

		// -----

		gpu.module @test_module {
		// CHECK-LABEL: func @subgroup_reduce_add
		gpu.func @subgroup_reduce_add(%arg0 : i32) {
		// CHECK: nvvm.redux.sync add {{.*}}
		%result = gpu.subgroup_reduce add %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		// CHECK-LABEL: func @subgroup_reduce_and
		gpu.func @subgroup_reduce_and(%arg0 : i32) {
		// CHECK: nvvm.redux.sync and {{.*}}
		%result = gpu.subgroup_reduce and %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		// CHECK-LABEL: @subgroup_reduce_max
		gpu.func @subgroup_reduce_max(%arg0 : i32) {
		// CHECK: nvvm.redux.sync max {{.*}}
		%result = gpu.subgroup_reduce max %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		// CHECK-LABEL: @subgroup_reduce_min
		gpu.func @subgroup_reduce_min(%arg0 : i32) {
		// CHECK: nvvm.redux.sync min {{.*}}
		%result = gpu.subgroup_reduce min %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		// CHECK-LABEL: @subgroup_reduce_or
		gpu.func @subgroup_reduce_or(%arg0 : i32) {
		// CHECK: nvvm.redux.sync or {{.*}}
		%result = gpu.subgroup_reduce or %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		// CHECK-LABEL: @subgroup_reduce_xor
		gpu.func @subgroup_reduce_xor(%arg0 : i32) {
		// CHECK nvvm.redux.sync xor {{.*}}
		%result = gpu.subgroup_reduce xor %arg0 uniform {} : (i32) -> (i32)
		gpu.return
		}
		}

This is an archive of the discontinued LLVM Phabricator instance.

[mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op`ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 490789

mlir/include/mlir/Conversion/GPUToNVVM/GPUToNVVMPass.h

mlir/include/mlir/Conversion/Passes.td

mlir/lib/Conversion/GPUToNVVM/LowerGpuOpsToNVVMOps.cpp

mlir/test/Conversion/GPUToNVVM/gpu-to-nvvm.mlir

[mlir] Introduce a pattern to lower `gpu.subgroup_reduce` to `nvvm.redux_op`
ClosedPublic