This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
mlir/
-
include/mlir/Dialect/NVGPU/IR/
-
mlir/
-
Dialect/
-
NVGPU/
-
IR/
-
NVGPU.td
-
NVGPUDialect.h
-
lib/
-
Conversion/NVGPUToNVVM/
-
NVGPUToNVVM/
-
NVGPUToNVVM.cpp
-
Dialect/NVGPU/IR/
-
NVGPU/
-
IR/
-
NVGPUDialect.cpp
-
test/
-
Conversion/NVGPUToNVVM/
-
NVGPUToNVVM/
-
nvgpu-to-nvvm.mlir
-
Dialect/NVGPU/
-
NVGPU/
-
invalid.mlir

Differential D158434

[MLIR][NVGPU] Adding `nvgpu.wargroup.mma` Op for Hopper GPUs
AbandonedPublic

Authored by guraypp on Aug 21 2023, 9:16 AM.

Download Raw Diff

Details

Reviewers

nicolasvasilache
herhut
qcolombet
manishucsd
ThomasRaoux

Summary

[MLIR][NVGPU] Adding nvgpu.wargroup.mma Op for Hopper GPUs

This work introduces a new operation called wargroup.mma to the NVGPU dialect of MLIR. The purpose of this operation is to facilitate warpgroup-level matrix multiply and accumulate (WGMMA) operations on Hopper GPUs with sm_90a architecture.

Previously, the nvvm.wgmma.mma_async operation was introduced to support wargroup-level matrix operations in NVVM dialect. This op is used multiple instances of nvvm.wgmma.mma_async to achieve the desired shape. The new nvgpu.wargroup.mma operation abstracts this complexity and provides a higher-level interface for performing wargroup-level matrix operations.

The nvgpu.wargroup.mma does followings:

Corresponds multiple wgmma instructions.
Iterates input matrix descriptors to achieve the desired computation shape.
Groups and runs wgmma instructions asynchronously, and eventually waits them. This are done by wgmma.fence.aligned, wgmma.commit.group.sync.aligned, and wgmma.wait.group.sync.aligned
Results fragmented matrices

Here's an example usage of the nvgpu.wargroup.mma operation:

%wgmmaResult, %wgmmaResult2 = nvgpu.wargroup.mma %descA, %descB, %acc, group = 1 {transposeB}:
!nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>,
!nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>,
vector<128x128xf32>
-> !nvgpu.warpgroup.result<tensor = !llvm.struct<...>,
!nvgpu.warpgroup.result<tensor = !llvm.struct<...>>

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

guraypp created this revision.Aug 21 2023, 9:16 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 21 2023, 9:16 AM

Herald added subscribers: bviyer, Moerafaat, zero9178 and 24 others. · View Herald Transcript

guraypp requested review of this revision.Aug 21 2023, 9:16 AM

Herald added a reviewer: nicolasvasilache. · View Herald TranscriptAug 21 2023, 9:16 AM

Herald added a reviewer: herhut. · View Herald Transcript

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: stephenneuendorffer, nicolasvasilache, jholewinski. · View Herald Transcript

This work is still draft. I plan to add more tests

Harbormaster completed remote builds in B253869: Diff 552049.Aug 21 2023, 9:18 AM

guraypp added a reviewer: ThomasRaoux.Aug 21 2023, 9:18 AM

add type, improves descriptor iterators, improve the operation

guraypp edited the summary of this revision. (Show Details)Sep 1 2023, 12:32 AM

guraypp mentioned this in D159342: [MLIR][NVGPU] Introduce `nvgpu.wargroup.mma.store` Op for Hopper GPUs.Sep 1 2023, 1:33 AM

guraypp added a child revision: D159426: [MLIR] Add H100 matmul 128x128x64 (f32+=f16*f16).Sep 4 2023, 5:28 AM

https://github.com/llvm/llvm-project/pull/65440

Revision Contents

Path

Size

mlir/

include/

mlir/

Dialect/

NVGPU/

IR/

NVGPU.td

48 lines

NVGPUDialect.h

2 lines

lib/

Conversion/

NVGPUToNVVM/

NVGPUToNVVM.cpp

179 lines

Dialect/

NVGPU/

IR/

NVGPUDialect.cpp

108 lines

test/

Conversion/

NVGPUToNVVM/

nvgpu-to-nvvm.mlir

66 lines

Dialect/

NVGPU/

invalid.mlir

61 lines

Diff 555285

mlir/include/mlir/Dialect/NVGPU/IR/NVGPU.td

Show First 20 Lines • Show All 186 Lines • ▼ Show 20 Lines	def NVGPU_WarpgroupMatrixDescriptor : NVGPU_Type<"WarpgroupMatrixDescriptor", "wgmma.descriptor", []> {

[See for more details in PTX ISA](https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#asynchronous-warpgroup-level-matrix-shared-memory-layout-matrix-descriptor)		[See for more details in PTX ISA](https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#asynchronous-warpgroup-level-matrix-shared-memory-layout-matrix-descriptor)

}];		}];
let parameters = (ins "MemRefType":$tensor);		let parameters = (ins "MemRefType":$tensor);
let assemblyFormat = "`<` struct(params) `>`";		let assemblyFormat = "`<` struct(params) `>`";
}		}

		def NVGPU_WarpgroupResult : NVGPU_Type<"WarpgroupResult", "warpgroup.result", []> {
		let parameters = (ins "Type":$tensor);
		let assemblyFormat = "`<` struct(params) `>`";
		let description = [{
		It is fragmented result matrix from `nvgpu.wargroup.mma`.
		[See the details of register fragment layout for accumulator matrix D](https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#wgmma-64n16-d)
		}];
		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// NVGPU Op Definitions		// NVGPU Op Definitions
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

class NVGPU_Op<string mnemonic, list<Trait> traits = []> :		class NVGPU_Op<string mnemonic, list<Trait> traits = []> :
Op<NVGPU_Dialect, mnemonic, traits> {}		Op<NVGPU_Dialect, mnemonic, traits> {}

def NVGPU_LdMatrixOp : NVGPU_Op<"ldmatrix", [		def NVGPU_LdMatrixOp : NVGPU_Op<"ldmatrix", [
▲ Show 20 Lines • Show All 456 Lines • ▼ Show 20 Lines	def NVGPU_GenerateGmmaDescriptorOp : NVGPU_Op<"wgmma.generate.descriptor", []> {
}];		}];
let results = (outs NVGPU_WarpgroupMatrixDescriptor:$descriptor);		let results = (outs NVGPU_WarpgroupMatrixDescriptor:$descriptor);
let arguments = (ins Arg<AnyMemRef, "", [MemRead]>:$tensor,		let arguments = (ins Arg<AnyMemRef, "", [MemRead]>:$tensor,
NVGPU_TensorMapDescriptor:$tensorMap);		NVGPU_TensorMapDescriptor:$tensorMap);
let assemblyFormat = [{$tensor `,` $tensorMap attr-dict `:` type($tensor) `,` type($tensorMap) `->` type($descriptor)}];		let assemblyFormat = [{$tensor `,` $tensorMap attr-dict `:` type($tensor) `,` type($tensorMap) `->` type($descriptor)}];
let hasVerifier = 1;		let hasVerifier = 1;
}		}

		def NVGPU_WarpgroupMmaOp : NVGPU_Op<"wargroup.mma"> {
		let description = [{
		The `nvgpu.wargroup.mma` op performs the warpgroup-level (4 warps)
		matrix-multiply-and-accumulate (mma) operation that results in
		`nvvm.wgmma.mma_async`.

		The operands are `descriptorA` and `descriptorB` that are wgmma matrix
		descriptors that shows the properties of the matrix in shared memory. The
		results are thread-level ownership to the warpgroup-level mma operation
		shape. The shape is deduced from the descriptor types and output vector.

		The Op corresponds multiple `nvvm.wgmma.mma_async` operations to complete the
		given shape. As the the instruction `nvvm.wgmma.async` is an asyncronous,
		this Op groups the `nvvm.wgmma.async` and surrounds them between
		`wgmma.fence.aligned` and `wgmma.commit.group.sync.aligned`,
		`wgmma.wait.group.sync.aligned` Ops.

		Example:
		```mlir
		%res = nvgpu.wargroup.mma %wgmmaDescA, %wgmmaDescB, %acc:
		!nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>,
		!nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>,
		vector<128x128xf32> -> !nvgpu.warpgroup.result<tensor = ...>
		```
		}];

		let arguments = (ins NVGPU_WarpgroupMatrixDescriptor:$descriptorA,
		NVGPU_WarpgroupMatrixDescriptor:$descriptorB,
		AnyVector:$matrixC,
		DefaultValuedOptionalAttr<I32Attr, "1">:$waitGroup,
		OptionalAttr<UnitAttr>:$transposeA,
		OptionalAttr<UnitAttr>:$transposeB);
		let results = (outs Variadic<NVGPU_WarpgroupResult>:$matrixD);
		let assemblyFormat = [{
		$descriptorA`,` $descriptorB`,` $matrixC (`,` `group` `=` $waitGroup^ )? attr-dict
		`:` type($descriptorA) `,` type($descriptorB) `,` type($matrixC) `->` type($matrixD)
		}];
		let hasVerifier = 1;
		}

#endif // NVGPU		#endif // NVGPU

mlir/include/mlir/Dialect/NVGPU/IR/NVGPUDialect.h

	Show All 15 Lines
	#include "mlir/Bytecode/BytecodeOpInterface.h"			#include "mlir/Bytecode/BytecodeOpInterface.h"
	#include "mlir/IR/BuiltinTypes.h"			#include "mlir/IR/BuiltinTypes.h"
	#include "mlir/IR/Dialect.h"			#include "mlir/IR/Dialect.h"
	#include "mlir/IR/OpDefinition.h"			#include "mlir/IR/OpDefinition.h"
	#include "mlir/Interfaces/SideEffectInterfaces.h"			#include "mlir/Interfaces/SideEffectInterfaces.h"

	#include "mlir/Dialect/NVGPU/IR/NVGPUEnums.h.inc"			#include "mlir/Dialect/NVGPU/IR/NVGPUEnums.h.inc"

				constexpr int kWarpSize = 32;

	#define GET_ATTRDEF_CLASSES			#define GET_ATTRDEF_CLASSES
	#include "mlir/Dialect/NVGPU/IR/NVGPUAttrDefs.h.inc"			#include "mlir/Dialect/NVGPU/IR/NVGPUAttrDefs.h.inc"

	#define GET_TYPEDEF_CLASSES			#define GET_TYPEDEF_CLASSES
	#include "mlir/Dialect/NVGPU/IR/NVGPUTypes.h.inc"			#include "mlir/Dialect/NVGPU/IR/NVGPUTypes.h.inc"

	#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h.inc"			#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h.inc"

	#define GET_OP_CLASSES			#define GET_OP_CLASSES
	#include "mlir/Dialect/NVGPU/IR/NVGPU.h.inc"			#include "mlir/Dialect/NVGPU/IR/NVGPU.h.inc"

	#endif // MLIR_DIALECT_NVGPU_NVGPUDIALECT_H_			#endif // MLIR_DIALECT_NVGPU_NVGPUDIALECT_H_

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

Show All 11 Lines
#include "mlir/Conversion/LLVMCommon/ConversionTarget.h"		#include "mlir/Conversion/LLVMCommon/ConversionTarget.h"
#include "mlir/Conversion/LLVMCommon/Pattern.h"		#include "mlir/Conversion/LLVMCommon/Pattern.h"
#include "mlir/Dialect/GPU/IR/GPUDialect.h"		#include "mlir/Dialect/GPU/IR/GPUDialect.h"
#include "mlir/Dialect/LLVMIR/LLVMDialect.h"		#include "mlir/Dialect/LLVMIR/LLVMDialect.h"
#include "mlir/Dialect/LLVMIR/LLVMTypes.h"		#include "mlir/Dialect/LLVMIR/LLVMTypes.h"
#include "mlir/Dialect/LLVMIR/NVVMDialect.h"		#include "mlir/Dialect/LLVMIR/NVVMDialect.h"
#include "mlir/Dialect/MemRef/IR/MemRef.h"		#include "mlir/Dialect/MemRef/IR/MemRef.h"
#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h"		#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h"
		#include "mlir/Dialect/Vector/IR/VectorOps.h"
#include "mlir/IR/PatternMatch.h"		#include "mlir/IR/PatternMatch.h"
#include "mlir/IR/TypeUtilities.h"		#include "mlir/IR/TypeUtilities.h"
#include "mlir/Pass/Pass.h"		#include "mlir/Pass/Pass.h"
		#include "llvm/Support/Debug.h"
#include "llvm/Support/raw_ostream.h"		#include "llvm/Support/raw_ostream.h"

		#define DEBUG_TYPE "nvgpu-to-nvvm"
		#define DBGS() (llvm::dbgs() << '[' << DEBUG_TYPE << "] ")
		#define DBGSE() (llvm::dbgs())

namespace mlir {		namespace mlir {
#define GEN_PASS_DEF_CONVERTNVGPUTONVVMPASS		#define GEN_PASS_DEF_CONVERTNVGPUTONVVMPASS
#include "mlir/Conversion/Passes.h.inc"		#include "mlir/Conversion/Passes.h.inc"
} // namespace mlir		} // namespace mlir

using namespace mlir;		using namespace mlir;

		/// Number of bits that needs to excluded when building matrix descriptor for
		/// wgmma operations.
		constexpr int exclude4LSB = 4;

/// GPU has 32 bit registers, this function truncates values when larger width		/// GPU has 32 bit registers, this function truncates values when larger width
/// is not needed.		/// is not needed.
static Value truncToI32(ConversionPatternRewriter &rewriter, Location loc,		static Value truncToI32(ConversionPatternRewriter &rewriter, Location loc,
Value value) {		Value value) {
Type type = value.getType();		Type type = value.getType();
assert(llvm::isa<IntegerType>(type) && "expected an integer Value");		assert(llvm::isa<IntegerType>(type) && "expected an integer Value");
if (type.getIntOrFloatBitWidth() <= 32)		if (type.getIntOrFloatBitWidth() <= 32)
return value;		return value;
▲ Show 20 Lines • Show All 353 Lines • ▼ Show 20 Lines	struct MmaSyncOptoNVVM : public ConvertOpToLLVMPattern<nvgpu::MmaSyncOp> {
}		}
};		};

struct ConvertNVGPUToNVVMPass		struct ConvertNVGPUToNVVMPass
: public impl::ConvertNVGPUToNVVMPassBase<ConvertNVGPUToNVVMPass> {		: public impl::ConvertNVGPUToNVVMPassBase<ConvertNVGPUToNVVMPass> {
using Base::Base;		using Base::Base;

void getDependentDialects(DialectRegistry &registry) const override {		void getDependentDialects(DialectRegistry &registry) const override {
registry		registry.insert<memref::MemRefDialect, LLVM::LLVMDialect, NVVM::NVVMDialect,
.insert<memref::MemRefDialect, LLVM::LLVMDialect, NVVM::NVVMDialect>();		vector::VectorDialect>();
}		}

void runOnOperation() override {		void runOnOperation() override {
LowerToLLVMOptions options(&getContext());		LowerToLLVMOptions options(&getContext());
options.useOpaquePointers = useOpaquePointers;		options.useOpaquePointers = useOpaquePointers;
RewritePatternSet patterns(&getContext());		RewritePatternSet patterns(&getContext());
LLVMTypeConverter converter(&getContext(), options);		LLVMTypeConverter converter(&getContext(), options);
IRRewriter rewriter(&getContext());		IRRewriter rewriter(&getContext());
Show All 16 Lines	void runOnOperation() override {
});		});
converter.addConversion([&](nvgpu::TensorMapDescriptorType type) -> Type {		converter.addConversion([&](nvgpu::TensorMapDescriptorType type) -> Type {
return converter.getPointerType(type.getTensor().getElementType());		return converter.getPointerType(type.getTensor().getElementType());
});		});
populateNVGPUToNVVMConversionPatterns(converter, patterns);		populateNVGPUToNVVMConversionPatterns(converter, patterns);
LLVMConversionTarget target(getContext());		LLVMConversionTarget target(getContext());
target.addLegalDialect<::mlir::LLVM::LLVMDialect>();		target.addLegalDialect<::mlir::LLVM::LLVMDialect>();
target.addLegalDialect<::mlir::memref::MemRefDialect>();		target.addLegalDialect<::mlir::memref::MemRefDialect>();
		target.addLegalDialect<::mlir::vector::VectorDialect>();
target.addLegalDialect<::mlir::NVVM::NVVMDialect>();		target.addLegalDialect<::mlir::NVVM::NVVMDialect>();
if (failed(applyPartialConversion(getOperation(), target,		if (failed(applyPartialConversion(getOperation(), target,
std::move(patterns))))		std::move(patterns))))
signalPassFailure();		signalPassFailure();
}		}
};		};

/// Returns the constraints for the sparse MMA inline assembly instruction.		/// Returns the constraints for the sparse MMA inline assembly instruction.
▲ Show 20 Lines • Show All 531 Lines • ▼ Show 20 Lines	matchAndRewrite(nvgpu::GenerateGmmaDescriptorOp op, OpAdaptor adaptor,
auto shiftRight = [&](Value value, unsigned shift) -> Value {		auto shiftRight = [&](Value value, unsigned shift) -> Value {
return rewriter.create<LLVM::LShrOp>(loc, ti64, value, makeConst(shift));		return rewriter.create<LLVM::LShrOp>(loc, ti64, value, makeConst(shift));
};		};
auto insertBit = [&](Value desc, Value val, int startBit) {		auto insertBit = [&](Value desc, Value val, int startBit) {
return rewriter.create<LLVM::OrOp>(loc, ti64, desc,		return rewriter.create<LLVM::OrOp>(loc, ti64, desc,
shiftLeft(val, startBit));		shiftLeft(val, startBit));
};		};

int ex4LSB = 4;		Value strideDim = makeConst((layout << 3) >> exclude4LSB);
Value strideDim = makeConst((layout << 3) >> ex4LSB);
int64_t sizeN = op.getTensorMap().getType().getTensor().getDimSize(0);		int64_t sizeN = op.getTensorMap().getType().getTensor().getDimSize(0);
Value leadDim = makeConst((sizeN * layout) >> ex4LSB);		Value leadDim = makeConst((sizeN * layout) >> exclude4LSB);
Value baseAddr = getStridedElementPtr(		Value baseAddr = getStridedElementPtr(
op->getLoc(), cast<MemRefType>(op.getTensor().getType()),		op->getLoc(), cast<MemRefType>(op.getTensor().getType()),
adaptor.getTensor(), {}, rewriter);		adaptor.getTensor(), {}, rewriter);
Value basePtr = rewriter.create<LLVM::PtrToIntOp>(loc, ti64, baseAddr);		Value basePtr = rewriter.create<LLVM::PtrToIntOp>(loc, ti64, baseAddr);
// Just use 14 bits for base address		// Just use 14 bits for base address
Value basePtr14bit = shiftRight(shiftLeft(basePtr, 46), 50);		Value basePtr14bit = shiftRight(shiftLeft(basePtr, 46), 50);

int startSwizzleBit = 62, startOffsetBit = 49, startStrideBit = 32,		int startSwizzleBit = 62, startOffsetBit = 49, startStrideBit = 32,
▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	matchAndRewrite(nvgpu::TmaCreateDescriptorOp op, OpAdaptor adaptor,
Value tensorMap =		Value tensorMap =
hostRegisterCallBuilder.create(loc, rewriter, arguments).getResult();		hostRegisterCallBuilder.create(loc, rewriter, arguments).getResult();

rewriter.replaceOp(op, tensorMap);		rewriter.replaceOp(op, tensorMap);
return success();		return success();
}		}
};		};

		struct NVGPUWarpgroupMmaOpLowering
		: public ConvertOpToLLVMPattern<nvgpu::WarpgroupMmaOp> {
		using ConvertOpToLLVMPattern<nvgpu::WarpgroupMmaOp>::ConvertOpToLLVMPattern;

		LogicalResult getWgmmaShape(int64_t sizeM, int64_t sizeN, Type inputElemType,
		int &wgmmaShapeM, int &wgmmaShapeN,
		int &wgmmaShapeK) const {
		wgmmaShapeM = 64;
		wgmmaShapeN = sizeN;
		if (inputElemType.isTF32()) {
		wgmmaShapeK = 8;
		} else if (inputElemType.isF16() \|\| inputElemType.isBF16()) {
		wgmmaShapeK = 16;
		} else if (inputElemType.isFloat8E4M3FN() \|\| inputElemType.isFloat8E5M2() \|\|
		inputElemType.isInteger(16)) {
		wgmmaShapeK = 32;
		} else if (inputElemType.isInteger(1)) {
		wgmmaShapeK = 256;
		} else {
		return failure();
		}
		LLVM_DEBUG(DBGS() << "Generating wgmma.mma.async shape[m = " << wgmmaShapeM
		<< ", n = " << wgmmaShapeN << ", k = " << wgmmaShapeK
		<< "]\n");
		return success();
		}

		Value generateNVVMWgmmaOp(MLIRContext *ctx,
		ConversionPatternRewriter &rewriter, Location loc,
		int m, int n, int k, Type resultStructType,
		Value inout, Value descriptorA,
		Value descriptorB) const {
		TypeRange resultTypes = {resultStructType};
		auto shape = NVVM::MMAShapeAttr::get(ctx, m, n, k);
		auto scaleOut = NVVM::WGMMAScaleOutAttr::get(ctx, NVVM::WGMMAScaleOut::one);
		auto scaleIn = NVVM::WGMMAScaleInAttr::get(ctx, NVVM::WGMMAScaleIn::one);
		auto layoutA = NVVM::MMALayoutAttr::get(ctx, NVVM::MMALayout::row);
		auto layoutB = NVVM::MMALayoutAttr::get(ctx, NVVM::MMALayout::col);
		// todo input type
		auto itype = NVVM::WGMMATypesAttr::get(ctx, NVVM::WGMMATypes::f16);
		auto overflow =
		NVVM::MMAIntOverflowAttr::get(ctx, NVVM::MMAIntOverflow::wrapped);
		Value res = rewriter.create<NVVM::WgmmaMmaAsyncOp>(
		loc, resultTypes, inout, descriptorA, descriptorB, shape, itype, itype,
		scaleOut, scaleIn, scaleIn, layoutA, layoutB, overflow);
		return res;
		}

		static Type buildOutputStructType(MLIRContext *ctx, Type outElemType,
		int sizeN) {
		int outputElements = 0;
		if (outElemType.isF32() \|\| outElemType.isInteger(32))
		outputElements = sizeN / 2;
		if (outElemType.isF16())
		outputElements = sizeN / 4;
		SmallVector<Type> structBody;
		for (int i = 0; i < outputElements; i++)
		structBody.push_back(outElemType);
		return LLVM::LLVMStructType::getLiteral(ctx, structBody);
		}

		LogicalResult
		matchAndRewrite(nvgpu::WarpgroupMmaOp op, OpAdaptor adaptor,
		ConversionPatternRewriter &rewriter) const override {
		SmallVector<Value> wgmmaResults;

		int64_t sizeM = op.getMatrixC().getType().getDimSize(0);
		int64_t sizeN = op.getMatrixC().getType().getDimSize(1);
		int64_t sizeK = op.getDescriptorA().getType().getTensor().getDimSize(1);

		LLVM_DEBUG(DBGS() << "===--- GEMM D[" << sizeM << "][" << sizeN << "] += A["
		<< sizeM << "][" << sizeK << "] * B[" << sizeK << "]["
		<< sizeN << "] ---===\n");

		int wgmmaShapeM, wgmmaShapeN, wgmmaShapeK;
		if (failed(getWgmmaShape(sizeM, sizeN, rewriter.getF16Type(), wgmmaShapeM,
		wgmmaShapeN, wgmmaShapeK))) {
		return failure();
		}

		Value descriptorA = adaptor.getDescriptorA();
		Value descriptorB = adaptor.getDescriptorB();

		// Generate wgmma group

		auto loc = op->getLoc();
		Type outElemType = op.getMatrixC().getType().getElementType();
		Type stype = buildOutputStructType(op->getContext(), outElemType, sizeN);
		MemRefType typeTensorA = op.getDescriptorA().getType().getTensor();
		MemRefType typeTensorB = op.getDescriptorB().getType().getTensor();

		auto makeAdd = [&](Value lhs, Value rhs) -> Value {
		return rewriter.create<LLVM::AddOp>(loc, lhs.getType(), lhs, rhs);
		};

		auto iterateDescA = [&](Value desc, int iterM, int iterN,
		int iterK) -> Value {
		// todo : Handle column major
		int byte = typeTensorA.getElementTypeBitWidth() / 8;
		int tileShapeA = typeTensorA.getDimSize(1);
		int incrementVal =
		((wgmmaShapeK * iterK) + (sizeK * tileShapeA * iterM)) * byte;
		incrementVal = incrementVal >> exclude4LSB;
		LLVM_DEBUG(DBGS() << "\t\t[m: " << iterM << " n: " << iterN << " k: "
		<< iterK << "] [wgmma descriptors] Descriptor A + "
		<< incrementVal << " \| \t ");
		return incrementVal
		? makeAdd(desc, makeI64Const(rewriter, op, incrementVal))
		: desc;
		};

		auto iterateDescB = [&](Value desc, int iterM, int iterN,
		int iterK) -> Value {
		// todo : Handle row major
		int byte = typeTensorB.getElementTypeBitWidth() / 8;
		int incrementVal = typeTensorB.getDimSize(0) * wgmmaShapeK * iterK * byte;
		incrementVal = incrementVal >> exclude4LSB;
		LLVM_DEBUG(DBGSE() << "Descriptor B + " << incrementVal << "\n");
		return incrementVal
		? makeAdd(desc, makeI64Const(rewriter, op, incrementVal))
		: desc;
		};

		rewriter.create<NVVM::WgmmaFenceAlignedOp>(loc);
		for (int iterM = 0; iterM < (sizeM / wgmmaShapeM); iterM++) {
		Value undefOp = rewriter.create<LLVM::UndefOp>(loc, stype);
		Value inout = undefOp;
		LLVM_DEBUG(DBGS() << " D[" << (iterM * wgmmaShapeM) << ":"
		<< (iterM * wgmmaShapeM) + wgmmaShapeM << "][" << 0
		<< ":" << wgmmaShapeN << "] += \n");
		for (int iterK = 0; iterK < (sizeK / wgmmaShapeK); iterK++) {
		Value descA = iterateDescA(descriptorA, iterM, 0, iterK);
		Value descB = iterateDescB(descriptorB, iterM, 0, iterK);
		LLVM_DEBUG(DBGS() << "\t wgmma."
		<< "m" << wgmmaShapeM << "n" << wgmmaShapeN << "k"
		<< wgmmaShapeK << "(A[" << (iterM * wgmmaShapeM)
		<< ":" << (iterM * wgmmaShapeM) + wgmmaShapeM << "]["
		<< (iterK * wgmmaShapeK) << ":"
		<< (iterK * wgmmaShapeK + wgmmaShapeK) << "] * "
		<< " B[" << (iterK * wgmmaShapeK) << ":"
		<< (iterK * wgmmaShapeK + wgmmaShapeK) << "][" << 0
		<< ":" << wgmmaShapeN << "])\n");
		inout = generateNVVMWgmmaOp(op->getContext(), rewriter, loc,
		wgmmaShapeM, wgmmaShapeN, wgmmaShapeK,
		stype, inout, descA, descB);
		}
		wgmmaResults.push_back(inout);
		}

		rewriter.create<NVVM::WgmmaGroupSyncAlignedOp>(loc);
		rewriter.create<NVVM::WgmmaWaitGroupSyncOp>(loc, op.getWaitGroup());

		ValueRange myres(wgmmaResults);
		rewriter.replaceOp(op, myres);
		return success();
		}
		};

} // namespace		} // namespace

void mlir::populateNVGPUToNVVMConversionPatterns(LLVMTypeConverter &converter,		void mlir::populateNVGPUToNVVMConversionPatterns(LLVMTypeConverter &converter,
RewritePatternSet &patterns) {		RewritePatternSet &patterns) {
patterns.add<		patterns.add<
NVGPUMBarrierCreateLowering, // nvgpu.mbarrier.create		NVGPUMBarrierCreateLowering, // nvgpu.mbarrier.create
NVGPUMBarrierInitLowering, // nvgpu.mbarrier.init		NVGPUMBarrierInitLowering, // nvgpu.mbarrier.init
NVGPUMBarrierArriveLowering, // nvgpu.mbarrier.arrive		NVGPUMBarrierArriveLowering, // nvgpu.mbarrier.arrive
NVGPUMBarrierArriveNoCompleteLowering, // nvgpu.mbarrier.arrive.no_complete		NVGPUMBarrierArriveNoCompleteLowering, // nvgpu.mbarrier.arrive.no_complete
NVGPUMBarrierTestWaitLowering, // nvgpu.mbarrier.test_wait_parity		NVGPUMBarrierTestWaitLowering, // nvgpu.mbarrier.test_wait_parity
NVGPUMBarrierTryWaitParityLowering, // nvgpu.mbarrier.try_wait_parity		NVGPUMBarrierTryWaitParityLowering, // nvgpu.mbarrier.try_wait_parity
NVGPUTmaAsyncLoadOpLowering, // nvgpu.tma.async.load		NVGPUTmaAsyncLoadOpLowering, // nvgpu.tma.async.load
NVGPUTmaCreateDescriptorOpLowering, // nvgpu.tma.create.descriptor		NVGPUTmaCreateDescriptorOpLowering, // nvgpu.tma.create.descriptor
NVGPUMBarrierArriveExpectTxLowering, // nvgpu.mbarrier.arrive.expect_tx		NVGPUMBarrierArriveExpectTxLowering, // nvgpu.mbarrier.arrive.expect_tx
NVGPUGenerateGmmaDescriptorLowering, // nvgpu.wgmma.generate.descriptor		NVGPUGenerateGmmaDescriptorLowering, // nvgpu.wgmma.generate.descriptor
		NVGPUWarpgroupMmaOpLowering, // nvgpu.wargroup.mma
MmaSyncOptoNVVM, MmaLdMatrixOpToNVVM, NVGPUAsyncCopyLowering,		MmaSyncOptoNVVM, MmaLdMatrixOpToNVVM, NVGPUAsyncCopyLowering,
NVGPUAsyncCreateGroupLowering, NVGPUAsyncWaitLowering,		NVGPUAsyncCreateGroupLowering, NVGPUAsyncWaitLowering,
NVGPUMmaSparseSyncLowering>(converter);		NVGPUMmaSparseSyncLowering>(converter);
}		}

mlir/lib/Dialect/NVGPU/IR/NVGPUDialect.cpp

Show First 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	static LogicalResult verifyMmaSyncOp(Operation *op,

// The verification for mma.sync covering various shapes and data types is		// The verification for mma.sync covering various shapes and data types is
// based on the fundamental tensor core shape.		// based on the fundamental tensor core shape.

// "Fundamental" tensor core shapes:		// "Fundamental" tensor core shapes:
// - For F32 (TF32), F16, S8, and S4 data		// - For F32 (TF32), F16, S8, and S4 data
// types the fundamental tensor core operation is of shape 8-by-8-by-128b.		// types the fundamental tensor core operation is of shape 8-by-8-by-128b.
// - F64 is an exception and is of shape 8-by-8-by-256b.		// - F64 is an exception and is of shape 8-by-8-by-256b.
constexpr int kThreads = 32; // 32 threads per warp
int64_t shapeM = 8;		int64_t shapeM = 8;
int64_t shapeN = 8;		int64_t shapeN = 8;
int64_t shapeK; // set based on data type (128b for all data types except F64)		int64_t shapeK; // set based on data type (128b for all data types except F64)

// Number of elements A, B, and C per thread per fundamental tensor core tile		// Number of elements A, B, and C per thread per fundamental tensor core tile
int64_t numElementA; // set based on data type (32b except F64)		int64_t numElementA; // set based on data type (32b except F64)
int64_t numElementB; // set based on data type (32b except F64)		int64_t numElementB; // set based on data type (32b except F64)
int64_t numElementC{2}; // two accumulator elements per fundamental tile		int64_t numElementC{2}; // two accumulator elements per fundamental tile
Show All 38 Lines	static LogicalResult verifyMmaSyncOp(Operation *op,
//		//
// Basic verification		// Basic verification
//		//

auto [m, n, k] = mmaShape;		auto [m, n, k] = mmaShape;

// verify warp-wide size for vector a		// verify warp-wide size for vector a
int64_t sparseFactor = sparse ? 2 : 1;		int64_t sparseFactor = sparse ? 2 : 1;
if (aShape[0] * aShape[1] * kThreads != m * k / sparseFactor)		if (aShape[0] * aShape[1] * kWarpSize != m * k / sparseFactor)
return op->emitOpError()		return op->emitOpError()
<< "expected " << m * k << " warp-wide matrix A elements";		<< "expected " << m * k << " warp-wide matrix A elements";

// verify warp-wide size for vector b		// verify warp-wide size for vector b
if (bShape[0] * bShape[1] * kThreads != k * n)		if (bShape[0] * bShape[1] * kWarpSize != k * n)
return op->emitOpError()		return op->emitOpError()
<< "expected " << k * n << " warp-wide matrix B elements";		<< "expected " << k * n << " warp-wide matrix B elements";

// verify warp-wide size for vector c		// verify warp-wide size for vector c
if (cShape[0] * cShape[1] * kThreads != m * n)		if (cShape[0] * cShape[1] * kWarpSize != m * n)
return op->emitOpError()		return op->emitOpError()
<< "expected " << m * n << " warp-wide matrix C elements";		<< "expected " << m * n << " warp-wide matrix C elements";

// verify tf32 tensor cores are enabled for only F32 datatype		// verify tf32 tensor cores are enabled for only F32 datatype
if (tf32Enabled && !(aType.isF32()))		if (tf32Enabled && !(aType.isF32()))
return op->emitOpError()		return op->emitOpError()
<< "expected tf32 tensor cores only for F32 operands";		<< "expected tf32 tensor cores only for F32 operands";

▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines	return emitError() << "supports only "
TensorMapInterleaveKind::INTERLEAVE_NONE)		TensorMapInterleaveKind::INTERLEAVE_NONE)
<< " is supported for the time being";		<< " is supported for the time being";
}		}

return success();		return success();
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
		// WarpgroupMmaOp
		//===----------------------------------------------------------------------===//

		LogicalResult isAllowedWGMMADataType(Type typeD, Type typeA, Type typeB) {
		// F32 += F16 + F16
		// F16 += F16 + F16
		if (typeA.isF16() && typeB.isF16() && (typeD.isF32() \|\| typeD.isF16()))
		return success();
		// F32 += TF32 + TF32
		if (typeA.isTF32() && typeD.isF32() && typeB.isTF32())
		return success();
		// s32 += i8 + i8
		if (typeA.isInteger(16) && typeB.isInteger(16) && typeD.isInteger(32))
		return success();
		// s32 += i1 + i1
		if (typeA.isInteger(1) && typeB.isInteger(1) && typeD.isInteger(32))
		return success();
		// F32 += BF16 + BF16
		// F16 += BF16 + BF16
		if (typeA.isBF16() && typeB.isBF16() && (typeD.isF32() \|\| typeD.isF16()))
		return success();
		// F16 += f8 + f8
		// F32 += f8 + f8
		if ((typeA.isFloat8E5M2() \|\| typeA.isFloat8E4M3FN()) &&
		(typeB.isFloat8E5M2() \|\| typeB.isFloat8E4M3FN()) &&
		(typeD.isF32() \|\| typeD.isF16()))
		return success();

		return failure();
		}

		LogicalResult isAllowedSizeN(int sizeN, Type typeA) {
		SmallVector<int> allowedN = {8, 16, 24, 32, 40, 48, 56, 64,
		72, 80, 88, 96, 104, 112, 120, 128,
		136, 144, 152, 160, 168, 176, 184, 192,
		200, 208, 216, 224, 232, 240, 248, 256};
		SmallVector<int> allowedNshort = {8, 16, 24, 32, 48, 64,
		80, 96, 112, 128, 144, 160,
		176, 192, 208, 224, 240, 256};
		if (typeA.isBF16() \|\| typeA.isF16() \|\| typeA.isTF32() \|\|
		typeA.isFloat8E4M3FN() \|\| typeA.isFloat8E5M2())
		if (llvm::any_of(allowedN, [&](int n) { return sizeN == n; }))
		return success();

		if (typeA.isInteger(8) \|\| typeA.isInteger(1))
		if (llvm::any_of(allowedNshort, [&](int n) { return sizeN == n; }))
		return success();
		return failure();
		}

		LogicalResult WarpgroupMmaOp::verify() {
		if (getTransposeA() && !getTransposeB())
		return emitOpError() << "supports non-transpose A (Row Major) "
		"and transpose B (Column Major) for the time being";
		auto matrixA = getDescriptorA().getType().getTensor();
		auto matrixB = getDescriptorB().getType().getTensor();
		auto matrixC = getMatrixC().getType();
		if (matrixA.getRank() != 2 \|\| matrixB.getRank() != 2 \|\|
		matrixC.getRank() != 2)
		return emitOpError()
		<< "has input matrices A, B and D, they must be 2 dimensional";

		if (matrixA.getShape()[1] != matrixB.getShape()[0])
		return emitOpError() << "2nd dim matrix-A (" << matrixA.getShape()[1]
		<< ")!= 1st dim matrix-B (" << matrixB.getShape()[0]
		<< " )";
		if (matrixA.getShape()[0] != matrixC.getShape()[0])
		return emitOpError() << "1st dim matrix-A ( " << matrixA.getShape()[0]
		<< " )!= 1st dim matrix-C ( " << matrixC.getShape()[0]
		<< " )";
		if (matrixB.getShape()[1] != matrixC.getShape()[1])
		return emitOpError() << "2nd dim matrix-B ( " << matrixB.getShape()[1]
		<< " ) != 2nd dim matrix-C ( " << matrixC.getShape()[1]
		<< " )";

		if (failed(isAllowedWGMMADataType(matrixC.getElementType(),
		matrixA.getElementType(),
		matrixB.getElementType())))
		return emitOpError() << matrixC.getElementType()
		<< " += " << matrixA.getElementType() << " * "
		<< matrixB.getElementType()
		<< ", it is not supported.";
		// Check N
		if (failed(isAllowedSizeN(matrixB.getDimSize(1), matrixA.getElementType()))) {
		return emitOpError() << "has input type " << matrixB << " n is set to "
		<< matrixB.getDimSize(1) << ", it is not supported";
		}

		// Currently, f16/bf16 supported
		if (!matrixC.getElementType().isF32() && !matrixA.getElementType().isF16() &&
		!matrixA.getElementType().isBF16()) {
		return emitOpError() << "hit a limitation: " << matrixC.getElementType()
		<< " += " << matrixA.getElementType() << " * "
		<< matrixB.getElementType()
		<< ", it is not supported yet";
		}

		return success();
		}

		//===----------------------------------------------------------------------===//
// TableGen'd dialect, type, and op definitions		// TableGen'd dialect, type, and op definitions
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

#define GET_ATTRDEF_CLASSES		#define GET_ATTRDEF_CLASSES
#include "mlir/Dialect/NVGPU/IR/NVGPUAttrDefs.cpp.inc"		#include "mlir/Dialect/NVGPU/IR/NVGPUAttrDefs.cpp.inc"

#include "mlir/Dialect/NVGPU/IR/NVGPUEnums.cpp.inc"		#include "mlir/Dialect/NVGPU/IR/NVGPUEnums.cpp.inc"

#define GET_OP_CLASSES		#define GET_OP_CLASSES
#include "mlir/Dialect/NVGPU/IR/NVGPU.cpp.inc"		#include "mlir/Dialect/NVGPU/IR/NVGPU.cpp.inc"

#define GET_TYPEDEF_CLASSES		#define GET_TYPEDEF_CLASSES
#include "mlir/Dialect/NVGPU/IR/NVGPUTypes.cpp.inc"		#include "mlir/Dialect/NVGPU/IR/NVGPUTypes.cpp.inc"

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

Show First 20 Lines • Show All 666 Lines • ▼ Show 20 Lines	%lhsShmem = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [128,64], strides: [64,1] : memref<0xf16, 3> to memref<128x64xf16,3>
// CHECK: %[[S26:.+]] = llvm.shl %[[S7]], %[[S25]] : i64		// CHECK: %[[S26:.+]] = llvm.shl %[[S7]], %[[S25]] : i64
// CHECK: %[[S27:.+]] = llvm.or %[[S24]], %[[S26]] : i64		// CHECK: %[[S27:.+]] = llvm.or %[[S24]], %[[S26]] : i64
// CHECK: %[[ret:.+]] = builtin.unrealized_conversion_cast %[[S27]] : i64 to !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>		// CHECK: %[[ret:.+]] = builtin.unrealized_conversion_cast %[[S27]] : i64 to !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>
// CHECK: return %[[ret]]		// CHECK: return %[[ret]]
%descA = nvgpu.wgmma.generate.descriptor %lhsShmem, %tensorMap : memref<128x64xf16,3>, !tensorMap -> !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>		%descA = nvgpu.wgmma.generate.descriptor %lhsShmem, %tensorMap : memref<128x64xf16,3>, !tensorMap -> !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>
func.return %descA : !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>		func.return %descA : !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>
}		}

		!accMatrixStruct = !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
		f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
		f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
		f32, f32, f32, f32, f32, f32)>

		// CHECK-LABEL: @warpgroup_mma_128_128_64(
		// CHECK-SAME: %[[arg0:[a-zA-Z0-9_]+]]: !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>, %[[arg1:[a-zA-Z0-9_]+]]: !nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>, %[[arg2:[a-zA-Z0-9_]+]]: memref<128x128xf32, 3>)
		func.func @warpgroup_mma_128_128_64(
		%descA: !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>,
		%descB: !nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>,
		%D: memref<128x128xf32,3>)
		{
		// CHECK: %[[S0:.+]] = builtin.unrealized_conversion_cast %arg0 : !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>> to i64
		// CHECK: %[[S1:.+]] = builtin.unrealized_conversion_cast %arg1 : !nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>> to i64
		// CHECK: nvvm.wgmma.fence.aligned
		// CHECK: %[[S3:.+]] = llvm.mlir.undef : !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32)>
		// CHECK: %[[S4:.+]] = nvvm.wgmma.mma_async %[[S0]], %[[S1]], <m = 64, n = 128, k = 16>, D[%3, <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32)> -> !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32)>
		// CHECK: %[[S5:.+]] = llvm.mlir.constant(2 : i32) : i64
		// CHECK: %[[S6:.+]] = llvm.add %[[S0]], %[[S5]] : i64
		// CHECK: %[[S7:.+]] = llvm.mlir.constant(128 : i32) : i64
		// CHECK: %[[S8:.+]] = llvm.add %[[S1]], %[[S7]] : i64
		// CHECK: %[[S9:.+]] = nvvm.wgmma.mma_async %[[S6]], %[[S8]], <m = 64, n = 128, k = 16>, D[%[[S4]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S10:.+]] = llvm.mlir.constant(4 : i32) : i64
		// CHECK: %[[S11:.+]] = llvm.add %[[S0]], %[[S10]] : i64
		// CHECK: %[[S12:.+]] = llvm.mlir.constant(256 : i32) : i64
		// CHECK: %[[S13:.+]] = llvm.add %[[S1]], %[[S12]] : i64
		// CHECK: %[[S14:.+]] = nvvm.wgmma.mma_async %[[S11]], %[[S13]], <m = 64, n = 128, k = 16>, D[%[[S9]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S15:.+]] = llvm.mlir.constant(6 : i32) : i64
		// CHECK: %[[S16:.+]] = llvm.add %[[S0]], %[[S15]] : i64
		// CHECK: %[[S17:.+]] = llvm.mlir.constant(384 : i32) : i64
		// CHECK: %[[S18:.+]] = llvm.add %[[S1]], %[[S17]] : i64
		// CHECK: %[[S19:.+]] = nvvm.wgmma.mma_async %[[S16]], %[[S18]], <m = 64, n = 128, k = 16>, D[%[[S14]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S20:.+]] = llvm.mlir.undef : !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32)>
		// CHECK: %[[S21:.+]] = llvm.mlir.constant(512 : i32) : i64
		// CHECK: %[[S22:.+]] = llvm.add %[[S0]], %[[S21]] : i64
		// CHECK: %[[S23:.+]] = nvvm.wgmma.mma_async %[[S22]], %[[S1]], <m = 64, n = 128, k = 16>, D[%[[S20]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S24:.+]] = llvm.mlir.constant(514 : i32) : i64
		// CHECK: %[[S25:.+]] = llvm.add %[[S0]], %[[S24]] : i64
		// CHECK: %[[S26:.+]] = llvm.mlir.constant(128 : i32) : i64
		// CHECK: %[[S27:.+]] = llvm.add %[[S1]], %[[S26]] : i64
		// CHECK: %[[S28:.+]] = nvvm.wgmma.mma_async %[[S25]], %[[S27]], <m = 64, n = 128, k = 16>, D[%[[S23]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S29:.+]] = llvm.mlir.constant(516 : i32) : i64
		// CHECK: %[[S30:.+]] = llvm.add %[[S0]], %[[S29]] : i64
		// CHECK: %[[S31:.+]] = llvm.mlir.constant(256 : i32) : i64
		// CHECK: %[[S32:.+]] = llvm.add %[[S1]], %[[S31]] : i64
		// CHECK: %[[S33:.+]] = nvvm.wgmma.mma_async %[[S30]], %[[S32]], <m = 64, n = 128, k = 16>, D[%[[S28]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: %[[S34:.+]] = llvm.mlir.constant(518 : i32) : i64
		// CHECK: %[[S35:.+]] = llvm.add %[[S0]], %[[S34]] : i64
		// CHECK: %[[S36:.+]] = llvm.mlir.constant(384 : i32) : i64
		// CHECK: %[[S37:.+]] = llvm.add %[[S1]], %[[S36]] : i64
		// CHECK: %[[S38:.+]] = nvvm.wgmma.mma_async %[[S35]], %[[S37]], <m = 64, n = 128, k = 16>, D[%[[S33]], <one>, <wrapped>], A[<f16>, <one>, <row>], B[<f16>, <one>, <col>] : !llvm.struct
		// CHECK: nvvm.wgmma.commit.group.sync.aligned
		// CHECK: nvvm.wgmma.wait.group.sync.aligned 1
		%c0 = arith.constant 0 : index
		%f0 = arith.constant 0.0 : f32
		%acc = vector.transfer_read %D[%c0, %c0], %f0 {in_bounds = [true, true]} : memref<128x128xf32,3>, vector<128x128xf32>
		%wgmmaResult, %wgmmaResult2 = nvgpu.wargroup.mma %descA, %descB, %acc, group = 1 {transposeB}:
		!nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>,
		!nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>,
		vector<128x128xf32> -> !nvgpu.warpgroup.result<tensor = !accMatrixStruct>, !nvgpu.warpgroup.result<tensor = !accMatrixStruct>

		return
		}

transform.sequence failures(propagate) {		transform.sequence failures(propagate) {
^bb1(%arg1: !transform.any_op):		^bb1(%arg1: !transform.any_op):
%0 = transform.structured.match ops{["func.func"]} in %arg1		%0 = transform.structured.match ops{["func.func"]} in %arg1
: (!transform.any_op) -> !transform.any_op		: (!transform.any_op) -> !transform.any_op
transform.apply_conversion_patterns to %0 {		transform.apply_conversion_patterns to %0 {
transform.apply_conversion_patterns.nvgpu.nvgpu_to_nvvm		transform.apply_conversion_patterns.nvgpu.nvgpu_to_nvvm
} with type_converter {		} with type_converter {
transform.apply_conversion_patterns.memref.memref_to_llvm_type_converter		transform.apply_conversion_patterns.memref.memref_to_llvm_type_converter
{use_opaque_pointers = true}		{use_opaque_pointers = true}
} {legal_dialects = ["arith", "func", "llvm", "memref", "nvvm", "scf"], partial_conversion} : !transform.any_op		} {legal_dialects = ["arith", "func", "llvm", "memref", "nvvm", "vector", "scf"], partial_conversion} : !transform.any_op
}		}
No newline at end of file		No newline at end of file

mlir/test/Dialect/NVGPU/invalid.mlir

	Show First 20 Lines • Show All 215 Lines • ▼ Show 20 Lines
	// -----			// -----

	func.func @async_cp_size_invalid_f64(			func.func @async_cp_size_invalid_f64(
	%src: memref<128x128xf64>, %dst: memref<3x16x128xf64, 3>, %i : index) {			%src: memref<128x128xf64>, %dst: memref<3x16x128xf64, 3>, %i : index) {
	// expected-error @+1 {{Requested copy elements is 3 with width 64. But copy elements could be one of 1, 2.}}			// expected-error @+1 {{Requested copy elements is 3 with width 64. But copy elements could be one of 1, 2.}}
	%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i, %i], 3: memref<128x128xf64> to memref<3x16x128xf64, 3>			%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i, %i], 3: memref<128x128xf64> to memref<3x16x128xf64, 3>
	return			return
	}			}

				// -----

				!accMatrixStruct = !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32)>
				!tResult = !nvgpu.warpgroup.result<tensor = !accMatrixStruct>
				!tDescA = !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>
				!tDescB = !nvgpu.wgmma.descriptor<tensor = memref<64x121xf16, 3>>

				func.func @warpgroup_mma_wrong_input(%descA: !tDescA, %descB: !tDescB, %D: vector<128x128xf32>) {
				// expected-error @+1 {{'nvgpu.wargroup.mma' op 2nd dim matrix-B ( 121 ) != 2nd dim matrix-C ( 128 )}}
				%0:2 = nvgpu.wargroup.mma %descA, %descB, %D: !tDescA, !tDescB, vector<128x128xf32> -> !tResult, !tResult
				return
				}

				// -----

				!accMatrixStruct = !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32)>
				!tResult = !nvgpu.warpgroup.result<tensor = !accMatrixStruct>
				!tDescA = !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>
				!tDescB = !nvgpu.wgmma.descriptor<tensor = memref<64x128xf16, 3>>
				func.func @warpgroup_mma_wrong_accumulator(%descA: !tDescA, %descB: !tDescB, %D: vector<128xf32>) {
				// expected-error @+1 {{'nvgpu.wargroup.mma' op has input matrices A, B and D, they must be 2 dimensional}}
				%0:2 = nvgpu.wargroup.mma %descA, %descB, %D: !tDescA, !tDescB, vector<128xf32> -> !tResult, !tResult
				return
				}

				// -----

				!accMatrixStruct = !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32)>
				!tResult = !nvgpu.warpgroup.result<tensor = !accMatrixStruct>
				!tDescA = !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>
				!tDescB = !nvgpu.wgmma.descriptor<tensor = memref<64x128xf32, 3>>
				func.func @warpgroup_mma_wrong_datatypes(%descA: !tDescA, %descB: !tDescB, %D: vector<128x128xf32>) {
				// expected-error @+1 {{'nvgpu.wargroup.mma' op 'f32' += 'f16' * 'f32', it is not supported.}}
				%0:2 = nvgpu.wargroup.mma %descA, %descB, %D: !tDescA, !tDescB, vector<128x128xf32> -> !tResult, !tResult
				return
				}

				// -----

				!accMatrixStruct = !llvm.struct<(f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32, f32,
				f32, f32, f32, f32, f32, f32)>
				!tResult = !nvgpu.warpgroup.result<tensor = !accMatrixStruct>
				!tDescA = !nvgpu.wgmma.descriptor<tensor = memref<128x64xf16, 3>>
				!tDescB = !nvgpu.wgmma.descriptor<tensor = memref<64x512xf16, 3>>
				func.func @warpgroup_mma_wrong_large_shape(%descA: !tDescA, %descB: !tDescB, %D: vector<128x512xf32>) {
				// expected-error @+1 {{'nvgpu.wargroup.mma' op has input type 'memref<64x512xf16, 3>' n is set to 512, it is not supported}}
				%0:2 = nvgpu.wargroup.mma %descA, %descB, %D: !tDescA, !tDescB, vector<128x512xf32> -> !tResult, !tResult
				return
				}

This is an archive of the discontinued LLVM Phabricator instance.

[MLIR][NVGPU] Adding `nvgpu.wargroup.mma` Op for Hopper GPUsAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 555285

mlir/include/mlir/Dialect/NVGPU/IR/NVGPU.td

mlir/include/mlir/Dialect/NVGPU/IR/NVGPUDialect.h

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

mlir/lib/Dialect/NVGPU/IR/NVGPUDialect.cpp

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

mlir/test/Dialect/NVGPU/invalid.mlir

[MLIR][NVGPU] Adding `nvgpu.wargroup.mma` Op for Hopper GPUs
AbandonedPublic