This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
mlir/
-
include/mlir/
-
mlir/
-
Conversion/NVGPUToNVVM/
-
NVGPUToNVVM/
-
NVGPUToNVVM.h
-
Dialect/NVGPU/IR/
-
NVGPU/
-
IR/
-
NVGPU.td
-
lib/
-
Conversion/NVGPUToNVVM/
-
NVGPUToNVVM/
-
NVGPUToNVVM.cpp
-
Dialect/NVGPU/TransformOps/
-
NVGPU/
-
TransformOps/
-
NVGPUTransformOps.cpp
-
test/Conversion/NVGPUToNVVM/
-
Conversion/
-
NVGPUToNVVM/
-
nvgpu-to-nvvm.mlir

Differential D159433

[MLIR][NVGPU] Introducing the `nvgpu.mbarrier.group` Type
AbandonedPublic

Authored by guraypp on Sep 4 2023, 9:14 AM.

Download Raw Diff

Details

Reviewers

nicolasvasilache
herhut
qcolombet

Summary

A common practice involves the creation of multiple MBarrier objects for utilization within loops, see an example below. This is particularly valuable in scenarios like software pipelining during matmul code generation, where we need to generate and employ five barriers dynamically within a loop.

This works improves nvgpu.mbarrier.barrier type into the nvgpu.mbarrier.group. All MBarrier-related operations now uses this type. Consequently, these operations are now capable of managing multiple barriers seamlessly.

%barriers = nvgpu.mbarrier.create -> !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 3>
nvgpu.mbarrier.init %barriers[%c0], %num_threads : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 3>
nvgpu.mbarrier.init %barriers[%c1], %num_threads : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 3>
nvgpu.mbarrier.init %barriers[%c2], %num_threads : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 3>
...
scf.for %i = %c0 to %n step %c1 {
    %mbarId = arith.remui %i, 3 : index
    %isDone = nvgpu.mbarrier.test.wait %barriers[%mbarId], %token : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 3>, !tokenType
}

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

guraypp created this revision.Sep 4 2023, 9:14 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 4 2023, 9:14 AM

Herald added subscribers: bviyer, Moerafaat, zero9178 and 24 others. · View Herald Transcript

guraypp requested review of this revision.Sep 4 2023, 9:14 AM

Herald added a reviewer: nicolasvasilache. · View Herald TranscriptSep 4 2023, 9:14 AM

Herald added a reviewer: herhut. · View Herald Transcript

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: stephenneuendorffer, nicolasvasilache, jholewinski. · View Herald Transcript

guraypp added a reviewer: qcolombet.Sep 4 2023, 9:15 AM

guraypp abandoned this revision.Sep 11 2023, 5:32 AM

Revision Contents

Path

Size

mlir/

include/

mlir/

Conversion/

NVGPUToNVVM/

NVGPUToNVVM.h

6 lines

Dialect/

NVGPU/

IR/

NVGPU.td

62 lines

lib/

Conversion/

NVGPUToNVVM/

NVGPUToNVVM.cpp

135 lines

Dialect/

NVGPU/

TransformOps/

NVGPUTransformOps.cpp

41 lines

test/

Conversion/

NVGPUToNVVM/

nvgpu-to-nvvm.mlir

102 lines

Diff 555760

mlir/include/mlir/Conversion/NVGPUToNVVM/NVGPUToNVVM.h

	Show All 17 Lines
	class MLIRContext;			class MLIRContext;
	class RewritePatternSet;			class RewritePatternSet;
	class Pass;			class Pass;

	#define GEN_PASS_DECL_CONVERTNVGPUTONVVMPASS			#define GEN_PASS_DECL_CONVERTNVGPUTONVVMPASS
	#include "mlir/Conversion/Passes.h.inc"			#include "mlir/Conversion/Passes.h.inc"

	namespace nvgpu {			namespace nvgpu {
	class MBarrierType;			class MBarrierGroupType;

	/// Returns the memory space attribute of the mbarrier object.			/// Returns the memory space attribute of the mbarrier object.
	Attribute getMbarrierMemorySpace(MLIRContext *context,			Attribute getMbarrierMemorySpace(MLIRContext *context,
	MBarrierType barrierType);			MBarrierGroupType barrierType);

	/// Return the memref type that can be used to represent an mbarrier object.			/// Return the memref type that can be used to represent an mbarrier object.
	MemRefType getMBarrierMemrefType(MLIRContext *context,			MemRefType getMBarrierMemrefType(MLIRContext *context,
	MBarrierType barrierType);			MBarrierGroupType barrierType);
	} // namespace nvgpu			} // namespace nvgpu

	void populateNVGPUToNVVMConversionPatterns(LLVMTypeConverter &converter,			void populateNVGPUToNVVMConversionPatterns(LLVMTypeConverter &converter,
	RewritePatternSet &patterns);			RewritePatternSet &patterns);
	} // namespace mlir			} // namespace mlir

	#endif // MLIR_CONVERSION_NVGPUTONVVM_NVGPUTONVVMPASS_H_			#endif // MLIR_CONVERSION_NVGPUTONVVM_NVGPUTONVVMPASS_H_

mlir/include/mlir/Dialect/NVGPU/IR/NVGPU.td

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	let description = [{
`nvgpu.device.async.token` is a type returned by an asynchronous operation		`nvgpu.device.async.token` is a type returned by an asynchronous operation
that runs on the GPU (device). It is used to establish an SSA-based link		that runs on the GPU (device). It is used to establish an SSA-based link
between the async operation (e.g. DeviceAsyncCopy) and operations that		between the async operation (e.g. DeviceAsyncCopy) and operations that
group or synchronize the async operations (e.g. DeviceAsyncCreateGroupOp,		group or synchronize the async operations (e.g. DeviceAsyncCreateGroupOp,
DeviceAsyncWaitOp).		DeviceAsyncWaitOp).
}];		}];
}		}

def NVGPU_MBarrier : NVGPU_Type<"MBarrier", "mbarrier.barrier", []> {		def NVGPU_MBarrierGroup : NVGPU_Type<"MBarrierGroup", "mbarrier.group", []> {
let summary = "mbarrier barrier type";		let summary = "mbarrier barrier type";
let description = [{		let description = [{
This is the type for a mbarrier object in shared memory that is used		This is the type for one or more mbarrier object in shared memory that is
to synchronize a variable number of threads.		used to synchronize a variable number of threads.

The mbarrier object is 64 bit with 8 byte alignment. The mbarrier object		If `num_barriers` is not set, the number of mbarrier objects is 1.

		A mbarrier object is 64 bit with 8 byte alignment. The mbarrier object
can be initiated and invalidated.		can be initiated and invalidated.

See for more details:		[See for more details in PTX ISA](https://docs.nvidia.com/cuda/parallel-thread-execution/#size-and-alignment-of-mbarrier-object)
https://docs.nvidia.com/cuda/parallel-thread-execution/#size-and-alignment-of-mbarrier-object
}];		}];
let parameters = (ins "Attribute":$memorySpace);		let parameters = (ins "Attribute":$memorySpace, DefaultValuedParameter<"unsigned", "1">:$num_barriers);
let assemblyFormat = "`<` struct(params) `>`";		let assemblyFormat = "`<` struct(params) `>`";
		let builders = [
		TypeBuilder<(ins "Attribute":$memorySpace), [{
		return $_get($_ctxt, memorySpace, 1);
		}]>
		];
}		}

def NVGPU_MBarrierToken : NVGPU_Type<"MBarrierToken", "mbarrier.token", []> { }		def NVGPU_MBarrierToken : NVGPU_Type<"MBarrierToken", "mbarrier.token", []> { }

// https://docs.nvidia.com/cuda/parallel-thread-execution/#tensor-map		// https://docs.nvidia.com/cuda/parallel-thread-execution/#tensor-map
def NVGPU_TensorMapDescriptor : NVGPU_Type<"TensorMapDescriptor", "tensormap.descriptor", []> {		def NVGPU_TensorMapDescriptor : NVGPU_Type<"TensorMapDescriptor", "tensormap.descriptor", []> {
let summary = "TensorMap descriptor";		let summary = "TensorMap descriptor";
let parameters = (ins "MemRefType":$tensor,		let parameters = (ins "MemRefType":$tensor,
▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines	def NVGPU_DeviceAsyncWaitOp : NVGPU_Op<"device_async_wait", []> {
let assemblyFormat = [{		let assemblyFormat = [{
$asyncDependencies attr-dict		$asyncDependencies attr-dict
}];		}];
}		}

def NVGPU_MBarrierCreateOp : NVGPU_Op<"mbarrier.create", []> {		def NVGPU_MBarrierCreateOp : NVGPU_Op<"mbarrier.create", []> {
let summary = "Creates a `nvgpu.mbarrier` object.";		let summary = "Creates a `nvgpu.mbarrier` object.";
let description = [{		let description = [{
The Op generates an `mbarrier` object, which is a barrier created in		The Op generates one or more `mbarrier` object, which is a barrier created in
shared memory and supports various synchronization behaviors for threads.		shared memory and supports various synchronization behaviors for threads.

The `mbarrier` object has the following type and alignment requirements:		The `mbarrier` object has the following type and alignment requirements:
Type: .b64, Alignment: 8, Memory space: .shared		Type: .b64, Alignment: 8, Memory space: .shared

Example:		Example:
```mlir		```mlir
%barrier = nvgpu.mbarrier.create -> !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		%barrier = nvgpu.mbarrier.create -> !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>
```		```
}];		}];
let arguments = (ins);		let arguments = (ins);
let results = (outs NVGPU_MBarrier:$barrier);		let results = (outs NVGPU_MBarrierGroup:$barriers);
let assemblyFormat = [{		let assemblyFormat = [{
attr-dict `->` type($barrier)		attr-dict `->` type($barriers)
}];		}];
}		}

def NVGPU_MBarrierInitOp : NVGPU_Op<"mbarrier.init", []> {		def NVGPU_MBarrierInitOp : NVGPU_Op<"mbarrier.init", []> {
let summary = "Initialize the `nvgpu.mbarrier`.";		let summary = "Initialize the `nvgpu.mbarrier`.";
let description = [{		let description = [{
The Op initializes the `mbarrier` object with the given number of threads.		The Op initializes the `mbarrier` object with the given number of threads.

Example:		Example:
```mlir		```mlir
%num_threads = gpu.block_dim x		%num_threads = gpu.block_dim x
%barrier = nvgpu.mbarrier.create -> !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		%barrier = nvgpu.mbarrier.create -> !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>
nvgpu.mbarrier.init %barrier, %num_threads : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		nvgpu.mbarrier.init %barrier, %num_threads : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>
```		```
}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier, Index:$count);		let arguments = (ins NVGPU_MBarrierGroup:$barriers, Index:$count, Index:$mbarId);
let assemblyFormat = "$barrier `,` $count attr-dict `:` type($barrier)";		let assemblyFormat = "$barriers `[` $mbarId `]` `,` $count attr-dict `:` type($barriers)";
}		}

def NVGPU_MBarrierTestWaitOp : NVGPU_Op<"mbarrier.test.wait", []> {		def NVGPU_MBarrierTestWaitOp : NVGPU_Op<"mbarrier.test.wait", []> {
let summary = "Checks if the `nvgpu.mbarrier` has completed its current phase.";		let summary = "Checks if the `nvgpu.mbarrier` has completed its current phase.";
let description = [{		let description = [{
Checks whether the mbarrier object has completed the phase. It is is a		Checks whether the mbarrier object has completed the phase. It is is a
non-blocking instruction which tests for the completion of the phase.		non-blocking instruction which tests for the completion of the phase.

Example:		Example:
```mlir		```mlir
%isComplete = nvgpu.mbarrier.test.wait %barrier, %token : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>, !nvgpu.mbarrier.token		%isComplete = nvgpu.mbarrier.test.wait %barrier, %token : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>, !nvgpu.mbarrier.token
```		```
}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier, NVGPU_MBarrierToken:$token);		let arguments = (ins NVGPU_MBarrierGroup:$barriers, NVGPU_MBarrierToken:$token, Index:$mbarId);
let results = (outs I1:$waitComplete);		let results = (outs I1:$waitComplete);
let assemblyFormat = "$barrier `,` $token attr-dict `:` type($barrier) `,` type($token)";		let assemblyFormat = "$barriers `[` $mbarId `]` `,` $token attr-dict `:` type($barriers) `,` type($token)";
}		}

def NVGPU_MBarrierArriveOp : NVGPU_Op<"mbarrier.arrive", []> {		def NVGPU_MBarrierArriveOp : NVGPU_Op<"mbarrier.arrive", []> {
let summary = "Performs arrive operation on the `nvgpu.mbarrier.arrive`.";		let summary = "Performs arrive operation on the `nvgpu.mbarrier.arrive`.";
let description = [{		let description = [{
The Op performs arrive-on operation on the `mbarrier` object and returns a		The Op performs arrive-on operation on the `mbarrier` object and returns a
`nvgpu.mbarrier.token`.		`nvgpu.mbarrier.token`.

For more information, see		For more information, see
https://docs.nvidia.com/cuda/parallel-thread-execution/#arrive-on-operation-on-mbarrier-object		https://docs.nvidia.com/cuda/parallel-thread-execution/#arrive-on-operation-on-mbarrier-object

Example:		Example:
```mlir		```mlir
%token = nvgpu.mbarrier.arrive %barrier : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>> -> !nvgpu.mbarrier.token		%token = nvgpu.mbarrier.arrive %barrier : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>> -> !nvgpu.mbarrier.token
```		```
}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier);		let arguments = (ins NVGPU_MBarrierGroup:$barriers, Index:$mbarId);
let results = (outs NVGPU_MBarrierToken:$token);		let results = (outs NVGPU_MBarrierToken:$token);
let assemblyFormat = "$barrier attr-dict `:` type($barrier) `->` type($token)";		let assemblyFormat = "$barriers `[` $mbarId `]` attr-dict `:` type($barriers) `->` type($token)";
}		}

def NVGPU_MBarrierArriveNoCompleteOp : NVGPU_Op<"mbarrier.arrive.nocomplete", []> {		def NVGPU_MBarrierArriveNoCompleteOp : NVGPU_Op<"mbarrier.arrive.nocomplete", []> {
let summary = "Performs arrive operation on the `nvgpu.mbarrier.arrive.nocomplete` as non-blocking.";		let summary = "Performs arrive operation on the `nvgpu.mbarrier.arrive.nocomplete` as non-blocking.";
let description = [{		let description = [{
The Op performs arrive-on operation on the `mbarrier` object and returns a		The Op performs arrive-on operation on the `mbarrier` object and returns a
`nvgpu.mbarrier.token`.		`nvgpu.mbarrier.token`.

The Op does not cause the `nvgpu.mbarrier` to complete its current phase.		The Op does not cause the `nvgpu.mbarrier` to complete its current phase.

Example:		Example:
```mlir		```mlir
%token = nvgpu.mbarrier.arrive.noComplete %barrier, %count : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>> -> !nvgpu.mbarrier.token		%token = nvgpu.mbarrier.arrive.noComplete %barrier, %count : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>> -> !nvgpu.mbarrier.token
```		```
}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier,		let arguments = (ins NVGPU_MBarrierGroup:$barriers, Index:$mbarId,
Index:$count);		Index:$count);
let results = (outs NVGPU_MBarrierToken:$token);		let results = (outs NVGPU_MBarrierToken:$token);
let assemblyFormat = "$barrier `,` $count attr-dict `:` type($barrier) `->` type($token)";		let assemblyFormat = "$barriers `[` $mbarId `]` `,` $count attr-dict `:` type($barriers) `->` type($token)";
}		}

def NVGPU_MBarrierArriveExpectTxOp : NVGPU_Op<"mbarrier.arrive.expect_tx", []> {		def NVGPU_MBarrierArriveExpectTxOp : NVGPU_Op<"mbarrier.arrive.expect_tx", []> {
let summary = "Performs expect_tx operation on the `nvgpu.mbarrier.arrive`";		let summary = "Performs expect_tx operation on the `nvgpu.mbarrier.arrive`";
let description = [{		let description = [{
A thread executing the Op performs an expect-tx operation on the mbarrier		A thread executing the Op performs an expect-tx operation on the mbarrier
object at the location specified by the address operand $barrier. The		object at the location specified by the address operand $barrier. The
expect-tx operation, with an $txcount argument, increases the tx-count of		expect-tx operation, with an $txcount argument, increases the tx-count of
an mbarrier object by the value specified by $txcount. This makes the		an mbarrier object by the value specified by $txcount. This makes the
current phase of the mbarrier object to expect and track the completion of		current phase of the mbarrier object to expect and track the completion of
additional asynchronous transactions.		additional asynchronous transactions.

The `$txCount` specifies the number of element to the expect-tx operation.		The `$txCount` specifies the number of element to the expect-tx operation.

Example:		Example:
```mlir		```mlir
nvgpu.mbarrier.arrive.expect_tx %barrier, %ic0 : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		nvgpu.mbarrier.arrive.expect_tx %barrier, %ic0 : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>
```		```
}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier,		let arguments = (ins NVGPU_MBarrierGroup:$barriers, Index:$txcount, Index:$mbarId);
Index:$txcount);		let assemblyFormat = "$barriers `[` $mbarId `]` `,` $txcount attr-dict `:` type($barriers)";
let assemblyFormat = "$barrier `,` $txcount attr-dict `:` type($barrier)";
}		}

def NVGPU_MBarrierTryWaitParityOp : NVGPU_Op<"mbarrier.try_wait.parity", []> {		def NVGPU_MBarrierTryWaitParityOp : NVGPU_Op<"mbarrier.try_wait.parity", []> {
let summary = "Waits for the `nvgpu.mbarrier` to complete its current phase.";		let summary = "Waits for the `nvgpu.mbarrier` to complete its current phase.";
let description = [{		let description = [{
Checks whether the mbarrier object has completed the phase. It is is a		Checks whether the mbarrier object has completed the phase. It is is a
potentially blocking instruction which tests for the completion of the		potentially blocking instruction which tests for the completion of the
phase. Suspended thread resumes execution when the specified phase completes		phase. Suspended thread resumes execution when the specified phase completes
OR before the phase completes following a system-dependent time limit.		OR before the phase completes following a system-dependent time limit.

Example:		Example:
```mlir		```mlir
nvgpu.mbarrier.try_wait.parity %barrier, %phase, %ticks : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		nvgpu.mbarrier.try_wait.parity %barrier, %phase, %ticks : !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>
```		```

}];		}];
let arguments = (ins NVGPU_MBarrier:$barrier, Index:$phase, Index:$ticks);		let arguments = (ins NVGPU_MBarrierGroup:$barriers, Index:$phase, Index:$ticks, Index:$mbarId);
let assemblyFormat = "$barrier `,` $phase `,` $ticks attr-dict `:` type($barrier)";		let assemblyFormat = "$barriers `[` $mbarId `]` `,` $phase `,` $ticks attr-dict `:` type($barriers)";
}		}

def NVGPU_TmaAsyncLoadOp : NVGPU_Op<"tma.async.load", []> {		def NVGPU_TmaAsyncLoadOp : NVGPU_Op<"tma.async.load", []> {
let summary = "TMA asynchronous load";		let summary = "TMA asynchronous load";
let description = [{		let description = [{
The Op loads a tile memory region from global memory to shared memory by		The Op loads a tile memory region from global memory to shared memory by
Tensor Memory Access (TMA).		Tensor Memory Access (TMA).

`$tensorMapDescriptor` is tensor map descriptor which has information about		`$tensorMapDescriptor` is tensor map descriptor which has information about
tile shape. The descriptor is created by `nvgpu.tma.create.descriptor`		tile shape. The descriptor is created by `nvgpu.tma.create.descriptor`

The Op uses `$barrier` mbarrier based completion mechanism.		The Op uses `$barrier` mbarrier based completion mechanism.
}];		}];
let arguments = (ins Arg<AnyMemRef, "", [MemWrite]>:$dst,		let arguments = (ins Arg<AnyMemRef, "", [MemWrite]>:$dst,
NVGPU_MBarrier:$barrier,		NVGPU_MBarrierGroup:$barriers,
NVGPU_TensorMapDescriptor:$tensorMapDescriptor,		NVGPU_TensorMapDescriptor:$tensorMapDescriptor,
Variadic<Index>:$coordinates);		Variadic<Index>:$coordinates,
		Index:$mbarId);
let assemblyFormat = [{		let assemblyFormat = [{
$tensorMapDescriptor `[` $coordinates `]` `,` $barrier `to` $dst		$tensorMapDescriptor `[` $coordinates `]` `,` $barriers `[` $mbarId `]` `to` $dst
attr-dict `:` type($tensorMapDescriptor) `,` type($barrier) `->` type($dst)		attr-dict `:` type($tensorMapDescriptor) `,` type($barriers) `->` type($dst)
}];		}];
let hasVerifier = 1;		let hasVerifier = 1;

}		}

def NVGPU_TmaCreateDescriptorOp : NVGPU_Op<"tma.create.descriptor", []> {		def NVGPU_TmaCreateDescriptorOp : NVGPU_Op<"tma.create.descriptor", []> {
let summary = "TMA create descriptor";		let summary = "TMA create descriptor";
let description = [{		let description = [{
Show All 39 Lines

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

Show All 11 Lines
#include "mlir/Conversion/LLVMCommon/ConversionTarget.h"		#include "mlir/Conversion/LLVMCommon/ConversionTarget.h"
#include "mlir/Conversion/LLVMCommon/Pattern.h"		#include "mlir/Conversion/LLVMCommon/Pattern.h"
#include "mlir/Dialect/GPU/IR/GPUDialect.h"		#include "mlir/Dialect/GPU/IR/GPUDialect.h"
#include "mlir/Dialect/LLVMIR/LLVMDialect.h"		#include "mlir/Dialect/LLVMIR/LLVMDialect.h"
#include "mlir/Dialect/LLVMIR/LLVMTypes.h"		#include "mlir/Dialect/LLVMIR/LLVMTypes.h"
#include "mlir/Dialect/LLVMIR/NVVMDialect.h"		#include "mlir/Dialect/LLVMIR/NVVMDialect.h"
#include "mlir/Dialect/MemRef/IR/MemRef.h"		#include "mlir/Dialect/MemRef/IR/MemRef.h"
#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h"		#include "mlir/Dialect/NVGPU/IR/NVGPUDialect.h"
		#include "mlir/IR/BuiltinTypes.h"
#include "mlir/IR/PatternMatch.h"		#include "mlir/IR/PatternMatch.h"
#include "mlir/IR/TypeUtilities.h"		#include "mlir/IR/TypeUtilities.h"
		#include "mlir/IR/Value.h"
#include "mlir/Pass/Pass.h"		#include "mlir/Pass/Pass.h"
#include "llvm/Support/Debug.h"		#include "llvm/Support/Debug.h"
#include "llvm/Support/raw_ostream.h"		#include "llvm/Support/raw_ostream.h"

#define DEBUG_TYPE "nvgpu-to-nvvm"		#define DEBUG_TYPE "nvgpu-to-nvvm"
#define DBGS() (llvm::dbgs() << '[' << DEBUG_TYPE << "] ")		#define DBGS() (llvm::dbgs() << '[' << DEBUG_TYPE << "] ")
#define DBGSE() (llvm::dbgs())		#define DBGSE() (llvm::dbgs())

▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines	if (innerArrayTy && (innerArrayTy.getElementType() == i32Ty \|\|
continue;		continue;
}		}
result.push_back(toUse);		result.push_back(toUse);
}		}
return result;		return result;
}		}

/// Returns whether mbarrier object has shared memory address space.		/// Returns whether mbarrier object has shared memory address space.
static bool isMbarrierShared(nvgpu::MBarrierType barrierType) {		static bool isMbarrierShared(nvgpu::MBarrierGroupType barrierType) {
return (mlir::nvgpu::NVGPUDialect::isSharedMemoryAddressSpace(		return (mlir::nvgpu::NVGPUDialect::isSharedMemoryAddressSpace(
barrierType.getMemorySpace()));		barrierType.getMemorySpace()));
}		}

/// Returns the memory space attribute of the mbarrier object.		/// Returns the memory space attribute of the mbarrier object.
Attribute nvgpu::getMbarrierMemorySpace(MLIRContext *context,		Attribute nvgpu::getMbarrierMemorySpace(MLIRContext *context,
nvgpu::MBarrierType barrierType) {		nvgpu::MBarrierGroupType barrierType) {
Attribute memorySpace = {};		Attribute memorySpace = {};
if (isMbarrierShared(barrierType)) {		if (isMbarrierShared(barrierType)) {
memorySpace =		memorySpace =
IntegerAttr::get(IntegerType::get(context, 64),		IntegerAttr::get(IntegerType::get(context, 64),
nvgpu::NVGPUDialect::kSharedMemoryAddressSpace);		nvgpu::NVGPUDialect::kSharedMemoryAddressSpace);
}		}
return memorySpace;		return memorySpace;
}		}

/// Returns memref type of the mbarrier object. The type is defined in the		/// Returns memref type of the mbarrier object. The type is defined in the
/// MBarrierType.		/// MBarrierGroupType.
MemRefType nvgpu::getMBarrierMemrefType(MLIRContext *context,		MemRefType nvgpu::getMBarrierMemrefType(MLIRContext *context,
nvgpu::MBarrierType barrierType) {		nvgpu::MBarrierGroupType barrierType) {
Attribute memorySpace = nvgpu::getMbarrierMemorySpace(context, barrierType);		Attribute memorySpace = nvgpu::getMbarrierMemorySpace(context, barrierType);
MemRefLayoutAttrInterface layout;		MemRefLayoutAttrInterface layout;
return MemRefType::get({1}, IntegerType::get(context, 64), layout,		return MemRefType::get({barrierType.getNumBarriers()},
memorySpace);		IntegerType::get(context, 64), layout, memorySpace);
}

/// Returns the base pointer of the mbarrier object.
static Value getMbarrierPtr(ConversionPatternRewriter &rewriter,
const LLVMTypeConverter &typeConverter,
TypedValue<nvgpu::MBarrierType> barrier,
Value barrierMemref) {
MemRefType memrefType =
nvgpu::getMBarrierMemrefType(rewriter.getContext(), barrier.getType());
MemRefDescriptor memRefDescriptor(barrierMemref);
return memRefDescriptor.bufferPtr(rewriter, barrier.getLoc(), typeConverter,
memrefType);
}		}

namespace {		namespace {

struct MmaLdMatrixOpToNVVM : public ConvertOpToLLVMPattern<nvgpu::LdMatrixOp> {		struct MmaLdMatrixOpToNVVM : public ConvertOpToLLVMPattern<nvgpu::LdMatrixOp> {
using ConvertOpToLLVMPattern<nvgpu::LdMatrixOp>::ConvertOpToLLVMPattern;		using ConvertOpToLLVMPattern<nvgpu::LdMatrixOp>::ConvertOpToLLVMPattern;

LogicalResult		LogicalResult
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	void runOnOperation() override {
});		});
converter.addConversion([&](nvgpu::MBarrierTokenType type) -> Type {		converter.addConversion([&](nvgpu::MBarrierTokenType type) -> Type {
return converter.convertType(IntegerType::get(type.getContext(), 64));		return converter.convertType(IntegerType::get(type.getContext(), 64));
});		});
converter.addConversion(		converter.addConversion(
[&](nvgpu::WarpgroupMatrixDescriptorType type) -> Type {		[&](nvgpu::WarpgroupMatrixDescriptorType type) -> Type {
return converter.convertType(IntegerType::get(type.getContext(), 64));		return converter.convertType(IntegerType::get(type.getContext(), 64));
});		});
converter.addConversion([&](nvgpu::MBarrierType type) -> Type {		converter.addConversion([&](nvgpu::MBarrierGroupType type) -> Type {
return converter.convertType(		return converter.convertType(
nvgpu::getMBarrierMemrefType(rewriter.getContext(), type));		nvgpu::getMBarrierMemrefType(rewriter.getContext(), type));
});		});
converter.addConversion([&](nvgpu::TensorMapDescriptorType type) -> Type {		converter.addConversion([&](nvgpu::TensorMapDescriptorType type) -> Type {
return converter.getPointerType(type.getTensor().getElementType());		return converter.getPointerType(type.getTensor().getElementType());
});		});
populateNVGPUToNVVMConversionPatterns(converter, patterns);		populateNVGPUToNVVMConversionPatterns(converter, patterns);
LLVMConversionTarget target(getContext());		LLVMConversionTarget target(getContext());
▲ Show 20 Lines • Show All 319 Lines • ▼ Show 20 Lines	memref::GlobalOp generateGlobalBarrier(ConversionPatternRewriter &rewriter,
return global;		return global;
}		}

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierCreateOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierCreateOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Operation *funcOp = op->getParentOp();		Operation *funcOp = op->getParentOp();
MemRefType barrierType = nvgpu::getMBarrierMemrefType(		MemRefType barrierType = nvgpu::getMBarrierMemrefType(
rewriter.getContext(), op.getBarrier().getType());		rewriter.getContext(), op.getBarriers().getType());

memref::GlobalOp global;		memref::GlobalOp global;
if (auto moduleOp = funcOp->getParentOfType<gpu::GPUModuleOp>())		if (auto moduleOp = funcOp->getParentOfType<gpu::GPUModuleOp>())
global = generateGlobalBarrier(rewriter, funcOp, moduleOp, barrierType);		global = generateGlobalBarrier(rewriter, funcOp, moduleOp, barrierType);
else if (auto moduleOp = funcOp->getParentOfType<ModuleOp>())		else if (auto moduleOp = funcOp->getParentOfType<ModuleOp>())
global = generateGlobalBarrier(rewriter, funcOp, moduleOp, barrierType);		global = generateGlobalBarrier(rewriter, funcOp, moduleOp, barrierType);

rewriter.setInsertionPoint(op);		rewriter.setInsertionPoint(op);
rewriter.replaceOpWithNewOp<memref::GetGlobalOp>(op, barrierType,		rewriter.replaceOpWithNewOp<memref::GetGlobalOp>(op, barrierType,
global.getName());		global.getName());
return success();		return success();
}		}
};		};

		/// Base class for lowering mbarrier operations to nvvm intrinsics.
		template <typename SourceOp>
		struct MBarrierBasePattern : public ConvertOpToLLVMPattern<SourceOp> {
		public:
		using ConvertOpToLLVMPattern<SourceOp>::ConvertOpToLLVMPattern;
		/// Returns the base pointer of the mbarrier object.
		Value getMbarrierPtr(Operation *op, nvgpu::MBarrierGroupType mbarType,
		Value memrefDesc, Value mbarId,
		ConversionPatternRewriter &rewriter) const {
		MemRefType mbarrierMemrefType =
		nvgpu::getMBarrierMemrefType(rewriter.getContext(), mbarType);
		return ConvertToLLVMPattern::getStridedElementPtr(
		op->getLoc(), mbarrierMemrefType, memrefDesc, {mbarId}, rewriter);
		return memrefDesc;
		}
		};

/// Lowers `nvgpu.mbarrier.init` to `nvvm.mbarrier.init`		/// Lowers `nvgpu.mbarrier.init` to `nvvm.mbarrier.init`
struct NVGPUMBarrierInitLowering		struct NVGPUMBarrierInitLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierInitOp> {		: public MBarrierBasePattern<nvgpu::MBarrierInitOp> {
using ConvertOpToLLVMPattern<nvgpu::MBarrierInitOp>::ConvertOpToLLVMPattern;		using MBarrierBasePattern<nvgpu::MBarrierInitOp>::MBarrierBasePattern;

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierInitOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierInitOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
		nvgpu::MBarrierGroupType mbarrierType = op.getBarriers().getType();
rewriter.setInsertionPoint(op);		rewriter.setInsertionPoint(op);
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier = getMbarrierPtr(op, mbarrierType, adaptor.getBarriers(),
op.getBarrier(), adaptor.getBarrier());		adaptor.getMbarId(), rewriter);

Value count = truncToI32(rewriter, op->getLoc(), adaptor.getCount());		Value count = truncToI32(rewriter, op->getLoc(), adaptor.getCount());
		if (isMbarrierShared(mbarrierType)) {
if (isMbarrierShared(op.getBarrier().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierInitSharedOp>(op, barrier,		rewriter.replaceOpWithNewOp<NVVM::MBarrierInitSharedOp>(op, barrier,
count);		count);
} else {		} else {
rewriter.replaceOpWithNewOp<NVVM::MBarrierInitOp>(op, barrier, count);		rewriter.replaceOpWithNewOp<NVVM::MBarrierInitOp>(op, barrier, count);
}		}
return success();		return success();
}		}
};		};

/// Lowers `nvgpu.mbarrier.arrive` to `nvvm.mbarrier.arrive`		/// Lowers `nvgpu.mbarrier.arrive` to `nvvm.mbarrier.arrive`
struct NVGPUMBarrierArriveLowering		struct NVGPUMBarrierArriveLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierArriveOp> {		: public MBarrierBasePattern<nvgpu::MBarrierArriveOp> {
using ConvertOpToLLVMPattern<nvgpu::MBarrierArriveOp>::ConvertOpToLLVMPattern;		using MBarrierBasePattern<nvgpu::MBarrierArriveOp>::MBarrierBasePattern;
LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierArriveOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierArriveOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);
Type tokenType = getTypeConverter()->convertType(		Type tokenType = getTypeConverter()->convertType(
nvgpu::MBarrierTokenType::get(op->getContext()));		nvgpu::MBarrierTokenType::get(op->getContext()));
if (isMbarrierShared(op.getBarrier().getType())) {		if (isMbarrierShared(op.getBarriers().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveSharedOp>(op, tokenType,		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveSharedOp>(op, tokenType,
barrier);		barrier);
} else {		} else {
rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveOp>(op, tokenType,		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveOp>(op, tokenType,
barrier);		barrier);
}		}
return success();		return success();
}		}
};		};

/// Lowers `nvgpu.mbarrier.arrive.nocomplete` to		/// Lowers `nvgpu.mbarrier.arrive.nocomplete` to
/// `nvvm.mbarrier.arrive.nocomplete`		/// `nvvm.mbarrier.arrive.nocomplete`
struct NVGPUMBarrierArriveNoCompleteLowering		struct NVGPUMBarrierArriveNoCompleteLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierArriveNoCompleteOp> {		: public MBarrierBasePattern<nvgpu::MBarrierArriveNoCompleteOp> {
using ConvertOpToLLVMPattern<		using MBarrierBasePattern<
nvgpu::MBarrierArriveNoCompleteOp>::ConvertOpToLLVMPattern;		nvgpu::MBarrierArriveNoCompleteOp>::MBarrierBasePattern;

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierArriveNoCompleteOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierArriveNoCompleteOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);
Type tokenType = getTypeConverter()->convertType(		Type tokenType = getTypeConverter()->convertType(
nvgpu::MBarrierTokenType::get(op->getContext()));		nvgpu::MBarrierTokenType::get(op->getContext()));
Value count = truncToI32(rewriter, op->getLoc(), adaptor.getCount());		Value count = truncToI32(rewriter, op->getLoc(), adaptor.getCount());
if (isMbarrierShared(op.getBarrier().getType())) {		if (isMbarrierShared(op.getBarriers().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveNocompleteSharedOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveNocompleteSharedOp>(
op, tokenType, barrier, count);		op, tokenType, barrier, count);
} else {		} else {
rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveNocompleteOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveNocompleteOp>(
op, tokenType, barrier, count);		op, tokenType, barrier, count);
}		}
return success();		return success();
}		}
};		};

/// Lowers `nvgpu.mbarrier.test.wait` to `nvvm.mbarrier.test.wait`		/// Lowers `nvgpu.mbarrier.test.wait` to `nvvm.mbarrier.test.wait`
struct NVGPUMBarrierTestWaitLowering		struct NVGPUMBarrierTestWaitLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierTestWaitOp> {		: public MBarrierBasePattern<nvgpu::MBarrierTestWaitOp> {
using ConvertOpToLLVMPattern<		using MBarrierBasePattern<nvgpu::MBarrierTestWaitOp>::MBarrierBasePattern;
nvgpu::MBarrierTestWaitOp>::ConvertOpToLLVMPattern;

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierTestWaitOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierTestWaitOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);
Type retType = rewriter.getI1Type();		Type retType = rewriter.getI1Type();
if (isMbarrierShared(op.getBarrier().getType())) {		if (isMbarrierShared(op.getBarriers().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierTestWaitSharedOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierTestWaitSharedOp>(
op, retType, barrier, adaptor.getToken());		op, retType, barrier, adaptor.getToken());
} else {		} else {
rewriter.replaceOpWithNewOp<NVVM::MBarrierTestWaitOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierTestWaitOp>(
op, retType, barrier, adaptor.getToken());		op, retType, barrier, adaptor.getToken());
}		}
return success();		return success();
}		}
};		};

struct NVGPUMBarrierArriveExpectTxLowering		struct NVGPUMBarrierArriveExpectTxLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierArriveExpectTxOp> {		: public MBarrierBasePattern<nvgpu::MBarrierArriveExpectTxOp> {
using ConvertOpToLLVMPattern<		using MBarrierBasePattern<
nvgpu::MBarrierArriveExpectTxOp>::ConvertOpToLLVMPattern;		nvgpu::MBarrierArriveExpectTxOp>::MBarrierBasePattern;

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierArriveExpectTxOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierArriveExpectTxOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);
Value txcount = truncToI32(rewriter, op->getLoc(), adaptor.getTxcount());		Value txcount = truncToI32(rewriter, op->getLoc(), adaptor.getTxcount());

if (isMbarrierShared(op.getBarrier().getType())) {		if (isMbarrierShared(op.getBarriers().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveExpectTxSharedOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveExpectTxSharedOp>(
op, barrier, txcount);		op, barrier, txcount);
return success();		return success();
}		}

rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveExpectTxOp>(op, barrier,		rewriter.replaceOpWithNewOp<NVVM::MBarrierArriveExpectTxOp>(op, barrier,
txcount);		txcount);
return success();		return success();
}		}
};		};

struct NVGPUMBarrierTryWaitParityLowering		struct NVGPUMBarrierTryWaitParityLowering
: public ConvertOpToLLVMPattern<nvgpu::MBarrierTryWaitParityOp> {		: public MBarrierBasePattern<nvgpu::MBarrierTryWaitParityOp> {
using ConvertOpToLLVMPattern<		using MBarrierBasePattern<
nvgpu::MBarrierTryWaitParityOp>::ConvertOpToLLVMPattern;		nvgpu::MBarrierTryWaitParityOp>::MBarrierBasePattern;

LogicalResult		LogicalResult
matchAndRewrite(nvgpu::MBarrierTryWaitParityOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::MBarrierTryWaitParityOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);
Value ticks = truncToI32(rewriter, op->getLoc(), adaptor.getTicks());		Value ticks = truncToI32(rewriter, op->getLoc(), adaptor.getTicks());
Value phase = truncToI32(rewriter, op->getLoc(), adaptor.getPhase());		Value phase = truncToI32(rewriter, op->getLoc(), adaptor.getPhase());

if (isMbarrierShared(op.getBarrier().getType())) {		if (isMbarrierShared(op.getBarriers().getType())) {
rewriter.replaceOpWithNewOp<NVVM::MBarrierTryWaitParitySharedOp>(		rewriter.replaceOpWithNewOp<NVVM::MBarrierTryWaitParitySharedOp>(
op, barrier, phase, ticks);		op, barrier, phase, ticks);
return success();		return success();
}		}

rewriter.replaceOpWithNewOp<NVVM::MBarrierTryWaitParityOp>(op, barrier,		rewriter.replaceOpWithNewOp<NVVM::MBarrierTryWaitParityOp>(op, barrier,
phase, ticks);		phase, ticks);
return success();		return success();
}		}
};		};

struct NVGPUTmaAsyncLoadOpLowering		struct NVGPUTmaAsyncLoadOpLowering
: public ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp> {		: public MBarrierBasePattern<nvgpu::TmaAsyncLoadOp> {
using ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp>::ConvertOpToLLVMPattern;		using MBarrierBasePattern<nvgpu::TmaAsyncLoadOp>::MBarrierBasePattern;
LogicalResult		LogicalResult
matchAndRewrite(nvgpu::TmaAsyncLoadOp op, OpAdaptor adaptor,		matchAndRewrite(nvgpu::TmaAsyncLoadOp op, OpAdaptor adaptor,
ConversionPatternRewriter &rewriter) const override {		ConversionPatternRewriter &rewriter) const override {
auto srcMemrefType = cast<MemRefType>(op.getDst().getType());		auto srcMemrefType = cast<MemRefType>(op.getDst().getType());
Value dest = getStridedElementPtr(op->getLoc(), srcMemrefType,		Value dest = getStridedElementPtr(op->getLoc(), srcMemrefType,
adaptor.getDst(), {}, rewriter);		adaptor.getDst(), {}, rewriter);
Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),		Value barrier =
op.getBarrier(), adaptor.getBarrier());		getMbarrierPtr(op, op.getBarriers().getType(), adaptor.getBarriers(),
		adaptor.getMbarId(), rewriter);

SmallVector<Value> coords = adaptor.getCoordinates();		SmallVector<Value> coords = adaptor.getCoordinates();
for (auto [index, value] : llvm::enumerate(coords)) {		for (auto [index, value] : llvm::enumerate(coords)) {
coords[index] = truncToI32(rewriter, op->getLoc(), value);		coords[index] = truncToI32(rewriter, op->getLoc(), value);
}		}

rewriter.replaceOpWithNewOp<NVVM::CpAsyncBulkTensorGlobalToSharedClusterOp>(		rewriter.replaceOpWithNewOp<NVVM::CpAsyncBulkTensorGlobalToSharedClusterOp>(
op, dest, adaptor.getTensorMapDescriptor(), barrier, coords);		op, dest, adaptor.getTensorMapDescriptor(), barrier, coords);
▲ Show 20 Lines • Show All 220 Lines • Show Last 20 Lines

mlir/lib/Dialect/NVGPU/TransformOps/NVGPUTransformOps.cpp

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	llvmTypeConverter.addConversion(
[&](nvgpu::DeviceAsyncTokenType type) -> Type {		[&](nvgpu::DeviceAsyncTokenType type) -> Type {
return llvmTypeConverter.convertType(		return llvmTypeConverter.convertType(
IntegerType::get(type.getContext(), 32));		IntegerType::get(type.getContext(), 32));
});		});
llvmTypeConverter.addConversion([&](nvgpu::MBarrierTokenType type) -> Type {		llvmTypeConverter.addConversion([&](nvgpu::MBarrierTokenType type) -> Type {
return llvmTypeConverter.convertType(		return llvmTypeConverter.convertType(
IntegerType::get(type.getContext(), 64));		IntegerType::get(type.getContext(), 64));
});		});
llvmTypeConverter.addConversion([&](nvgpu::MBarrierType type) -> Type {		llvmTypeConverter.addConversion([&](nvgpu::MBarrierGroupType type) -> Type {
return llvmTypeConverter.convertType(		return llvmTypeConverter.convertType(
getMBarrierMemrefType(type.getContext(), type));		getMBarrierMemrefType(type.getContext(), type));
});		});
llvmTypeConverter.addConversion(		llvmTypeConverter.addConversion(
[&](nvgpu::TensorMapDescriptorType type) -> Type {		[&](nvgpu::TensorMapDescriptorType type) -> Type {
return llvmTypeConverter.getPointerType(		return llvmTypeConverter.getPointerType(
type.getTensor().getElementType());		type.getTensor().getElementType());
});		});
▲ Show 20 Lines • Show All 726 Lines • ▼ Show 20 Lines
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

/// Helper to create the base Hopper-specific operations that are reused in		/// Helper to create the base Hopper-specific operations that are reused in
/// various other places.		/// various other places.
struct HopperBuilder {		struct HopperBuilder {
HopperBuilder(RewriterBase &rewriter, Location loc)		HopperBuilder(RewriterBase &rewriter, Location loc)
: rewriter(rewriter), loc(loc) {}		: rewriter(rewriter), loc(loc) {}

TypedValue<nvgpu::MBarrierType>		TypedValue<nvgpu::MBarrierGroupType>
buildAndInitBarrierInSharedMemory(OpFoldResult numThreads);		buildAndInitBarrierInSharedMemory(OpFoldResult numThreads);

/// Create tma descriptor op to initiate transfer from global to shared		/// Create tma descriptor op to initiate transfer from global to shared
/// memory. This must be done before the launch op, on the host.		/// memory. This must be done before the launch op, on the host.
TypedValue<nvgpu::TensorMapDescriptorType>		TypedValue<nvgpu::TensorMapDescriptorType>
buildGlobalMemRefDescriptor(TypedValue<MemRefType> memref,		buildGlobalMemRefDescriptor(TypedValue<MemRefType> memref,
gpu::LaunchOp launchOp);		gpu::LaunchOp launchOp);

/// Build a tma load from global memory to shared memory using `barrier` to		/// Build a tma load from global memory to shared memory using `barrier` to
/// synchronize. Return the number of bytes that will be transferred.		/// synchronize. Return the number of bytes that will be transferred.
OpFoldResult		OpFoldResult
buildTmaAsyncLoad(TypedValue<nvgpu::TensorMapDescriptorType> globalDesc,		buildTmaAsyncLoad(TypedValue<nvgpu::TensorMapDescriptorType> globalDesc,
TypedValue<MemRefType> sharedMemref,		TypedValue<MemRefType> sharedMemref,
TypedValue<nvgpu::MBarrierType> barrier,		TypedValue<nvgpu::MBarrierGroupType> barrier,
SmallVectorImpl<Operation *> &loadOps);		SmallVectorImpl<Operation *> &loadOps);
void buildBarrierArriveTx(TypedValue<nvgpu::MBarrierType> barrier,		void buildBarrierArriveTx(TypedValue<nvgpu::MBarrierGroupType> barrier,
ArrayRef<OpFoldResult> sizes);		ArrayRef<OpFoldResult> sizes);

/// If threadIdx.x == 0 does TMA request + wait, else just wait.		/// If threadIdx.x == 0 does TMA request + wait, else just wait.
/// Return the operation that performs the transfer on thread0.		/// Return the operation that performs the transfer on thread0.
// TODO: In the future, don't hardcode to thread 0 but elect a leader.		// TODO: In the future, don't hardcode to thread 0 but elect a leader.
SmallVector<Operation *> buildPredicateLoadsOnThread0(		SmallVector<Operation *> buildPredicateLoadsOnThread0(
ArrayRef<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescriptors,		ArrayRef<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescriptors,
ArrayRef<TypedValue<MemRefType>> sharedMemBuffers,		ArrayRef<TypedValue<MemRefType>> sharedMemBuffers,
TypedValue<nvgpu::MBarrierType> barrier);		TypedValue<nvgpu::MBarrierGroupType> barrier);

void buildTryWaitParity(TypedValue<nvgpu::MBarrierType> barrier);		void buildTryWaitParity(TypedValue<nvgpu::MBarrierGroupType> barrier);

RewriterBase &rewriter;		RewriterBase &rewriter;
Location loc;		Location loc;
};		};

SmallVector<Operation *> HopperBuilder::buildPredicateLoadsOnThread0(		SmallVector<Operation *> HopperBuilder::buildPredicateLoadsOnThread0(
ArrayRef<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescriptors,		ArrayRef<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescriptors,
ArrayRef<TypedValue<MemRefType>> sharedMemBuffers,		ArrayRef<TypedValue<MemRefType>> sharedMemBuffers,
TypedValue<nvgpu::MBarrierType> barrier) {		TypedValue<nvgpu::MBarrierGroupType> barrier) {
SmallVector<Operation *> loadOps;		SmallVector<Operation *> loadOps;
Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);		Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);
Value tidx = rewriter.create<gpu::ThreadIdOp>(loc, gpu::Dimension::x);		Value tidx = rewriter.create<gpu::ThreadIdOp>(loc, gpu::Dimension::x);
Value cond =		Value cond =
rewriter.create<arith::CmpIOp>(loc, arith::CmpIPredicate::eq, tidx, zero);		rewriter.create<arith::CmpIOp>(loc, arith::CmpIPredicate::eq, tidx, zero);
// clang-format off		// clang-format off
rewriter.create<scf::IfOp>(		rewriter.create<scf::IfOp>(
/location=/loc,		/location=/loc,
Show All 24 Lines
}		}

static Attribute getSharedAddressSpaceAttribute(OpBuilder &b) {		static Attribute getSharedAddressSpaceAttribute(OpBuilder &b) {
return gpu::AddressSpaceAttr::get(		return gpu::AddressSpaceAttr::get(
b.getContext(), gpu::GPUDialect::getWorkgroupAddressSpace());		b.getContext(), gpu::GPUDialect::getWorkgroupAddressSpace());
// return b.getI64IntegerAttr(static_cast<int64_t>(kSharedMemorySpace));		// return b.getI64IntegerAttr(static_cast<int64_t>(kSharedMemorySpace));
}		}

TypedValue<nvgpu::MBarrierType>		TypedValue<nvgpu::MBarrierGroupType>
HopperBuilder::buildAndInitBarrierInSharedMemory(OpFoldResult numThreads) {		HopperBuilder::buildAndInitBarrierInSharedMemory(OpFoldResult numThreads) {
auto sharedMemorySpace = getSharedAddressSpaceAttribute(rewriter);		auto sharedMemorySpace = getSharedAddressSpaceAttribute(rewriter);
Value barrier = rewriter.create<nvgpu::MBarrierCreateOp>(		Value barrier = rewriter.create<nvgpu::MBarrierCreateOp>(
loc, nvgpu::MBarrierType::get(rewriter.getContext(), sharedMemorySpace));		loc,
		nvgpu::MBarrierGroupType::get(rewriter.getContext(), sharedMemorySpace));
		Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);
rewriter.create<nvgpu::MBarrierInitOp>(		rewriter.create<nvgpu::MBarrierInitOp>(
loc, barrier, getValueOrCreateConstantIndexOp(rewriter, loc, numThreads));		loc, barrier, getValueOrCreateConstantIndexOp(rewriter, loc, numThreads),
		zero);
rewriter.create<gpu::BarrierOp>(loc);		rewriter.create<gpu::BarrierOp>(loc);
return cast<TypedValue<nvgpu::MBarrierType>>(barrier);		return cast<TypedValue<nvgpu::MBarrierGroupType>>(barrier);
}		}

TypedValue<nvgpu::TensorMapDescriptorType>		TypedValue<nvgpu::TensorMapDescriptorType>
HopperBuilder::buildGlobalMemRefDescriptor(TypedValue<MemRefType> memref,		HopperBuilder::buildGlobalMemRefDescriptor(TypedValue<MemRefType> memref,
gpu::LaunchOp launchOp) {		gpu::LaunchOp launchOp) {
OpBuilder::InsertionGuard guard(rewriter);		OpBuilder::InsertionGuard guard(rewriter);
rewriter.setInsertionPoint(launchOp);		rewriter.setInsertionPoint(launchOp);
Value unrankedMemRef = rewriter.create<memref::CastOp>(		Value unrankedMemRef = rewriter.create<memref::CastOp>(
Show All 18 Lines	Value desc = rewriter.create<nvgpu::TmaCreateDescriptorOp>(
TensorMapInterleaveKind::INTERLEAVE_NONE),		TensorMapInterleaveKind::INTERLEAVE_NONE),
unrankedMemRef, sizes);		unrankedMemRef, sizes);
return cast<TypedValue<nvgpu::TensorMapDescriptorType>>(desc);		return cast<TypedValue<nvgpu::TensorMapDescriptorType>>(desc);
}		}

OpFoldResult HopperBuilder::buildTmaAsyncLoad(		OpFoldResult HopperBuilder::buildTmaAsyncLoad(
TypedValue<nvgpu::TensorMapDescriptorType> globalDesc,		TypedValue<nvgpu::TensorMapDescriptorType> globalDesc,
TypedValue<MemRefType> sharedMemref,		TypedValue<MemRefType> sharedMemref,
TypedValue<nvgpu::MBarrierType> barrier,		TypedValue<nvgpu::MBarrierGroupType> barrier,
SmallVectorImpl<Operation *> &loadOps) {		SmallVectorImpl<Operation *> &loadOps) {
MLIRContext *ctx = rewriter.getContext();		MLIRContext *ctx = rewriter.getContext();
Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);		Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);
Operation *loadOp = rewriter.create<nvgpu::TmaAsyncLoadOp>(		Operation *loadOp = rewriter.create<nvgpu::TmaAsyncLoadOp>(
loc, sharedMemref, barrier, globalDesc, ValueRange{zero, zero});		loc, sharedMemref, barrier, globalDesc, ValueRange{zero, zero}, zero);
loadOps.push_back(loadOp);		loadOps.push_back(loadOp);
auto mixedSizes = memref::getMixedSizes(rewriter, loc, sharedMemref);		auto mixedSizes = memref::getMixedSizes(rewriter, loc, sharedMemref);
SmallVector<AffineExpr> symbols(mixedSizes.size());		SmallVector<AffineExpr> symbols(mixedSizes.size());
bindSymbolsList(ctx, llvm::MutableArrayRef{symbols});		bindSymbolsList(ctx, llvm::MutableArrayRef{symbols});
AffineExpr prodExprInBytes =		AffineExpr prodExprInBytes =
computeProduct(ctx, symbols) *		computeProduct(ctx, symbols) *
(sharedMemref.getType().getElementTypeBitWidth() / 8);		(sharedMemref.getType().getElementTypeBitWidth() / 8);
auto res = affine::makeComposedFoldedAffineApply(rewriter, loc,		auto res = affine::makeComposedFoldedAffineApply(rewriter, loc,
prodExprInBytes, mixedSizes);		prodExprInBytes, mixedSizes);
return res;		return res;
}		}

void HopperBuilder::buildBarrierArriveTx(		void HopperBuilder::buildBarrierArriveTx(
TypedValue<nvgpu::MBarrierType> barrier,		TypedValue<nvgpu::MBarrierGroupType> barrier,
ArrayRef<OpFoldResult> mixedSizes) {		ArrayRef<OpFoldResult> mixedSizes) {
assert(!mixedSizes.empty() && "expecte non-empty sizes");		assert(!mixedSizes.empty() && "expecte non-empty sizes");
MLIRContext *ctx = rewriter.getContext();		MLIRContext *ctx = rewriter.getContext();
SmallVector<AffineExpr> symbols(mixedSizes.size());		SmallVector<AffineExpr> symbols(mixedSizes.size());
bindSymbolsList(ctx, llvm::MutableArrayRef{symbols});		bindSymbolsList(ctx, llvm::MutableArrayRef{symbols});
AffineExpr sumExpr = computeSum(ctx, symbols);		AffineExpr sumExpr = computeSum(ctx, symbols);
OpFoldResult size =		OpFoldResult size =
affine::makeComposedFoldedAffineApply(rewriter, loc, sumExpr, mixedSizes);		affine::makeComposedFoldedAffineApply(rewriter, loc, sumExpr, mixedSizes);
Value sizeVal = getValueOrCreateConstantIndexOp(rewriter, loc, size);		Value sizeVal = getValueOrCreateConstantIndexOp(rewriter, loc, size);
rewriter.create<nvgpu::MBarrierArriveExpectTxOp>(loc, barrier, sizeVal);		Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);
		rewriter.create<nvgpu::MBarrierArriveExpectTxOp>(loc, barrier, sizeVal, zero);
}		}

void HopperBuilder::buildTryWaitParity(		void HopperBuilder::buildTryWaitParity(
TypedValue<nvgpu::MBarrierType> barrier) {		TypedValue<nvgpu::MBarrierGroupType> barrier) {
Value parity = rewriter.create<arith::ConstantIndexOp>(loc, 0);		Value parity = rewriter.create<arith::ConstantIndexOp>(loc, 0);
// 10M is an arbitrary, not too small or too big number to specify the number		// 10M is an arbitrary, not too small or too big number to specify the number
// of ticks before retry.		// of ticks before retry.
// TODO: hoist this in a default dialect constant.		// TODO: hoist this in a default dialect constant.
Value ticksBeforeRetry =		Value ticksBeforeRetry =
rewriter.create<arith::ConstantIndexOp>(loc, 10000000);		rewriter.create<arith::ConstantIndexOp>(loc, 10000000);
		Value zero = rewriter.create<arith::ConstantIndexOp>(loc, 0);
rewriter.create<nvgpu::MBarrierTryWaitParityOp>(loc, barrier, parity,		rewriter.create<nvgpu::MBarrierTryWaitParityOp>(loc, barrier, parity,
ticksBeforeRetry);		ticksBeforeRetry, zero);
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// RewriteCopyAsTmaOp		// RewriteCopyAsTmaOp
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

/// Helper to create the tma operations corresponding to `linalg::CopyOp`.		/// Helper to create the tma operations corresponding to `linalg::CopyOp`.
struct CopyBuilder : public HopperBuilder {		struct CopyBuilder : public HopperBuilder {
Show All 17 Lines	SmallVector<Operation > CopyBuilder::rewrite(ArrayRef<Operation > copyOps) {
AffineExpr bx, by, bz;		AffineExpr bx, by, bz;
bindSymbols(ctx, bx, by, bz);		bindSymbols(ctx, bx, by, bz);
AffineExpr prod = computeProduct(ctx, ArrayRef<AffineExpr>{bx, by, bz});		AffineExpr prod = computeProduct(ctx, ArrayRef<AffineExpr>{bx, by, bz});
OpFoldResult numThreads = affine::makeComposedFoldedAffineApply(		OpFoldResult numThreads = affine::makeComposedFoldedAffineApply(
rewriter, loc, prod,		rewriter, loc, prod,
ArrayRef<OpFoldResult>{launchOp.getBlockSizeX(), launchOp.getBlockSizeY(),		ArrayRef<OpFoldResult>{launchOp.getBlockSizeX(), launchOp.getBlockSizeY(),
launchOp.getBlockSizeZ()});		launchOp.getBlockSizeZ()});

TypedValue<nvgpu::MBarrierType> barrier =		TypedValue<nvgpu::MBarrierGroupType> barrier =
buildAndInitBarrierInSharedMemory(numThreads);		buildAndInitBarrierInSharedMemory(numThreads);

SmallVector<TypedValue<MemRefType>> shmems;		SmallVector<TypedValue<MemRefType>> shmems;
SmallVector<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescs;		SmallVector<TypedValue<nvgpu::TensorMapDescriptorType>> globalDescs;
for (Operation *op : copyOps) {		for (Operation *op : copyOps) {
auto copyOp = cast<linalg::CopyOp>(op);		auto copyOp = cast<linalg::CopyOp>(op);
auto inMemRef =		auto inMemRef =
cast<TypedValue<MemRefType>>(copyOp.getDpsInputOperand(0)->get());		cast<TypedValue<MemRefType>>(copyOp.getDpsInputOperand(0)->get());
▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

Show First 20 Lines • Show All 464 Lines • ▼ Show 20 Lines	func.func @mma_sp_sync_i8_16864(%arg0: vector<4x4xi8>,
// CHECK-SAME: %[[sparseMetadata]] :		// CHECK-SAME: %[[sparseMetadata]] :
// CHECK-SAME: -> !llvm.struct<(i32, i32, i32, i32)		// CHECK-SAME: -> !llvm.struct<(i32, i32, i32, i32)

%d = nvgpu.mma.sp.sync(%arg0, %arg1, %arg2) metadata(%arg3) {mmaShape = [16, 8, 64]} :		%d = nvgpu.mma.sp.sync(%arg0, %arg1, %arg2) metadata(%arg3) {mmaShape = [16, 8, 64]} :
(vector<4x4xi8>, vector<4x4xi8>, vector<2x2xi32>) -> vector<2x2xi32>		(vector<4x4xi8>, vector<4x4xi8>, vector<2x2xi32>) -> vector<2x2xi32>
return %d : vector<2x2xi32>		return %d : vector<2x2xi32>
}		}

!barrierType = !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		!barrierType = !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>>
!tokenType = !nvgpu.mbarrier.token		!tokenType = !nvgpu.mbarrier.token

// CHECK-LABEL: func @mbarrier		// CHECK-LABEL: func @mbarrier
func.func @mbarrier() {		func.func @mbarrier() {
%num_threads = arith.constant 128 : index		%num_threads = arith.constant 128 : index
		// CHECK: %[[c0:.+]] = arith.constant 0 : index
		// CHECK: %[[mid:.+]] = builtin.unrealized_conversion_cast %[[c0]] : index to i64
		%c0 = arith.constant 0 : index

// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>		// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>
%barrier = nvgpu.mbarrier.create -> !barrierType		%barrier = nvgpu.mbarrier.create -> !barrierType

// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
// CHECK: %[[barPtr:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr:.+]] = llvm.getelementptr %[[base]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]		// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]
nvgpu.mbarrier.init %barrier, %num_threads : !barrierType		nvgpu.mbarrier.init %barrier[%c0], %num_threads : !barrierType

// CHECK: %[[barPtr2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr2:.+]] = llvm.getelementptr %[[base2]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: %[[token:.+]] = nvvm.mbarrier.arrive.shared %[[barPtr2]]		// CHECK: %[[token:.+]] = nvvm.mbarrier.arrive.shared %[[barPtr2]]
%token = nvgpu.mbarrier.arrive %barrier : !barrierType -> !tokenType		%token = nvgpu.mbarrier.arrive %barrier[%c0] : !barrierType -> !tokenType

// CHECK: %[[barPtr3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr3:.+]] = llvm.getelementptr %[[base3]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.test.wait.shared %[[barPtr3]], %[[token]]		// CHECK: nvvm.mbarrier.test.wait.shared %[[barPtr3]], %[[token]]
%isDone = nvgpu.mbarrier.test.wait %barrier, %token : !barrierType, !tokenType		%isDone = nvgpu.mbarrier.test.wait %barrier[%c0], %token : !barrierType, !tokenType

func.return		func.return
}		}

// CHECK-LABEL: func @mbarrier_nocomplete		// CHECK-LABEL: func @mbarrier_nocomplete
func.func @mbarrier_nocomplete() {		func.func @mbarrier_nocomplete() {
%num_threads = arith.constant 128 : index		%num_threads = arith.constant 128 : index
%count = arith.constant 12 : index		%count = arith.constant 12 : index
		// CHECK: %[[c0:.+]] = arith.constant 0 : index
		// CHECK: %[[mid:.+]] = builtin.unrealized_conversion_cast %[[c0]] : index to i64
		%c0 = arith.constant 0 : index

// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>		// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>
%barrier = nvgpu.mbarrier.create -> !barrierType		%barrier = nvgpu.mbarrier.create -> !barrierType

// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
// CHECK: %[[barPtr:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr:.+]] = llvm.getelementptr %[[base]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]		// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]
nvgpu.mbarrier.init %barrier, %num_threads : !barrierType		nvgpu.mbarrier.init %barrier[%c0], %num_threads : !barrierType

// CHECK: %[[barPtr2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr2:.+]] = llvm.getelementptr %[[base2]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: %[[token:.+]] = nvvm.mbarrier.arrive.nocomplete.shared %[[barPtr2]]		// CHECK: %[[token:.+]] = nvvm.mbarrier.arrive.nocomplete.shared %[[barPtr2]]
%token = nvgpu.mbarrier.arrive.nocomplete %barrier, %count : !barrierType -> !tokenType		%token = nvgpu.mbarrier.arrive.nocomplete %barrier[%c0], %count : !barrierType -> !tokenType

// CHECK: %[[barPtr3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr3:.+]] = llvm.getelementptr %[[base3]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.test.wait.shared %[[barPtr3]], %[[token]]		// CHECK: nvvm.mbarrier.test.wait.shared %[[barPtr3]], %[[token]]
%isDone = nvgpu.mbarrier.test.wait %barrier, %token : !barrierType, !tokenType		%isDone = nvgpu.mbarrier.test.wait %barrier[%c0], %token : !barrierType, !tokenType

func.return		func.return
}		}

		// CHECK-LABEL: func @mbarrier_wait
		func.func @mbarrier_wait(%barriers : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 5>, %token : !tokenType) {
		%c0 = arith.constant 0 : index
		%c1 = arith.constant 1 : index
		%n = arith.constant 100 : index

		%numBarriers = arith.constant 5 : index

		scf.for %i = %c0 to %n step %c1 {
		// CHECK: %[[c5:.+]] = arith.constant 5 : index
		// CHECK: scf.for %[[i:.*]] =
		// CHECK: %[[S2:.+]] = arith.remui %[[i]], %[[c5]] : index
		// CHECK: %[[S3:.+]] = builtin.unrealized_conversion_cast %[[S2]] : index to i64
		// CHECK: %[[S4:.+]] = llvm.extractvalue %0[1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[S5:.+]] = llvm.getelementptr %[[S4]][%[[S3]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
		%mbarId = arith.remui %i, %numBarriers : index
		%isDone = nvgpu.mbarrier.test.wait %barriers[%mbarId], %token : !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>, num_barriers = 5>, !tokenType
		}
		return
		}

// CHECK-LABEL: func @mbarrier_txcount		// CHECK-LABEL: func @mbarrier_txcount
func.func @mbarrier_txcount() {		func.func @mbarrier_txcount() {
%num_threads = arith.constant 128 : index		%num_threads = arith.constant 128 : index
		// CHECK: %[[c0:.+]] = arith.constant 0 : index
		// CHECK: %[[mid:.+]] = builtin.unrealized_conversion_cast %[[c0]] : index to i64
		%c0 = arith.constant 0 : index

// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>		// CHECK: %[[barMemref:.+]] = memref.get_global @__mbarrier{{.*}} : memref<1xi64, 3>
%barrier = nvgpu.mbarrier.create -> !barrierType		%barrier = nvgpu.mbarrier.create -> !barrierType

// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[barStr:.+]] = builtin.unrealized_conversion_cast %[[barMemref]] : memref<1xi64, 3> to !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
// CHECK: %[[barPtr:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr:.+]] = llvm.getelementptr %[[base]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]		// CHECK: nvvm.mbarrier.init.shared %[[barPtr]]
nvgpu.mbarrier.init %barrier, %num_threads : !barrierType		nvgpu.mbarrier.init %barrier[%c0], %num_threads : !barrierType

%c0 = arith.constant 0 : index
%tidxreg = nvvm.read.ptx.sreg.tid.x : i32		%tidxreg = nvvm.read.ptx.sreg.tid.x : i32
%tidx = arith.index_cast %tidxreg : i32 to index		%tidx = arith.index_cast %tidxreg : i32 to index
%cnd = arith.cmpi eq, %tidx, %c0 : index		%cnd = arith.cmpi eq, %tidx, %c0 : index

scf.if %cnd {		scf.if %cnd {
%txcount = arith.constant 256 : index		%txcount = arith.constant 256 : index
// CHECK: %[[barPtr2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr2:.+]] = llvm.getelementptr %[[base2]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.arrive.expect_tx.shared %[[barPtr2]]		// CHECK: nvvm.mbarrier.arrive.expect_tx.shared %[[barPtr2]]
nvgpu.mbarrier.arrive.expect_tx %barrier, %txcount : !barrierType		nvgpu.mbarrier.arrive.expect_tx %barrier[%c0], %txcount : !barrierType
scf.yield		scf.yield
} else {		} else {
%txcount = arith.constant 0 : index		%txcount = arith.constant 0 : index
// CHECK: %[[barPtr2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base2:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr2:.+]] = llvm.getelementptr %[[base2]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.arrive.expect_tx.shared %[[barPtr2]]		// CHECK: nvvm.mbarrier.arrive.expect_tx.shared %[[barPtr2]]
nvgpu.mbarrier.arrive.expect_tx %barrier, %txcount : !barrierType		nvgpu.mbarrier.arrive.expect_tx %barrier[%c0], %txcount : !barrierType
scf.yield		scf.yield
}		}


%phase = arith.constant 0 : index		%phase = arith.constant 0 : index
%ticks = arith.constant 10000000 : index		%ticks = arith.constant 10000000 : index
// CHECK: %[[barPtr3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>		// CHECK: %[[base3:.+]] = llvm.extractvalue %[[barStr]][1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<1 x i64>, array<1 x i64>)>
		// CHECK: %[[barPtr3:.+]] = llvm.getelementptr %[[base3]][%[[mid]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, i64
// CHECK: nvvm.mbarrier.try_wait.parity.shared %[[barPtr3]]		// CHECK: nvvm.mbarrier.try_wait.parity.shared %[[barPtr3]]
nvgpu.mbarrier.try_wait.parity %barrier, %phase, %ticks : !barrierType		nvgpu.mbarrier.try_wait.parity %barrier[%c0], %phase, %ticks : !barrierType

func.return		func.return
}		}

// CHECK-LABEL: func @async_tma_load		// CHECK-LABEL: func @async_tma_load
!tensorMap1d = !nvgpu.tensormap.descriptor<tensor = memref<128xf32,3>, swizzle=none, l2promo = none, oob = nan, interleave = none>		!tensorMap1d = !nvgpu.tensormap.descriptor<tensor = memref<128xf32,3>, swizzle=none, l2promo = none, oob = nan, interleave = none>
!tensorMap2d = !nvgpu.tensormap.descriptor<tensor = memref<32x32xf32,3>, swizzle=swizzle_32b, l2promo = none, oob = zero, interleave = none>		!tensorMap2d = !nvgpu.tensormap.descriptor<tensor = memref<32x32xf32,3>, swizzle=swizzle_32b, l2promo = none, oob = zero, interleave = none>
!tensorMap3d = !nvgpu.tensormap.descriptor<tensor = memref<2x32x32xf32,3>, swizzle=swizzle_64b, l2promo = l2promo_64b, oob = zero, interleave = none>		!tensorMap3d = !nvgpu.tensormap.descriptor<tensor = memref<2x32x32xf32,3>, swizzle=swizzle_64b, l2promo = l2promo_64b, oob = zero, interleave = none>
!tensorMap4d = !nvgpu.tensormap.descriptor<tensor = memref<2x2x32x32xf32,3>, swizzle=swizzle_128b,l2promo = l2promo_128b,oob = zero, interleave = interleave_16b>		!tensorMap4d = !nvgpu.tensormap.descriptor<tensor = memref<2x2x32x32xf32,3>, swizzle=swizzle_128b,l2promo = l2promo_128b,oob = zero, interleave = interleave_16b>
!tensorMap5d = !nvgpu.tensormap.descriptor<tensor = memref<2x2x2x32x32xf32,3>, swizzle=none, l2promo = none, oob = zero, interleave = none>		!tensorMap5d = !nvgpu.tensormap.descriptor<tensor = memref<2x2x2x32x32xf32,3>, swizzle=none, l2promo = none, oob = zero, interleave = none>
!mbarrier = !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>		!mbarrier = !nvgpu.mbarrier.group<memorySpace = #gpu.address_space<workgroup>>
func.func @async_tma_load(%tensorMap1d: !tensorMap1d, %tensorMap2d: !tensorMap2d, %tensorMap3d: !tensorMap3d, %tensorMap4d: !tensorMap4d, %tensorMap5d: !tensorMap5d,		func.func @async_tma_load(%tensorMap1d: !tensorMap1d, %tensorMap2d: !tensorMap2d, %tensorMap3d: !tensorMap3d, %tensorMap4d: !tensorMap4d, %tensorMap5d: !tensorMap5d,
%buffer1d: memref<128xf32,3>,		%buffer1d: memref<128xf32,3>,
%buffer2d: memref<32x32xf32,3>,		%buffer2d: memref<32x32xf32,3>,
%buffer3d: memref<2x32x32xf32,3>,		%buffer3d: memref<2x32x32xf32,3>,
%buffer4d: memref<2x2x32x32xf32,3>,		%buffer4d: memref<2x2x32x32xf32,3>,
%buffer5d: memref<2x2x2x32x32xf32,3>,		%buffer5d: memref<2x2x2x32x32xf32,3>,
%mbarrier: !mbarrier) {		%mbarrier: !mbarrier) {
		%c0 = arith.constant 0 : index
%crd0 = arith.constant 0 : index		%crd0 = arith.constant 0 : index
%crd1 = arith.constant 0 : index		%crd1 = arith.constant 0 : index
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}]		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}]
nvgpu.tma.async.load %tensorMap1d[%crd0], %mbarrier to %buffer1d : !tensorMap1d, !mbarrier -> memref<128xf32,3>		nvgpu.tma.async.load %tensorMap1d[%crd0], %mbarrier[%c0] to %buffer1d : !tensorMap1d, !mbarrier -> memref<128xf32,3>
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.*}}]		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.*}}]
nvgpu.tma.async.load %tensorMap2d[%crd0, %crd1], %mbarrier to %buffer2d : !tensorMap2d, !mbarrier -> memref<32x32xf32,3>		nvgpu.tma.async.load %tensorMap2d[%crd0, %crd1], %mbarrier[%c0] to %buffer2d : !tensorMap2d, !mbarrier -> memref<32x32xf32,3>
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}]		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}]
nvgpu.tma.async.load %tensorMap3d[%crd0, %crd1, %crd0], %mbarrier to %buffer3d : !tensorMap3d, !mbarrier -> memref<2x32x32xf32,3>		nvgpu.tma.async.load %tensorMap3d[%crd0, %crd1, %crd0], %mbarrier[%c0] to %buffer3d : !tensorMap3d, !mbarrier -> memref<2x32x32xf32,3>
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}, %{{.*}}]		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}, %{{.*}}]
nvgpu.tma.async.load %tensorMap4d[%crd0, %crd1, %crd1, %crd0], %mbarrier to %buffer4d : !tensorMap4d, !mbarrier -> memref<2x2x32x32xf32,3>		nvgpu.tma.async.load %tensorMap4d[%crd0, %crd1, %crd1, %crd0], %mbarrier[%c0] to %buffer4d : !tensorMap4d, !mbarrier -> memref<2x2x32x32xf32,3>
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}, %{{.}}, %{{.}}]		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %{{.}}, %{{.}}, %{{.}}, box[%{{.}}, %{{.}}, %{{.}}, %{{.}}, %{{.}}]
nvgpu.tma.async.load %tensorMap5d[%crd0, %crd1, %crd1, %crd0, %crd0], %mbarrier to %buffer5d : !tensorMap5d, !mbarrier -> memref<2x2x2x32x32xf32,3>		nvgpu.tma.async.load %tensorMap5d[%crd0, %crd1, %crd1, %crd0, %crd0], %mbarrier[%c0] to %buffer5d : !tensorMap5d, !mbarrier -> memref<2x2x2x32x32xf32,3>
func.return		func.return
}		}

func.func @create_tensor_map(%devicePtr2d : memref<64x128xf32>, %devicePtr1d : memref<128xf32>) {		func.func @create_tensor_map(%devicePtr2d : memref<64x128xf32>, %devicePtr1d : memref<128xf32>) {
%crd0 = arith.constant 64 : index		%crd0 = arith.constant 64 : index
%crd1 = arith.constant 128 : index		%crd1 = arith.constant 128 : index
%devicePtr2d_unranked = memref.cast %devicePtr2d : memref<64x128xf32> to memref<*xf32>		%devicePtr2d_unranked = memref.cast %devicePtr2d : memref<64x128xf32> to memref<*xf32>
// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref		// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref
Show All 18 Lines	module @mymodule {
func.func @async_tma_load(%lhsTensorMap: !lhsTensorMap, %rhsTensorMap: !rhsTensorMap, %mbarrier: !barrierType) {		func.func @async_tma_load(%lhsTensorMap: !lhsTensorMap, %rhsTensorMap: !rhsTensorMap, %mbarrier: !barrierType) {
%c0 = arith.constant 0 : index		%c0 = arith.constant 0 : index
%dynamicMem = memref.get_global @dynamicShmem : memref<0xf16, 3>		%dynamicMem = memref.get_global @dynamicShmem : memref<0xf16, 3>
%lhsShmem = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [128,64], strides: [64,1] : memref<0xf16, 3> to !shmemlhs		%lhsShmem = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [128,64], strides: [64,1] : memref<0xf16, 3> to !shmemlhs
%rhsShmem2 = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [2,64,128], strides: [8192,128,1] : memref<0xf16, 3> to memref<2x64x128xf16,3>		%rhsShmem2 = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [2,64,128], strides: [8192,128,1] : memref<0xf16, 3> to memref<2x64x128xf16,3>
%rhsShmem3 = memref.subview %rhsShmem2[1,0,0][1, 64, 128][1, 1, 1] : memref<2x64x128xf16,3> to memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3>		%rhsShmem3 = memref.subview %rhsShmem2[1,0,0][1, 64, 128][1, 1, 1] : memref<2x64x128xf16,3> to memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3>
%rhsShmem = memref.subview %rhsShmem3[0,0,0][1, 64, 128][1, 1, 1] : memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3> to !shmemrhs		%rhsShmem = memref.subview %rhsShmem3[0,0,0][1, 64, 128][1, 1, 1] : memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3> to !shmemrhs
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global
nvgpu.tma.async.load %lhsTensorMap[%c0, %c0], %mbarrier to %lhsShmem : !lhsTensorMap, !barrierType -> !shmemlhs		nvgpu.tma.async.load %lhsTensorMap[%c0, %c0], %mbarrier[%c0] to %lhsShmem : !lhsTensorMap, !barrierType -> !shmemlhs
// CHECK: %[[desc:.+]] = llvm.extractvalue %{{.*}}[1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<2 x i64>, array<2 x i64>)>		// CHECK: %[[desc:.+]] = llvm.extractvalue %{{.*}}[1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<2 x i64>, array<2 x i64>)>
// CHECK: %[[c8192:.+]] = llvm.mlir.constant(8192 : index) : i64		// CHECK: %[[c8192:.+]] = llvm.mlir.constant(8192 : index) : i64
// CHECK: %[[shmemOfset:.+]] = llvm.getelementptr %[[desc]][%[[c8192]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, f16		// CHECK: %[[shmemOfset:.+]] = llvm.getelementptr %[[desc]][%[[c8192]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, f16
// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %[[shmemOfset]], %{{.}}, %{{.}}, box[%{{.}}, %{{.}}] : !llvm.ptr<3>, !llvm.ptr, !llvm.ptr<3>, i32, i32		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %[[shmemOfset]], %{{.}}, %{{.}}, box[%{{.}}, %{{.}}] : !llvm.ptr<3>, !llvm.ptr, !llvm.ptr<3>, i32, i32
nvgpu.tma.async.load %rhsTensorMap[%c0, %c0], %mbarrier to %rhsShmem : !rhsTensorMap, !barrierType -> !shmemrhs		nvgpu.tma.async.load %rhsTensorMap[%c0, %c0], %mbarrier[%c0] to %rhsShmem : !rhsTensorMap, !barrierType -> !shmemrhs
return		return
}		}
}		}

!tensorMap = !nvgpu.tensormap.descriptor<tensor = memref<128x64xf16,3>, swizzle = swizzle_128b, l2promo=none, oob=zero, interleave=none>		!tensorMap = !nvgpu.tensormap.descriptor<tensor = memref<128x64xf16,3>, swizzle = swizzle_128b, l2promo=none, oob=zero, interleave=none>
memref.global "private" @dynamicShmem : memref<0xf16,3>		memref.global "private" @dynamicShmem : memref<0xf16,3>
// CHECK-LABEL: func @create_wgmma_descriptor(		// CHECK-LABEL: func @create_wgmma_descriptor(
func.func @create_wgmma_descriptor(%tensorMap : !tensorMap) -> !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>{		func.func @create_wgmma_descriptor(%tensorMap : !tensorMap) -> !nvgpu.wgmma.descriptor<tensor=memref<128x64xf16,3>>{
Show All 40 Lines	%0 = transform.structured.match ops{["func.func"]} in %arg1
: (!transform.any_op) -> !transform.any_op		: (!transform.any_op) -> !transform.any_op
transform.apply_conversion_patterns to %0 {		transform.apply_conversion_patterns to %0 {
transform.apply_conversion_patterns.nvgpu.nvgpu_to_nvvm		transform.apply_conversion_patterns.nvgpu.nvgpu_to_nvvm
} with type_converter {		} with type_converter {
transform.apply_conversion_patterns.memref.memref_to_llvm_type_converter		transform.apply_conversion_patterns.memref.memref_to_llvm_type_converter
{use_opaque_pointers = true}		{use_opaque_pointers = true}
} {legal_dialects = ["arith", "func", "llvm", "memref", "nvvm", "scf"], partial_conversion} : !transform.any_op		} {legal_dialects = ["arith", "func", "llvm", "memref", "nvvm", "scf"], partial_conversion} : !transform.any_op
}		}
No newline at end of file		No newline at end of file

This is an archive of the discontinued LLVM Phabricator instance.

[MLIR][NVGPU] Introducing the `nvgpu.mbarrier.group` TypeAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 555760

mlir/include/mlir/Conversion/NVGPUToNVVM/NVGPUToNVVM.h

mlir/include/mlir/Dialect/NVGPU/IR/NVGPU.td

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

mlir/lib/Dialect/NVGPU/TransformOps/NVGPUTransformOps.cpp

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

[MLIR][NVGPU] Introducing the `nvgpu.mbarrier.group` Type
AbandonedPublic