This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
mlir/
-
lib/Conversion/NVGPUToNVVM/
-
Conversion/
-
NVGPUToNVVM/
-
NVGPUToNVVM.cpp
-
test/Conversion/NVGPUToNVVM/
-
Conversion/
-
NVGPUToNVVM/
-
nvgpu-to-nvvm.mlir

Differential D157380

[MLIR][NVGPU] Handling Offset in `nvgpu.tma.async.load`
ClosedPublic

Authored by guraypp on Aug 8 2023, 2:38 AM.

Download Raw Diff

Details

Reviewers

qcolombet
nicolasvasilache
herhut

Commits

rG50a76a7d73db: [MLIR][NVGPU] Handling Offset in `nvgpu.tma.async.load`

Summary

When using nvgpu.tma.async.load Op to asynchronously load data into shared memory, it fails to account for provided offsets, potentially leading to incorrect memory access. Using offset is common practice especially with the dynamic shared memory. This work addresses the problem by ensuring proper consideration of offsets.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

guraypp created this revision.Aug 8 2023, 2:38 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 8 2023, 2:38 AM

Herald added subscribers: bviyer, Moerafaat, zero9178 and 24 others. · View Herald Transcript

guraypp requested review of this revision.Aug 8 2023, 2:38 AM

Herald added a reviewer: herhut. · View Herald TranscriptAug 8 2023, 2:38 AM

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: stephenneuendorffer, jholewinski. · View Herald Transcript

Harbormaster completed remote builds in B251039: Diff 548127.Aug 8 2023, 4:08 AM

nicolasvasilache accepted this revision.Aug 8 2023, 4:23 AM

This revision is now accepted and ready to land.Aug 8 2023, 4:23 AM

Closed by commit rG50a76a7d73db: [MLIR][NVGPU] Handling Offset in `nvgpu.tma.async.load` (authored by guraypp). · Explain WhyAug 8 2023, 4:25 AM

This revision was automatically updated to reflect the committed changes.

guraypp added a commit: rG50a76a7d73db: [MLIR][NVGPU] Handling Offset in `nvgpu.tma.async.load`.

Revision Contents

Path

Size

mlir/

lib/

Conversion/

NVGPUToNVVM/

NVGPUToNVVM.cpp

5 lines

test/

Conversion/

NVGPUToNVVM/

nvgpu-to-nvvm.mlir

32 lines

Diff 548146

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

	Show First 20 Lines • Show All 908 Lines • ▼ Show 20 Lines
	};			};

	struct NVGPUTmaAsyncLoadOpLowering			struct NVGPUTmaAsyncLoadOpLowering
	: public ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp> {			: public ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp> {
	using ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp>::ConvertOpToLLVMPattern;			using ConvertOpToLLVMPattern<nvgpu::TmaAsyncLoadOp>::ConvertOpToLLVMPattern;
	LogicalResult			LogicalResult
	matchAndRewrite(nvgpu::TmaAsyncLoadOp op, OpAdaptor adaptor,			matchAndRewrite(nvgpu::TmaAsyncLoadOp op, OpAdaptor adaptor,
	ConversionPatternRewriter &rewriter) const override {			ConversionPatternRewriter &rewriter) const override {
	auto dest = rewriter.create<LLVM::ExtractValueOp>(op->getLoc(),			auto srcMemrefType = cast<MemRefType>(op.getDst().getType());
	adaptor.getDst(), 1);			Value dest = getStridedElementPtr(op->getLoc(), srcMemrefType,
				adaptor.getDst(), {}, rewriter);
	Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),			Value barrier = getMbarrierPtr(rewriter, *getTypeConverter(),
	op.getBarrier(), adaptor.getBarrier());			op.getBarrier(), adaptor.getBarrier());

	SmallVector<Value> coords = adaptor.getCoordinates();			SmallVector<Value> coords = adaptor.getCoordinates();
	for (auto [index, value] : llvm::enumerate(coords)) {			for (auto [index, value] : llvm::enumerate(coords)) {
	coords[index] = truncToI32(rewriter, op->getLoc(), value);			coords[index] = truncToI32(rewriter, op->getLoc(), value);
	}			}

	▲ Show 20 Lines • Show All 139 Lines • Show Last 20 Lines

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

Show First 20 Lines • Show All 641 Lines • ▼ Show 20 Lines	func.func @create_tensor_map(%devicePtr2d : memref<64x128xf32>, %devicePtr1d : memref<128xf32>) {
// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref		// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref
%tensorMap2d = nvgpu.tma.create.descriptor %devicePtr2d_unranked box[%crd0, %crd1] : memref<*xf32> -> !tensorMap2d		%tensorMap2d = nvgpu.tma.create.descriptor %devicePtr2d_unranked box[%crd0, %crd1] : memref<*xf32> -> !tensorMap2d

%devicePtr1d_unranked = memref.cast %devicePtr1d : memref<128xf32> to memref<*xf32>		%devicePtr1d_unranked = memref.cast %devicePtr1d : memref<128xf32> to memref<*xf32>
// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref		// CHECK : llvm.call @mgpuTensorMapEncodeTiledMemref
%tensorMap1d = nvgpu.tma.create.descriptor %devicePtr1d_unranked box[%crd1] : memref<*xf32> -> !tensorMap1d		%tensorMap1d = nvgpu.tma.create.descriptor %devicePtr1d_unranked box[%crd1] : memref<*xf32> -> !tensorMap1d
func.return		func.return
}		}

		// -----

		!lhsTensorMap = !nvgpu.tensormap.descriptor<tensor = memref<128x64xf16, 3>, swizzle = swizzle_128b, l2promo = none, oob = zero, interleave = none>
		!rhsTensorMap = !nvgpu.tensormap.descriptor<tensor = memref<64x128xf16, strided<[128, 1], offset: 8192>, 3>, swizzle = swizzle_128b, l2promo = none, oob = zero, interleave = none>

		!barrierType = !nvgpu.mbarrier.barrier<memorySpace = #gpu.address_space<workgroup>>

		!shmemlhs = memref<128x64xf16,3>
		!shmemrhs = memref<64x128xf16, strided<[128, 1], offset: 8192>, 3>

		module @mymodule {
		// Dynamic Shared memory
		memref.global "private" @dynamicShmem : memref<0xf16,3>

		func.func @async_tma_load(%lhsTensorMap: !lhsTensorMap, %rhsTensorMap: !rhsTensorMap, %mbarrier: !barrierType) {
		%c0 = arith.constant 0 : index
		%dynamicMem = memref.get_global @dynamicShmem : memref<0xf16, 3>
		%lhsShmem = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [128,64], strides: [64,1] : memref<0xf16, 3> to !shmemlhs
		%rhsShmem2 = memref.reinterpret_cast %dynamicMem to offset: [0], sizes: [2,64,128], strides: [8192,128,1] : memref<0xf16, 3> to memref<2x64x128xf16,3>
		%rhsShmem3 = memref.subview %rhsShmem2[1,0,0][1, 64, 128][1, 1, 1] : memref<2x64x128xf16,3> to memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3>
		%rhsShmem = memref.subview %rhsShmem3[0,0,0][1, 64, 128][1, 1, 1] : memref<1x64x128xf16, strided<[8192, 128, 1], offset: 8192>, 3> to !shmemrhs
		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global
		nvgpu.tma.async.load %lhsTensorMap[%c0, %c0], %mbarrier to %lhsShmem : !lhsTensorMap, !barrierType -> !shmemlhs
		// CHECK: %[[desc:.+]] = llvm.extractvalue %{{.*}}[1] : !llvm.struct<(ptr<3>, ptr<3>, i64, array<2 x i64>, array<2 x i64>)>
		// CHECK: %[[c8192:.+]] = llvm.mlir.constant(8192 : index) : i64
		// CHECK: %[[shmemOfset:.+]] = llvm.getelementptr %[[desc]][%[[c8192]]] : (!llvm.ptr<3>, i64) -> !llvm.ptr<3>, f16
		// CHECK: nvvm.cp.async.bulk.tensor.shared.cluster.global %[[shmemOfset]], %{{.}}, %{{.}}, box[%{{.}}, %{{.}}] : !llvm.ptr<3>, !llvm.ptr, !llvm.ptr<3>, i32, i32
		nvgpu.tma.async.load %rhsTensorMap[%c0, %c0], %mbarrier to %rhsShmem : !rhsTensorMap, !barrierType -> !shmemrhs
		return
		}
		}