This is an archive of the discontinued LLVM Phabricator instance.

	Show First 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
	};			};

	static void emitCpAsyncOpZfillAsm(Location loc, Value dstPtr, Value srcPtr,			static void emitCpAsyncOpZfillAsm(Location loc, Value dstPtr, Value srcPtr,
	Value dstBytes, Value srcElements,			Value dstBytes, Value srcElements,
	mlir::MemRefType elementType,			mlir::MemRefType elementType,
	ConversionPatternRewriter &rewriter) {			ConversionPatternRewriter &rewriter) {
	auto asmDialectAttr = LLVM::AsmDialectAttr::get(rewriter.getContext(),			auto asmDialectAttr = LLVM::AsmDialectAttr::get(rewriter.getContext(),
	LLVM::AsmDialect::AD_ATT);			LLVM::AsmDialect::AD_ATT);
	const char *asmStr = "cp.async.cg.shared.global [$0], [$1], $2, $3;\n";
				const char *cpAsyncCgStr = "cp.async.cg.shared.global [$0], [$1], $2, $3;\n";
				const char *cpAsyncCaStr = "cp.async.ca.shared.global [$0], [$1], $2, $3;\n";
	const char *asmConstraints = "r,l,n,r";			const char *asmConstraints = "r,l,n,r";

	Value c3I32 = rewriter.create<LLVM::ConstantOp>(			Value c3I32 = rewriter.create<LLVM::ConstantOp>(
	loc, rewriter.getI32Type(), rewriter.getI32IntegerAttr(3));			loc, rewriter.getI32Type(), rewriter.getI32IntegerAttr(3));
	Value bitwidth = rewriter.create<LLVM::ConstantOp>(			Value bitwidth = rewriter.create<LLVM::ConstantOp>(
	loc, rewriter.getI32Type(),			loc, rewriter.getI32Type(),
	rewriter.getI32IntegerAttr(elementType.getElementTypeBitWidth()));			rewriter.getI32IntegerAttr(elementType.getElementTypeBitWidth()));
	Value srcElementsI32 =			Value srcElementsI32 =
	rewriter.create<LLVM::TruncOp>(loc, rewriter.getI32Type(), srcElements);			rewriter.create<LLVM::TruncOp>(loc, rewriter.getI32Type(), srcElements);
	Value srcBytes = rewriter.create<LLVM::LShrOp>(			Value srcBytes = rewriter.create<LLVM::LShrOp>(
	loc, rewriter.create<LLVM::MulOp>(loc, bitwidth, srcElementsI32), c3I32);			loc, rewriter.create<LLVM::MulOp>(loc, bitwidth, srcElementsI32), c3I32);

	SmallVector<Value> asmVals{dstPtr, srcPtr, dstBytes, srcBytes};			SmallVector<Value> asmVals{dstPtr, srcPtr, dstBytes, srcBytes};

				// Pick the right asm string based on the dstBytes which is a compile-time
				// constant.
				auto dstByteConstOp =
				dyn_cast<mlir::LLVM::ConstantOp>(dstBytes.getDefiningOp());
				auto dstByteAttr = dstByteConstOp.getValue().dyn_cast<mlir::IntegerAttr>();
				int64_t dstByteVal = dstByteAttr.getValue().getSExtValue();

				assert((dstByteVal == 4 \|\| dstByteVal == 8 \|\| dstByteVal == 16) &&
				"cp.async byte copy size must be 4, 8 or 16");
				// Cache global (.cg) for 16 dst bytes, Cache all (.ca) for sizes other than
				// 16 dst bytes.
				const char *asmStr = (dstByteVal == 16) ? cpAsyncCgStr : cpAsyncCaStr;

	rewriter.create<LLVM::InlineAsmOp>(			rewriter.create<LLVM::InlineAsmOp>(
	loc, LLVM::LLVMVoidType::get(rewriter.getContext()),			loc, LLVM::LLVMVoidType::get(rewriter.getContext()),
	/operands=/asmVals,			/operands=/asmVals,
	/asm_string=/asmStr,			/asm_string=/asmStr,
	/constraints=/asmConstraints, /has_side_effects=/true,			/constraints=/asmConstraints, /has_side_effects=/true,
	/is_align_stack=/false, /asm_dialect=/asmDialectAttr,			/is_align_stack=/false, /asm_dialect=/asmDialectAttr,
	/operand_attrs=/ArrayAttr());			/operand_attrs=/ArrayAttr());
	}			}
	▲ Show 20 Lines • Show All 291 Lines • Show Last 20 Lines

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

Show First 20 Lines • Show All 289 Lines • ▼ Show 20 Lines	func.func @async_cp_i4(
// CHECK-DAG: %[[CAST2:.*]] = llvm.addrspacecast %[[ADDRESSSRC]] : !llvm.ptr to !llvm.ptr<1>		// CHECK-DAG: %[[CAST2:.*]] = llvm.addrspacecast %[[ADDRESSSRC]] : !llvm.ptr to !llvm.ptr<1>
// CHECK-DAG: nvvm.cp.async.shared.global %[[ADDRESSDST]], %[[CAST2]], 16		// CHECK-DAG: nvvm.cp.async.shared.global %[[ADDRESSDST]], %[[CAST2]], 16
%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i], 32 : memref<128x64xi4> to memref<128x128xi4, 3>		%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i], 32 : memref<128x64xi4> to memref<128x128xi4, 3>
return %0 : !nvgpu.device.async.token		return %0 : !nvgpu.device.async.token
}		}

// -----		// -----

// CHECK-LABEL: @async_cp_zfill(		// CHECK-LABEL: @async_cp_zfill_f32_align4(
// CHECK-SAME: %[[IDX:[a-zA-Z0-9_]+]]: index, %[[SRCELEMENTS:[a-zA-Z0-9_]+]]: index)		// CHECK-SAME: %[[IDX:[a-zA-Z0-9_]+]]: index, %[[SRCELEMENTS:[a-zA-Z0-9_]+]]: index)
func.func @async_cp_zfill(		func.func @async_cp_zfill_f32_align4(
%src: memref<128x128xf32>, %dst: memref<3x16x128xf32, 3>, %i : index, %srcElements : index) {		%src: memref<128x128xf32>, %dst: memref<3x16x128xf32, 3>, %i : index, %srcElements : index) {
		// CHECK-DAG: %[[DSTBYTES:.*]] = llvm.mlir.constant(16 : i32) : i32
// CHECK-DAG: lvm.inline_asm has_side_effects asm_dialect = att "cp.async.cg.shared.global [$0], [$1], $2, $3;\0A", "r,l,n,r" %[[DSTPTR:.]], %[[SRCPTR:.]], %[[DSTBYTES:.]], %[[SRCBYTES:.]] : (!llvm.ptr<3>, !llvm.ptr<1>, i32, i32) -> !llvm.void		// CHECK-DAG: llvm.inline_asm has_side_effects asm_dialect = att "cp.async.cg.shared.global [$0], [$1], $2, $3;\0A", "r,l,n,r" %[[DSTPTR:.]], %[[SRCPTR:.]], %[[DSTBYTES]], %[[SRCBYTES:.*]] : (!llvm.ptr<3>, !llvm.ptr<1>, i32, i32) -> !llvm.void
%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i, %i], 4, %srcElements {bypassL1}: memref<128x128xf32> to memref<3x16x128xf32, 3>		%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i, %i], 4, %srcElements {bypassL1}: memref<128x128xf32> to memref<3x16x128xf32, 3>
// CHECK: nvvm.cp.async.commit.group		// CHECK: nvvm.cp.async.commit.group
%1 = nvgpu.device_async_create_group %0		%1 = nvgpu.device_async_create_group %0
// CHECK: nvvm.cp.async.wait.group 1		// CHECK: nvvm.cp.async.wait.group 1
nvgpu.device_async_wait %1 { numGroups = 1 : i32 }		nvgpu.device_async_wait %1 { numGroups = 1 : i32 }

return		return
}		}

// -----		// -----

		// CHECK-LABEL: @async_cp_zfill_f32_align1(
		// CHECK-SAME: %[[IDX:[a-zA-Z0-9_]+]]: index, %[[SRCELEMENTS:[a-zA-Z0-9_]+]]: index)
		func.func @async_cp_zfill_f32_align1(
		%src: memref<128x128xf32>, %dst: memref<3x16x128xf32, 3>, %i : index, %srcElements : index) {
		// CHECK-DAG: %[[DSTBYTES:.*]] = llvm.mlir.constant(4 : i32) : i32
		// CHECK-DAG: llvm.inline_asm has_side_effects asm_dialect = att "cp.async.ca.shared.global [$0], [$1], $2, $3;\0A", "r,l,n,r" %[[DSTPTR:.]], %[[SRCPTR:.]], %[[DSTBYTES]], %[[SRCBYTES:.*]] : (!llvm.ptr<3>, !llvm.ptr<1>, i32, i32) -> !llvm.void
		%0 = nvgpu.device_async_copy %src[%i, %i], %dst[%i, %i, %i], 1, %srcElements {bypassL1}: memref<128x128xf32> to memref<3x16x128xf32, 3>
		// CHECK: nvvm.cp.async.commit.group
		%1 = nvgpu.device_async_create_group %0
		// CHECK: nvvm.cp.async.wait.group 1
		nvgpu.device_async_wait %1 { numGroups = 1 : i32 }

		return
		}

		// -----


// CHECK-LABEL: func @mma_sp_sync_f16_16832(		// CHECK-LABEL: func @mma_sp_sync_f16_16832(
func.func @mma_sp_sync_f16_16832(%arg0: vector<4x2xf16>,		func.func @mma_sp_sync_f16_16832(%arg0: vector<4x2xf16>,
%arg1: vector<4x2xf16>,		%arg1: vector<4x2xf16>,
%arg2: vector<2x2xf16>,		%arg2: vector<2x2xf16>,
%arg3: vector<2xi16>) -> vector<2x2xf16> {		%arg3: vector<2xi16>) -> vector<2x2xf16> {
// CHECK: llvm.extractvalue %{{.*}}[0] : !llvm.array<4 x vector<2xf16>>		// CHECK: llvm.extractvalue %{{.*}}[0] : !llvm.array<4 x vector<2xf16>>
// CHECK: llvm.extractvalue %{{.*}}[1] : !llvm.array<4 x vector<2xf16>>		// CHECK: llvm.extractvalue %{{.*}}[1] : !llvm.array<4 x vector<2xf16>>
// CHECK: llvm.extractvalue %{{.*}}[2] : !llvm.array<4 x vector<2xf16>>		// CHECK: llvm.extractvalue %{{.*}}[2] : !llvm.array<4 x vector<2xf16>>
▲ Show 20 Lines • Show All 125 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[mlir][NVGPU] Support cache all (.ca) in nvgpu.device_async_copy ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 514609

mlir/lib/Conversion/NVGPUToNVVM/NVGPUToNVVM.cpp

mlir/test/Conversion/NVGPUToNVVM/nvgpu-to-nvvm.mlir

[mlir][NVGPU] Support cache all (.ca) in nvgpu.device_async_copy
ClosedPublic