This is an archive of the discontinued LLVM Phabricator instance.

[CUDA] Added __hmma_m16n16k16_* builtins to support mma instructions in sm_70
ClosedPublic

Authored by tra on Oct 10 2017, 9:53 AM.

Download Raw Diff

Details

Reviewers

Commits

rG91cc00bde6cb: [CUDA] Added __hmma_m16n16k16_* builtins to support mma instructions on sm_70
rC315624: [CUDA] Added __hmma_m16n16k16_* builtins to support mma instructions on sm_70
rL315624: [CUDA] Added __hmma_m16n16k16_* builtins to support mma instructions on sm_70

Diff Detail

Repository: rL LLVM

Event Timeline

tra created this revision.Oct 10 2017, 9:53 AM

Herald added subscribers: sanjoy, jholewinski. · View Herald TranscriptOct 10 2017, 9:53 AM

tra added a parent revision: D38645: [NVPTX] Implemented wmma intrinsics and instructions..Oct 10 2017, 9:54 AM

jlebar accepted this revision.Oct 11 2017, 9:40 AM

jlebar added inline comments.

clang/lib/CodeGen/CGBuiltin.cpp
9726 ↗	(On Diff #118408)	weird indentation?
9733 ↗	(On Diff #118408)	Urg, this isn't a bool? Do we want it to be?
9761 ↗	(On Diff #118408)	Accidentally left over?
9762 ↗	(On Diff #118408)	s/8/NumElements/? s/16/f16/? Maybe it would be better to write it as "Return value has type [[f16 x 2] x NumResults]."?
9784 ↗	(On Diff #118408)	Nit, at this point it's probably better to assign NumResults in each branch, since there are only two. clang should make sure that we don't accidentally use it uninitialized.
9786 ↗	(On Diff #118408)	s/are using/use/
9800 ↗	(On Diff #118408)	spacing. (Probably just worth clang-formatting this and the other patch.)
9802 ↗	(On Diff #118408)	Nit, we know that there won't ever be more than 8 elements...

This revision is now accepted and ready to land.Oct 11 2017, 9:40 AM

Addressed Justin's comments.

clang/lib/CodeGen/CGBuiltin.cpp
9726 ↗	(On Diff #118408)	My emacs and clang-format keep fighting case indentation... Fixed.
9733 ↗	(On Diff #118408)	There are no explicit declarations for these builtins in CUDA headers. Callers of these builtins pass 0/1 and corresponding intrinsic described in NVVM-IR spec shows the argument type as i32, so I've made the type integer in clang.
9762 ↗	(On Diff #118408)	That was part of the leftover block. Particular types are irrelevant here. All we care is to store whatever intrinsic call returned ([4 or 8 elements of v2f16 or float] ) in the destination array (which is int[] ).
9802 ↗	(On Diff #118408)	We have two extra arguments -- destination buffer and stride.

jlebar added inline comments.Oct 11 2017, 10:47 AM

clang/lib/CodeGen/CGBuiltin.cpp
9733 ↗	(On Diff #118408)	sgtm

Closed by commit rL315624: [CUDA] Added __hmma_m16n16k16_* builtins to support mma instructions on sm_70 (authored by tra). · Explain WhyOct 12 2017, 2:32 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

cfe/

trunk/

include/

clang/

Basic/

BuiltinsNVPTX.def

13 lines

lib/

CodeGen/

CGBuiltin.cpp

198 lines

test/

CodeGen/

builtins-nvptx-sm_70.cu

166 lines

Diff 118848

cfe/trunk/include/clang/Basic/BuiltinsNVPTX.def

	Show First 20 Lines • Show All 682 Lines • ▼ Show 20 Lines
	BUILTIN(__nvvm_ldg_ui2, "E2UiE2UiC*", "")			BUILTIN(__nvvm_ldg_ui2, "E2UiE2UiC*", "")
	BUILTIN(__nvvm_ldg_ui4, "E4UiE4UiC*", "")			BUILTIN(__nvvm_ldg_ui4, "E4UiE4UiC*", "")
	BUILTIN(__nvvm_ldg_ull2, "E2ULLiE2ULLiC*", "")			BUILTIN(__nvvm_ldg_ull2, "E2ULLiE2ULLiC*", "")

	BUILTIN(__nvvm_ldg_f2, "E2fE2fC*", "")			BUILTIN(__nvvm_ldg_f2, "E2fE2fC*", "")
	BUILTIN(__nvvm_ldg_f4, "E4fE4fC*", "")			BUILTIN(__nvvm_ldg_f4, "E4fE4fC*", "")
	BUILTIN(__nvvm_ldg_d2, "E2dE2dC*", "")			BUILTIN(__nvvm_ldg_d2, "E2dE2dC*", "")

				// Builtins to support WMMA instructions on sm_70
				TARGET_BUILTIN(__hmma_m16n16k16_ld_a, "viiCUiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_ld_b, "viiCUiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_ld_c_f16, "viiCUiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_ld_c_f32, "vffCUiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_st_c_f16, "viiUiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_st_c_f32, "vffUiIi", "", "ptx60")

				TARGET_BUILTIN(__hmma_m16n16k16_mma_f16f16, "viiCiCiCIiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_mma_f32f16, "vfiCiCiCIiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_mma_f32f32, "vfiCiCfCIiIi", "", "ptx60")
				TARGET_BUILTIN(__hmma_m16n16k16_mma_f16f32, "viiCiCfCIiIi", "", "ptx60")

	#undef BUILTIN			#undef BUILTIN
	#undef TARGET_BUILTIN			#undef TARGET_BUILTIN

cfe/trunk/lib/CodeGen/CGBuiltin.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,725 Lines • ▼ Show 20 Lines	Value *ResultPair = Builder.CreateCall(
? Intrinsic::nvvm_match_all_sync_i32p		? Intrinsic::nvvm_match_all_sync_i32p
: Intrinsic::nvvm_match_all_sync_i64p),		: Intrinsic::nvvm_match_all_sync_i64p),
{Mask, Val});		{Mask, Val});
Value *Pred = Builder.CreateZExt(Builder.CreateExtractValue(ResultPair, 1),		Value *Pred = Builder.CreateZExt(Builder.CreateExtractValue(ResultPair, 1),
PredOutPtr.getElementType());		PredOutPtr.getElementType());
Builder.CreateStore(Pred, PredOutPtr);		Builder.CreateStore(Pred, PredOutPtr);
return Builder.CreateExtractValue(ResultPair, 0);		return Builder.CreateExtractValue(ResultPair, 0);
}		}
		case NVPTX::BI__hmma_m16n16k16_ld_a:
		case NVPTX::BI__hmma_m16n16k16_ld_b:
		case NVPTX::BI__hmma_m16n16k16_ld_c_f16:
		case NVPTX::BI__hmma_m16n16k16_ld_c_f32: {
		Address Dst = EmitPointerWithAlignment(E->getArg(0));
		Value *Src = EmitScalarExpr(E->getArg(1));
		Value *Ldm = EmitScalarExpr(E->getArg(2));
		llvm::APSInt isColMajorArg;
		if (!E->getArg(3)->isIntegerConstantExpr(isColMajorArg, getContext()))
		return nullptr;
		bool isColMajor = isColMajorArg.getSExtValue();
		unsigned IID;
		unsigned NumResults;
		switch (BuiltinID) {
		case NVPTX::BI__hmma_m16n16k16_ld_a:
		IID = isColMajor ? Intrinsic::nvvm_wmma_load_a_f16_col_stride
		: Intrinsic::nvvm_wmma_load_a_f16_row_stride;
		NumResults = 8;
		break;
		case NVPTX::BI__hmma_m16n16k16_ld_b:
		IID = isColMajor ? Intrinsic::nvvm_wmma_load_b_f16_col_stride
		: Intrinsic::nvvm_wmma_load_b_f16_row_stride;
		NumResults = 8;
		break;
		case NVPTX::BI__hmma_m16n16k16_ld_c_f16:
		IID = isColMajor ? Intrinsic::nvvm_wmma_load_c_f16_col_stride
		: Intrinsic::nvvm_wmma_load_c_f16_row_stride;
		NumResults = 4;
		break;
		case NVPTX::BI__hmma_m16n16k16_ld_c_f32:
		IID = isColMajor ? Intrinsic::nvvm_wmma_load_c_f32_col_stride
		: Intrinsic::nvvm_wmma_load_c_f32_row_stride;
		NumResults = 8;
		break;
		default:
		llvm_unreachable("Unexpected builtin ID.");
		}
		Value *Result =
		Builder.CreateCall(CGM.getIntrinsic(IID),
		{Builder.CreatePointerCast(Src, VoidPtrTy), Ldm});

		// Save returned values.
		for (unsigned i = 0; i < NumResults; ++i) {
		Builder.CreateAlignedStore(
		Builder.CreateBitCast(Builder.CreateExtractValue(Result, i),
		Dst.getElementType()),
		Builder.CreateGEP(Dst.getPointer(), llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		}
		return Result;
		}

		case NVPTX::BI__hmma_m16n16k16_st_c_f16:
		case NVPTX::BI__hmma_m16n16k16_st_c_f32: {
		Value *Dst = EmitScalarExpr(E->getArg(0));
		Address Src = EmitPointerWithAlignment(E->getArg(1));
		Value *Ldm = EmitScalarExpr(E->getArg(2));
		llvm::APSInt isColMajorArg;
		if (!E->getArg(3)->isIntegerConstantExpr(isColMajorArg, getContext()))
		return nullptr;
		bool isColMajor = isColMajorArg.getSExtValue();
		unsigned IID;
		unsigned NumResults = 8;
		// PTX Instructions (and LLVM instrinsics) are defined for slice _d_, yet
		// for some reason nvcc builtins use _c_.
		switch (BuiltinID) {
		case NVPTX::BI__hmma_m16n16k16_st_c_f16:
		IID = isColMajor ? Intrinsic::nvvm_wmma_store_d_f16_col_stride
		: Intrinsic::nvvm_wmma_store_d_f16_row_stride;
		NumResults = 4;
		break;
		case NVPTX::BI__hmma_m16n16k16_st_c_f32:
		IID = isColMajor ? Intrinsic::nvvm_wmma_store_d_f32_col_stride
		: Intrinsic::nvvm_wmma_store_d_f32_row_stride;
		break;
		default:
		llvm_unreachable("Unexpected builtin ID.");
		}
		Function *Intrinsic = CGM.getIntrinsic(IID);
		llvm::Type *ParamType = Intrinsic->getFunctionType()->getParamType(1);
		SmallVector<Value *, 10> Values;
		Values.push_back(Builder.CreatePointerCast(Dst, VoidPtrTy));
		for (unsigned i = 0; i < NumResults; ++i) {
		Value *V = Builder.CreateAlignedLoad(
		Builder.CreateGEP(Src.getPointer(), llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		Values.push_back(Builder.CreateBitCast(V, ParamType));
		}
		Values.push_back(Ldm);
		Value *Result = Builder.CreateCall(Intrinsic, Values);
		return Result;
		}

		// BI__hmma_m16n16k16_mma_<Dtype><CType>(d, a, b, c, layout, satf)
		// --> Intrinsic::nvvm_wmma_mma_sync<layout A,B><DType><CType><Satf>
		case NVPTX::BI__hmma_m16n16k16_mma_f16f16:
		case NVPTX::BI__hmma_m16n16k16_mma_f32f16:
		case NVPTX::BI__hmma_m16n16k16_mma_f32f32:
		case NVPTX::BI__hmma_m16n16k16_mma_f16f32: {
		Address Dst = EmitPointerWithAlignment(E->getArg(0));
		Address SrcA = EmitPointerWithAlignment(E->getArg(1));
		Address SrcB = EmitPointerWithAlignment(E->getArg(2));
		Address SrcC = EmitPointerWithAlignment(E->getArg(3));
		llvm::APSInt LayoutArg;
		if (!E->getArg(4)->isIntegerConstantExpr(LayoutArg, getContext()))
		return nullptr;
		int Layout = LayoutArg.getSExtValue();
		if (Layout < 0 \|\| Layout > 3)
		return nullptr;
		llvm::APSInt SatfArg;
		if (!E->getArg(5)->isIntegerConstantExpr(SatfArg, getContext()))
		return nullptr;
		bool Satf = SatfArg.getSExtValue();

		// clang-format off
		#define MMA_VARIANTS(type) {{ \
		Intrinsic::nvvm_wmma_mma_sync_row_row_##type, \
		Intrinsic::nvvm_wmma_mma_sync_row_row_##type##_satfinite, \
		Intrinsic::nvvm_wmma_mma_sync_row_col_##type, \
		Intrinsic::nvvm_wmma_mma_sync_row_col_##type##_satfinite, \
		Intrinsic::nvvm_wmma_mma_sync_col_row_##type, \
		Intrinsic::nvvm_wmma_mma_sync_col_row_##type##_satfinite, \
		Intrinsic::nvvm_wmma_mma_sync_col_col_##type, \
		Intrinsic::nvvm_wmma_mma_sync_col_col_##type##_satfinite \
		}}
		// clang-format on

		auto getMMAIntrinsic = [Layout, Satf](std::array<unsigned, 8> Variants) {
		unsigned Index = Layout * 2 + Satf;
		assert(Index < 8);
		return Variants[Index];
		};
		unsigned IID;
		unsigned NumEltsC;
		unsigned NumEltsD;
		switch (BuiltinID) {
		case NVPTX::BI__hmma_m16n16k16_mma_f16f16:
		IID = getMMAIntrinsic(MMA_VARIANTS(f16_f16));
		NumEltsC = 4;
		NumEltsD = 4;
		break;
		case NVPTX::BI__hmma_m16n16k16_mma_f32f16:
		IID = getMMAIntrinsic(MMA_VARIANTS(f32_f16));
		NumEltsC = 4;
		NumEltsD = 8;
		break;
		case NVPTX::BI__hmma_m16n16k16_mma_f16f32:
		IID = getMMAIntrinsic(MMA_VARIANTS(f16_f32));
		NumEltsC = 8;
		NumEltsD = 4;
		break;
		case NVPTX::BI__hmma_m16n16k16_mma_f32f32:
		IID = getMMAIntrinsic(MMA_VARIANTS(f32_f32));
		NumEltsC = 8;
		NumEltsD = 8;
		break;
		default:
		llvm_unreachable("Unexpected builtin ID.");
		}
		#undef MMA_VARIANTS

		SmallVector<Value *, 24> Values;
		Function *Intrinsic = CGM.getIntrinsic(IID);
		llvm::Type *ABType = Intrinsic->getFunctionType()->getParamType(0);
		// Load A
		for (unsigned i = 0; i < 8; ++i) {
		Value *V = Builder.CreateAlignedLoad(
		Builder.CreateGEP(SrcA.getPointer(),
		llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		Values.push_back(Builder.CreateBitCast(V, ABType));
		}
		// Load B
		for (unsigned i = 0; i < 8; ++i) {
		Value *V = Builder.CreateAlignedLoad(
		Builder.CreateGEP(SrcB.getPointer(),
		llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		Values.push_back(Builder.CreateBitCast(V, ABType));
		}
		// Load C
		llvm::Type *CType = Intrinsic->getFunctionType()->getParamType(16);
		for (unsigned i = 0; i < NumEltsC; ++i) {
		Value *V = Builder.CreateAlignedLoad(
		Builder.CreateGEP(SrcC.getPointer(),
		llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		Values.push_back(Builder.CreateBitCast(V, CType));
		}
		Value *Result = Builder.CreateCall(Intrinsic, Values);
		llvm::Type *DType = Dst.getElementType();
		for (unsigned i = 0; i < NumEltsD; ++i)
		Builder.CreateAlignedStore(
		Builder.CreateBitCast(Builder.CreateExtractValue(Result, i), DType),
		Builder.CreateGEP(Dst.getPointer(), llvm::ConstantInt::get(IntTy, i)),
		CharUnits::fromQuantity(4));
		return Result;
		}
default:		default:
return nullptr;		return nullptr;
}		}
}		}

Value *CodeGenFunction::EmitWebAssemblyBuiltinExpr(unsigned BuiltinID,		Value *CodeGenFunction::EmitWebAssemblyBuiltinExpr(unsigned BuiltinID,
const CallExpr *E) {		const CallExpr *E) {
switch (BuiltinID) {		switch (BuiltinID) {
Show All 25 Lines

cfe/trunk/test/CodeGen/builtins-nvptx-sm_70.cu

				// RUN: %clang_cc1 -triple nvptx64-unknown-unknown -target-cpu sm_70 \
				// RUN: -fcuda-is-device -target-feature +ptx60 \
				// RUN: -S -emit-llvm -o - -x cuda %s \
				// RUN: \| FileCheck -check-prefix=CHECK %s
				// RUN: %clang_cc1 -triple nvptx-unknown-unknown -target-cpu sm_60 \
				// RUN: -fcuda-is-device -S -o /dev/null -x cuda -verify %s

				#if !defined(CUDA_VERSION)
				#define __device__ __attribute__((device))
				#define __global__ __attribute__((global))
				#define __shared__ __attribute__((shared))
				#define __constant__ __attribute__((constant))

				typedef unsigned long long uint64_t;
				#endif
				// We have to keep all builtins that depend on particular target feature in the
				// same function, because the codegen will stop after the very first function
				// that encounters an error, so -verify will not be able to find errors in
				// subsequent functions.

				// CHECK-LABEL: nvvm_wmma
				__device__ void nvvm_wmma(int src, int dst,
				float fsrc, float fdst,
				int ldm) {
				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.a.sync.row.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_a' needs target feature ptx60}}
				__hmma_m16n16k16_ld_a(dst, src, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.a.sync.col.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_a' needs target feature ptx60}}
				__hmma_m16n16k16_ld_a(dst, src+1, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.b.sync.row.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_b' needs target feature ptx60}}
				__hmma_m16n16k16_ld_b(dst, src, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.b.sync.col.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_b' needs target feature ptx60}}
				__hmma_m16n16k16_ld_b(dst, src+2, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.c.sync.row.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_c_f16' needs target feature ptx60}}
				__hmma_m16n16k16_ld_c_f16(dst, src, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.c.sync.col.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_ld_c_f16' needs target feature ptx60}}
				__hmma_m16n16k16_ld_c_f16(dst, src, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.c.sync.row.m16n16k16.stride.f32
				// expected-error@+1 {{'__hmma_m16n16k16_ld_c_f32' needs target feature ptx60}}
				__hmma_m16n16k16_ld_c_f32(fdst, fsrc, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.load.c.sync.col.m16n16k16.stride.f32
				// expected-error@+1 {{'__hmma_m16n16k16_ld_c_f32' needs target feature ptx60}}
				__hmma_m16n16k16_ld_c_f32(fdst, fsrc, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.store.d.sync.row.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_st_c_f16' needs target feature ptx60}}
				__hmma_m16n16k16_st_c_f16(dst, src, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.store.d.sync.col.m16n16k16.stride.f16
				// expected-error@+1 {{'__hmma_m16n16k16_st_c_f16' needs target feature ptx60}}
				__hmma_m16n16k16_st_c_f16(dst, src, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.store.d.sync.row.m16n16k16.stride.f32
				// expected-error@+1 {{'__hmma_m16n16k16_st_c_f32' needs target feature ptx60}}
				__hmma_m16n16k16_st_c_f32(fdst, fsrc, ldm, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.store.d.sync.col.m16n16k16.stride.f32
				// expected-error@+1 {{'__hmma_m16n16k16_st_c_f32' needs target feature ptx60}}
				__hmma_m16n16k16_st_c_f32(fdst, fsrc, ldm, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f16.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 0, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f16.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 0, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f16.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 1, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f16.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 1, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f16.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 2, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f16.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 2, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f16.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 3, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f16.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f16(dst, src, src, src, 3, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f16.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 0, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f16.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 0, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f16.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 1, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f16.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 1, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f16.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 2, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f16.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 2, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f16.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 3, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f16.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f16f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f16f32(dst, src, src, fsrc, 3, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f32.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 0, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f32.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 0, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f32.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 1, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f32.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 1, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f32.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 2, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f32.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 2, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f32.f16
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 3, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f32.f16.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f16' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f16(fdst, src, src, src, 3, 1);

				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f32.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 0, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.row.m16n16k16.f32.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 0, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f32.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 1, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.row.col.m16n16k16.f32.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 1, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f32.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 2, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.row.m16n16k16.f32.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 2, 1);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f32.f32
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 3, 0);
				// CHECK: call {{.*}} @llvm.nvvm.wmma.mma.sync.col.col.m16n16k16.f32.f32.satfinite
				// expected-error@+1 {{'__hmma_m16n16k16_mma_f32f32' needs target feature ptx60}}
				__hmma_m16n16k16_mma_f32f32(fdst, src, src, fsrc, 3, 1);
				}