This is an archive of the discontinued LLVM Phabricator instance.

[X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore
ClosedPublic

Authored by yubing on Jun 15 2023, 1:29 AM.

Download Raw Diff

Details

Reviewers

LuoYuanke
pengfei

Commits

rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into…

Summary

%tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64)
%vec = call <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx...%tile)
store <256 x i8> %vec, <256 x i8>* %dst_ptr, align 256

>

%tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64)
%stride = sext i16 32 to i64
call void @llvm.x86.tilestored64.internal(i16 8, i16 32, i8* %dst_ptr, i64 32, x86_amx %tile)

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

yubing created this revision.Jun 15 2023, 1:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 15 2023, 1:29 AM

Herald added subscribers: pengfei, hiraditya. · View Herald Transcript

yubing requested review of this revision.Jun 15 2023, 1:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 15 2023, 1:29 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

yubing retitled this revision from [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore: %tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64) %vec = call <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx... to [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore.Jun 15 2023, 1:30 AM

yubing edited the summary of this revision. (Show Details)

yubing added reviewers: LuoYuanke, pengfei.

yubing planned changes to this revision.Jun 15 2023, 2:07 AM

Harbormaster completed remote builds in B239052: Diff 531642.Jun 15 2023, 4:00 AM

Nuullll added a subscriber: Nuullll.Jun 15 2023, 8:09 PM

do it for amxcast&load as well

LuoYuanke added inline comments.Jun 19 2023, 2:22 AM

llvm/test/CodeGen/X86/AMX/amx-combine.ll
145 ↗	(On Diff #532566)	Could you add comments in the amx-cast definition that the vector size can be smaller than AMX register size (1024 bytes)? I think vector size can NOT be larger than AMX register size, am I right?

Harbormaster completed remote builds in B239743: Diff 532566.Jun 19 2023, 2:48 AM

add comments

LGTM.

This revision is now accepted and ready to land.Jun 19 2023, 6:41 PM

Harbormaster completed remote builds in B239903: Diff 532773.Jun 19 2023, 7:22 PM

Closed by commit rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into… (authored by yubing). · Explain WhyJun 19 2023, 8:55 PM

This revision was automatically updated to reflect the committed changes.

yubing added a commit: rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into….

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86LowerAMXType.cpp

5 lines

test/

CodeGen/

X86/

AMX/

lat-transform-amx-bitcast.ll

21 lines

Diff 531642

llvm/lib/Target/X86/X86LowerAMXType.cpp

Show First 20 Lines • Show All 928 Lines • ▼ Show 20 Lines	void X86LowerAMXCast::combineCastStore(IntrinsicInst Cast, StoreInst ST) {
if (!isAMXIntrinsic(Tile))		if (!isAMXIntrinsic(Tile))
return;		return;
auto *II = cast<IntrinsicInst>(Tile);		auto *II = cast<IntrinsicInst>(Tile);
// Tile is output from AMX intrinsic. The first operand of the		// Tile is output from AMX intrinsic. The first operand of the
// intrinsic is row, the second operand of the intrinsic is column.		// intrinsic is row, the second operand of the intrinsic is column.
Value *Row = II->getOperand(0);		Value *Row = II->getOperand(0);
Value *Col = II->getOperand(1);		Value *Col = II->getOperand(1);
IRBuilder<> Builder(ST);		IRBuilder<> Builder(ST);
// Use the maximum column as stride. It must be the same with load		// Stride should be equal to col(measured by bytes)
// stride.		Value *Stride = Builder.CreateSExt(Col, Builder.getInt64Ty());
Value *Stride = Builder.getInt64(64);
Value *I8Ptr =		Value *I8Ptr =
Builder.CreateBitCast(ST->getOperand(1), Builder.getInt8PtrTy());		Builder.CreateBitCast(ST->getOperand(1), Builder.getInt8PtrTy());
std::array<Value *, 5> Args = {Row, Col, I8Ptr, Stride, Tile};		std::array<Value *, 5> Args = {Row, Col, I8Ptr, Stride, Tile};
Builder.CreateIntrinsic(Intrinsic::x86_tilestored64_internal, std::nullopt,		Builder.CreateIntrinsic(Intrinsic::x86_tilestored64_internal, std::nullopt,
Args);		Args);
}		}

// %65 = load <256 x i32>, <256 x i32>* %p, align 64		// %65 = load <256 x i32>, <256 x i32>* %p, align 64
▲ Show 20 Lines • Show All 330 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/AMX/lat-transform-amx-bitcast.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	define dso_local <256 x i32> @test_amx_bitcast_store(ptr %out, i16 %m, i16 %n, ptr%buf, i64 %s) {			define dso_local <256 x i32> @test_amx_bitcast_store(ptr %out, i16 %m, i16 %n, ptr%buf, i64 %s) {
	; CHECK-LABEL: @test_amx_bitcast_store(			; CHECK-LABEL: @test_amx_bitcast_store(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64			; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64
	; CHECK-NEXT: [[T1:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[M]], ptr [[BUF:%.]], i64 [[S:%.]])			; CHECK-NEXT: [[T1:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[M]], ptr [[BUF:%.]], i64 [[S:%.]])
	; CHECK-NEXT: [[TMP1:%.*]] = sext i16 [[M]] to i64			; CHECK-NEXT: [[TMP1:%.*]] = sext i16 [[M]] to i64
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[TMP0]], i64 [[TMP1]], x86_amx [[T1]])			; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[TMP0]], i64 [[TMP1]], x86_amx [[T1]])
	; CHECK-NEXT: [[TMP2:%.*]] = load <256 x i32>, ptr [[TMP0]], align 1024			; CHECK-NEXT: [[TMP2:%.*]] = load <256 x i32>, ptr [[TMP0]], align 1024
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[OUT:%.*]], i64 64, x86_amx [[T1]])			; CHECK-NEXT: [[TMP3:%.*]] = sext i16 [[M]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[OUT:%.*]], i64 [[TMP3]], x86_amx [[T1]])
	; CHECK-NEXT: ret <256 x i32> [[TMP2]]			; CHECK-NEXT: ret <256 x i32> [[TMP2]]
	;			;
	entry:			entry:
	%t1 = call x86_amx @llvm.x86.tileloadd64.internal(i16 %m, i16 %m, ptr %buf, i64 %s)			%t1 = call x86_amx @llvm.x86.tileloadd64.internal(i16 %m, i16 %m, ptr %buf, i64 %s)
	%t2 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t1)			%t2 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t1)
	store <256 x i32> %t2, ptr %out			store <256 x i32> %t2, ptr %out
	ret <256 x i32> %t2			ret <256 x i32> %t2
	}			}
	Show All 38 Lines
	; CHECK-LABEL: @__tile_loadd(			; CHECK-LABEL: @__tile_loadd(
	; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP0:%.]], align 64			; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP0:%.]], align 64
	; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP0]], i64 0, i32 1			; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP0]], i64 0, i32 1
	; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2			; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2
	; CHECK-NEXT: [[TMP7:%.]] = shl i64 [[TMP2:%.]], 32			; CHECK-NEXT: [[TMP7:%.]] = shl i64 [[TMP2:%.]], 32
	; CHECK-NEXT: [[TMP8:%.*]] = ashr exact i64 [[TMP7]], 32			; CHECK-NEXT: [[TMP8:%.*]] = ashr exact i64 [[TMP7]], 32
	; CHECK-NEXT: [[TMP9:%.]] = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP1:%.]], i64 [[TMP8]])			; CHECK-NEXT: [[TMP9:%.]] = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP1:%.]], i64 [[TMP8]])
	; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0]], i64 0, i32 2			; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0]], i64 0, i32 2
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64, x86_amx [[TMP9]])			; CHECK-NEXT: [[TMP11:%.*]] = sext i16 [[TMP6]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 [[TMP11]], x86_amx [[TMP9]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%4 = load i16, ptr %0, align 64			%4 = load i16, ptr %0, align 64
	%5 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 1			%5 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 1
	%6 = load i16, ptr %5, align 2			%6 = load i16, ptr %5, align 2
	%7 = shl i64 %2, 32			%7 = shl i64 %2, 32
	%8 = ashr exact i64 %7, 32			%8 = ashr exact i64 %7, 32
	%9 = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 %4, i16 %6, ptr %1, i64 %8)			%9 = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 %4, i16 %6, ptr %1, i64 %8)
	Show All 13 Lines
	; CHECK-NEXT: [[TMP9:%.*]] = udiv i16 [[TMP8]], 4			; CHECK-NEXT: [[TMP9:%.*]] = udiv i16 [[TMP8]], 4
	; CHECK-NEXT: [[TMP10:%.]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0:%.]], i64 0, i32 2			; CHECK-NEXT: [[TMP10:%.]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0:%.]], i64 0, i32 2
	; CHECK-NEXT: [[TMP11:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64)			; CHECK-NEXT: [[TMP11:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64)
	; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 2			; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 2
	; CHECK-NEXT: [[TMP13:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP8]], ptr [[TMP12]], i64 64)			; CHECK-NEXT: [[TMP13:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP8]], ptr [[TMP12]], i64 64)
	; CHECK-NEXT: [[TMP14:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2			; CHECK-NEXT: [[TMP14:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2
	; CHECK-NEXT: [[TMP15:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP9]], i16 [[TMP6]], ptr [[TMP14]], i64 64)			; CHECK-NEXT: [[TMP15:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP9]], i16 [[TMP6]], ptr [[TMP14]], i64 64)
	; CHECK-NEXT: [[TMP16:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[TMP4]], i16 [[TMP6]], i16 [[TMP8]], x86_amx [[TMP11]], x86_amx [[TMP13]], x86_amx [[TMP15]])			; CHECK-NEXT: [[TMP16:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[TMP4]], i16 [[TMP6]], i16 [[TMP8]], x86_amx [[TMP11]], x86_amx [[TMP13]], x86_amx [[TMP15]])
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64, x86_amx [[TMP16]])			; CHECK-NEXT: [[TMP17:%.*]] = sext i16 [[TMP6]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 [[TMP17]], x86_amx [[TMP16]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%4 = load i16, ptr %1, align 64			%4 = load i16, ptr %1, align 64
	%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1			%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1
	%6 = load i16, ptr %5, align 2			%6 = load i16, ptr %5, align 2
	%7 = getelementptr inbounds %struct.__tile_str, ptr %1, i64 0, i32 1			%7 = getelementptr inbounds %struct.__tile_str, ptr %1, i64 0, i32 1
	%8 = load i16, ptr %7, align 2			%8 = load i16, ptr %7, align 2
	%9 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2			%9 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2
	Show All 13 Lines

	define dso_local void @__tile_dpbsud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {			define dso_local void @__tile_dpbsud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
	; CHECK-LABEL: @__tile_dpbsud(			; CHECK-LABEL: @__tile_dpbsud(
	; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4			; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
	; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)			; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)
	; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)			; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)
	; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)			; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)
	; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])			; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])			; CHECK-NEXT: [[TMP5:%.*]] = sext i16 [[N]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP5]], x86_amx [[T6]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%t0 = load <256 x i32>, ptr %pa, align 64			%t0 = load <256 x i32>, ptr %pa, align 64
	%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)			%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
	%t2 = load <256 x i32>, ptr %pb, align 64			%t2 = load <256 x i32>, ptr %pb, align 64
	%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)			%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
	%t4 = load <256 x i32>, ptr %pc, align 64			%t4 = load <256 x i32>, ptr %pc, align 64
	%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)			%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
	%t6 = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)			%t6 = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
	%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)			%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
	store <256 x i32> %t7, ptr %pc, align 64			store <256 x i32> %t7, ptr %pc, align 64
	ret void			ret void
	}			}

	define dso_local void @__tile_dpbusd(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {			define dso_local void @__tile_dpbusd(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
	; CHECK-LABEL: @__tile_dpbusd(			; CHECK-LABEL: @__tile_dpbusd(
	; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4			; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
	; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)			; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)
	; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)			; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)
	; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)			; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)
	; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])			; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])			; CHECK-NEXT: [[TMP5:%.*]] = sext i16 [[N]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP5]], x86_amx [[T6]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%t0 = load <256 x i32>, ptr %pa, align 64			%t0 = load <256 x i32>, ptr %pa, align 64
	%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)			%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
	%t2 = load <256 x i32>, ptr %pb, align 64			%t2 = load <256 x i32>, ptr %pb, align 64
	%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)			%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
	%t4 = load <256 x i32>, ptr %pc, align 64			%t4 = load <256 x i32>, ptr %pc, align 64
	%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)			%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
	%t6 = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)			%t6 = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
	%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)			%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
	store <256 x i32> %t7, ptr %pc, align 64			store <256 x i32> %t7, ptr %pc, align 64
	ret void			ret void
	}			}

	define dso_local void @__tile_dpbuud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {			define dso_local void @__tile_dpbuud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
	; CHECK-LABEL: @__tile_dpbuud(			; CHECK-LABEL: @__tile_dpbuud(
	; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4			; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
	; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)			; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)
	; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)			; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)
	; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)			; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)
	; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])			; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])			; CHECK-NEXT: [[TMP5:%.*]] = sext i16 [[N]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP5]], x86_amx [[T6]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%t0 = load <256 x i32>, ptr %pa, align 64			%t0 = load <256 x i32>, ptr %pa, align 64
	%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)			%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
	%t2 = load <256 x i32>, ptr %pb, align 64			%t2 = load <256 x i32>, ptr %pb, align 64
	%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)			%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
	%t4 = load <256 x i32>, ptr %pc, align 64			%t4 = load <256 x i32>, ptr %pc, align 64
	%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)			%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
	%t6 = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)			%t6 = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
	%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)			%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
	store <256 x i32> %t7, ptr %pc, align 64			store <256 x i32> %t7, ptr %pc, align 64
	ret void			ret void
	}			}

	define dso_local void @__tile_dpbf16ps(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {			define dso_local void @__tile_dpbf16ps(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
	; CHECK-LABEL: @__tile_dpbf16ps(			; CHECK-LABEL: @__tile_dpbf16ps(
	; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4			; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
	; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)			; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)
	; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)			; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)
	; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)			; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)
	; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])			; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])
	; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])			; CHECK-NEXT: [[TMP5:%.*]] = sext i16 [[N]] to i64
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP5]], x86_amx [[T6]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	%t0 = load <256 x i32>, ptr %pa, align 64			%t0 = load <256 x i32>, ptr %pa, align 64
	%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)			%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
	%t2 = load <256 x i32>, ptr %pb, align 64			%t2 = load <256 x i32>, ptr %pb, align 64
	%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)			%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
	%t4 = load <256 x i32>, ptr %pc, align 64			%t4 = load <256 x i32>, ptr %pc, align 64
	%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)			%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines