This is an archive of the discontinued LLVM Phabricator instance.

[X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore
ClosedPublic

Authored by yubing on Jun 15 2023, 1:29 AM.

Download Raw Diff

Details

Reviewers

LuoYuanke
pengfei

Commits

rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into…

Summary

%tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64)
%vec = call <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx...%tile)
store <256 x i8> %vec, <256 x i8>* %dst_ptr, align 256

>

%tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64)
%stride = sext i16 32 to i64
call void @llvm.x86.tilestored64.internal(i16 8, i16 32, i8* %dst_ptr, i64 32, x86_amx %tile)

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

yubing created this revision.Jun 15 2023, 1:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 15 2023, 1:29 AM

Herald added subscribers: pengfei, hiraditya. · View Herald Transcript

yubing requested review of this revision.Jun 15 2023, 1:29 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 15 2023, 1:29 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

yubing retitled this revision from [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore: %tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64) %vec = call <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx... to [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into tilestore.Jun 15 2023, 1:30 AM

yubing edited the summary of this revision. (Show Details)

yubing added reviewers: LuoYuanke, pengfei.

yubing planned changes to this revision.Jun 15 2023, 2:07 AM

Harbormaster completed remote builds in B239052: Diff 531642.Jun 15 2023, 4:00 AM

Nuullll added a subscriber: Nuullll.Jun 15 2023, 8:09 PM

do it for amxcast&load as well

LuoYuanke added inline comments.Jun 19 2023, 2:22 AM

llvm/test/CodeGen/X86/AMX/amx-combine.ll
145	Could you add comments in the amx-cast definition that the vector size can be smaller than AMX register size (1024 bytes)? I think vector size can NOT be larger than AMX register size, am I right?

Harbormaster completed remote builds in B239743: Diff 532566.Jun 19 2023, 2:48 AM

add comments

LGTM.

This revision is now accepted and ready to land.Jun 19 2023, 6:41 PM

Harbormaster completed remote builds in B239903: Diff 532773.Jun 19 2023, 7:22 PM

Closed by commit rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into… (authored by yubing). · Explain WhyJun 19 2023, 8:55 PM

This revision was automatically updated to reflect the committed changes.

yubing added a commit: rG516e32678d87: [X86][AMX] set Stride to Tile's Col when doing combine amxcast and store into….

Revision Contents

Path

Size

llvm/

include/

llvm/

IR/

IntrinsicsX86.td

2 lines

lib/

Target/

X86/

X86LowerAMXType.cpp

18 lines

test/

CodeGen/

X86/

AMX/

amx-combine.ll

43 lines

lat-transform-amx-bitcast.ll

89 lines

Diff 532781

llvm/include/llvm/IR/IntrinsicsX86.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,414 Lines • ▼ Show 20 Lines	def int_x86_tdpbf16ps_internal :
llvm_x86amx_ty, llvm_x86amx_ty,		llvm_x86amx_ty, llvm_x86amx_ty,
llvm_x86amx_ty], []>;		llvm_x86amx_ty], []>;
def int_x86_tdpfp16ps_internal :		def int_x86_tdpfp16ps_internal :
ClangBuiltin<"__builtin_ia32_tdpfp16ps_internal">,		ClangBuiltin<"__builtin_ia32_tdpfp16ps_internal">,
Intrinsic<[llvm_x86amx_ty],		Intrinsic<[llvm_x86amx_ty],
[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,		[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,
llvm_x86amx_ty, llvm_x86amx_ty,		llvm_x86amx_ty, llvm_x86amx_ty,
llvm_x86amx_ty], []>;		llvm_x86amx_ty], []>;
		// the vector size can be smaller than AMX register size (1024 bytes)
def int_x86_cast_vector_to_tile:		def int_x86_cast_vector_to_tile:
DefaultAttrsIntrinsic<[llvm_x86amx_ty], [llvm_anyvector_ty], [IntrNoMem]>;		DefaultAttrsIntrinsic<[llvm_x86amx_ty], [llvm_anyvector_ty], [IntrNoMem]>;
		// the vector size can be smaller than AMX register size (1024 bytes)
def int_x86_cast_tile_to_vector:		def int_x86_cast_tile_to_vector:
DefaultAttrsIntrinsic<[llvm_anyvector_ty], [llvm_x86amx_ty], [IntrNoMem]>;		DefaultAttrsIntrinsic<[llvm_anyvector_ty], [llvm_x86amx_ty], [IntrNoMem]>;

def int_x86_tcmmimfp16ps_internal :		def int_x86_tcmmimfp16ps_internal :
ClangBuiltin<"__builtin_ia32_tcmmimfp16ps_internal">,		ClangBuiltin<"__builtin_ia32_tcmmimfp16ps_internal">,
Intrinsic<[llvm_x86amx_ty],		Intrinsic<[llvm_x86amx_ty],
[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,		[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,
llvm_x86amx_ty, llvm_x86amx_ty,		llvm_x86amx_ty, llvm_x86amx_ty,
▲ Show 20 Lines • Show All 973 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86LowerAMXType.cpp

Show First 20 Lines • Show All 928 Lines • ▼ Show 20 Lines	bool X86LowerAMXCast::combineCastStore(IntrinsicInst Cast, StoreInst ST) {
if (!isAMXIntrinsic(Tile))		if (!isAMXIntrinsic(Tile))
return false;		return false;
auto *II = cast<IntrinsicInst>(Tile);		auto *II = cast<IntrinsicInst>(Tile);
// Tile is output from AMX intrinsic. The first operand of the		// Tile is output from AMX intrinsic. The first operand of the
// intrinsic is row, the second operand of the intrinsic is column.		// intrinsic is row, the second operand of the intrinsic is column.
Value *Row = II->getOperand(0);		Value *Row = II->getOperand(0);
Value *Col = II->getOperand(1);		Value *Col = II->getOperand(1);
IRBuilder<> Builder(ST);		IRBuilder<> Builder(ST);
// Use the maximum column as stride. It must be the same with load		// Stride should be equal to col(measured by bytes)
// stride.		Value *Stride = Builder.CreateSExt(Col, Builder.getInt64Ty());
Value *Stride = Builder.getInt64(64);
Value *I8Ptr =		Value *I8Ptr =
Builder.CreateBitCast(ST->getOperand(1), Builder.getInt8PtrTy());		Builder.CreateBitCast(ST->getOperand(1), Builder.getInt8PtrTy());
std::array<Value *, 5> Args = {Row, Col, I8Ptr, Stride, Tile};		std::array<Value *, 5> Args = {Row, Col, I8Ptr, Stride, Tile};
Builder.CreateIntrinsic(Intrinsic::x86_tilestored64_internal, std::nullopt,		Builder.CreateIntrinsic(Intrinsic::x86_tilestored64_internal, std::nullopt,
Args);		Args);
return true;		return true;
}		}

Show All 9 Lines	bool X86LowerAMXCast::combineLoadCast(IntrinsicInst Cast, LoadInst LD) {
unsigned OpNo = U.getOperandNo();		unsigned OpNo = U.getOperandNo();
auto *II = cast<IntrinsicInst>(U.getUser());		auto *II = cast<IntrinsicInst>(U.getUser());
// TODO: If it is cast intrinsic or phi node, we can propagate the		// TODO: If it is cast intrinsic or phi node, we can propagate the
// shape information through def-use chain.		// shape information through def-use chain.
if (!isAMXIntrinsic(II))		if (!isAMXIntrinsic(II))
return false;		return false;
std::tie(Row, Col) = getShape(II, OpNo);		std::tie(Row, Col) = getShape(II, OpNo);
IRBuilder<> Builder(LD);		IRBuilder<> Builder(LD);
// Use the maximun column as stride.		// Stride should be equal to col(measured by bytes)
Value *Stride = Builder.getInt64(64);		Value *Stride = Builder.CreateSExt(Col, Builder.getInt64Ty());
Value *I8Ptr;		Value *I8Ptr;

// To save compiling time, we create doninator tree when it is really		// To save compiling time, we create doninator tree when it is really
// needed.		// needed.
if (!DT)		if (!DT)
DT.reset(new DominatorTree(Func));		DT.reset(new DominatorTree(Func));
if (!DT->dominates(Row, LD) \|\| !DT->dominates(Col, LD)) {		if (!DT->dominates(Row, LD) \|\| !DT->dominates(Col, LD)) {
// store the value to stack and reload it from stack before cast.		// store the value to stack and reload it from stack before cast.
▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	for (auto *Inst : Insts) {
} else {		} else {
LiveCasts.push_back(Inst);		LiveCasts.push_back(Inst);
}		}
}		}
};		};

EraseInst(Vec2TileInsts);		EraseInst(Vec2TileInsts);
EraseInst(Tile2VecInsts);		EraseInst(Tile2VecInsts);
		LLVM_DEBUG(dbgs() << "[LowerAMXTYpe][combineAMXcast] IR dump after combine "
		"Vec2Tile and Tile2Vec:\n";
		Func.dump());
Change \|= combineLdSt(LiveCasts);		Change \|= combineLdSt(LiveCasts);
EraseInst(LiveCasts);		EraseInst(LiveCasts);
		LLVM_DEBUG(dbgs() << "[LowerAMXTYpe][combineAMXcast] IR dump after combine "
		"AMXCast and load/store:\n";
		Func.dump());

// Handle the A->B->A cast, and there is an intervening PHI node.		// Handle the A->B->A cast, and there is an intervening PHI node.
for (BasicBlock &BB : Func) {		for (BasicBlock &BB : Func) {
for (Instruction &I : BB) {		for (Instruction &I : BB) {
if (isAMXCast(&I)) {		if (isAMXCast(&I)) {
if (isa<PHINode>(I.getOperand(0)))		if (isa<PHINode>(I.getOperand(0)))
PhiCastWorkList.push_back(&I);		PhiCastWorkList.push_back(&I);
}		}
Show All 11 Lines	bool X86LowerAMXCast::combineAMXcast(TargetLibraryInfo *TLI) {
}		}

// Since we create new phi and merge AMXCast, some old phis and AMXCast might		// Since we create new phi and merge AMXCast, some old phis and AMXCast might
// have no uses. We do some DeadCodeElimination for them.		// have no uses. We do some DeadCodeElimination for them.
while (!DeadInst.empty()) {		while (!DeadInst.empty()) {
Instruction *I = DeadInst.pop_back_val();		Instruction *I = DeadInst.pop_back_val();
Change \|= DCEInstruction(I, DeadInst, TLI);		Change \|= DCEInstruction(I, DeadInst, TLI);
}		}
		LLVM_DEBUG(dbgs() << "[LowerAMXTYpe][combineAMXcast] IR dump after "
		"optimizeAMXCastFromPhi:\n";
		Func.dump());
return Change;		return Change;
}		}

// There might be remaining AMXcast after combineAMXcast and they should be		// There might be remaining AMXcast after combineAMXcast and they should be
// handled elegantly.		// handled elegantly.
bool X86LowerAMXCast::transformAMXCast(IntrinsicInst *AMXCast) {		bool X86LowerAMXCast::transformAMXCast(IntrinsicInst *AMXCast) {
IRBuilder<> Builder(AMXCast);		IRBuilder<> Builder(AMXCast);
AllocaInst *AllocaAddr;		AllocaInst *AllocaAddr;
▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/AMX/amx-combine.ll

	Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	%struct.__tile1024i_str = type <{ i16, i16, [60 x i8], <256 x i32> }>			%struct.__tile1024i_str = type <{ i16, i16, [60 x i8], <256 x i32> }>
	define void @test_tile_dpbssd(ptr byval(%struct.__tile1024i_str) align 64 %a, ptr byval(%struct.__tile1024i_str) align 64 %b, ptr byval(%struct.__tile1024i_str) align 64 %c) {			define void @test_tile_dpbssd(ptr byval(%struct.__tile1024i_str) align 64 %a, ptr byval(%struct.__tile1024i_str) align 64 %b, ptr byval(%struct.__tile1024i_str) align 64 %c) {
	; CHECK-LABEL: @test_tile_dpbssd(			; CHECK-LABEL: @test_tile_dpbssd(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64			; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64
	; CHECK-NEXT: [[B_ROW_PTR:%.]] = getelementptr inbounds i8, ptr [[B:%.]], i64 2			; CHECK-NEXT: [[B_ROW_PTR:%.]] = getelementptr inbounds i8, ptr [[B:%.]], i64 2
	; CHECK-NEXT: [[B_ROW:%.*]] = load i16, ptr [[B_ROW_PTR]], align 2			; CHECK-NEXT: [[B_ROW:%.*]] = load i16, ptr [[B_ROW_PTR]], align 2
	; CHECK-NEXT: [[B_TILE_PTR:%.*]] = getelementptr inbounds i8, ptr [[B]], i64 64			; CHECK-NEXT: [[B_TILE_PTR:%.*]] = getelementptr inbounds i8, ptr [[B]], i64 64
				; CHECK-NEXT: [[TMP1:%.*]] = sext i16 [[B_ROW]] to i64
	; CHECK-NEXT: [[B_TILE:%.*]] = load <256 x i32>, ptr [[B_TILE_PTR]], align 64			; CHECK-NEXT: [[B_TILE:%.*]] = load <256 x i32>, ptr [[B_TILE_PTR]], align 64
	; CHECK-NEXT: store <256 x i32> [[B_TILE]], ptr [[TMP0]], align 1024			; CHECK-NEXT: store <256 x i32> [[B_TILE]], ptr [[TMP0]], align 1024
	; CHECK-NEXT: [[A_ROW:%.]] = load i16, ptr [[A:%.]], align 64			; CHECK-NEXT: [[A_ROW:%.]] = load i16, ptr [[A:%.]], align 64
	; CHECK-NEXT: [[A_COL_PTR:%.*]] = getelementptr inbounds i8, ptr [[A]], i64 2			; CHECK-NEXT: [[A_COL_PTR:%.*]] = getelementptr inbounds i8, ptr [[A]], i64 2
	; CHECK-NEXT: [[A_COL:%.*]] = load i16, ptr [[A_COL_PTR]], align 2			; CHECK-NEXT: [[A_COL:%.*]] = load i16, ptr [[A_COL_PTR]], align 2
	; CHECK-NEXT: [[TMP1:%.*]] = udiv i16 [[A_COL]], 4			; CHECK-NEXT: [[TMP2:%.*]] = udiv i16 [[A_COL]], 4
	; CHECK-NEXT: [[A_TILE_PTR:%.*]] = getelementptr inbounds i8, ptr [[A]], i64 64			; CHECK-NEXT: [[A_TILE_PTR:%.*]] = getelementptr inbounds i8, ptr [[A]], i64 64
	; CHECK-NEXT: [[TMP2:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[A_ROW]], i16 [[A_COL]], ptr [[A_TILE_PTR]], i64 64)			; CHECK-NEXT: [[TMP3:%.*]] = sext i16 [[A_COL]] to i64
				; CHECK-NEXT: [[TMP4:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[A_ROW]], i16 [[A_COL]], ptr [[A_TILE_PTR]], i64 [[TMP3]])
	; CHECK-NEXT: [[C_TILE_PTR:%.]] = getelementptr inbounds [[STRUCT___TILE1024I_STR:%.]], ptr [[C:%.*]], i64 0, i32 3			; CHECK-NEXT: [[C_TILE_PTR:%.]] = getelementptr inbounds [[STRUCT___TILE1024I_STR:%.]], ptr [[C:%.*]], i64 0, i32 3
	; CHECK-NEXT: [[TMP3:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[A_ROW]], i16 [[B_ROW]], ptr [[C_TILE_PTR]], i64 64)			; CHECK-NEXT: [[TMP5:%.*]] = sext i16 [[B_ROW]] to i64
	; CHECK-NEXT: [[TMP4:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[B_ROW]], ptr [[TMP0]], i64 64)			; CHECK-NEXT: [[TMP6:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[A_ROW]], i16 [[B_ROW]], ptr [[C_TILE_PTR]], i64 [[TMP5]])
	; CHECK-NEXT: [[RES:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[A_ROW]], i16 [[B_ROW]], i16 [[A_COL]], x86_amx [[TMP3]], x86_amx [[TMP2]], x86_amx [[TMP4]])			; CHECK-NEXT: [[TMP7:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP2]], i16 [[B_ROW]], ptr [[TMP0]], i64 [[TMP1]])
				; CHECK-NEXT: [[RES:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[A_ROW]], i16 [[B_ROW]], i16 [[A_COL]], x86_amx [[TMP6]], x86_amx [[TMP4]], x86_amx [[TMP7]])
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	entry:			entry:
	%b.row.ptr= getelementptr inbounds i8, ptr %b, i64 2			%b.row.ptr= getelementptr inbounds i8, ptr %b, i64 2
	%b.row = load i16, ptr %b.row.ptr, align 2			%b.row = load i16, ptr %b.row.ptr, align 2
	%b.tile.ptr = getelementptr inbounds i8, ptr %b, i64 64			%b.tile.ptr = getelementptr inbounds i8, ptr %b, i64 64
	%b.tile = load <256 x i32>, ptr %b.tile.ptr, align 64			%b.tile = load <256 x i32>, ptr %b.tile.ptr, align 64
	%a.row = load i16, ptr %a, align 64			%a.row = load i16, ptr %a, align 64
	%a.col.ptr = getelementptr inbounds i8, ptr %a, i64 2			%a.col.ptr = getelementptr inbounds i8, ptr %a, i64 2
	%a.col = load i16, ptr %a.col.ptr, align 2			%a.col = load i16, ptr %a.col.ptr, align 2
	%a.tile.ptr = getelementptr inbounds i8, ptr %a, i64 64			%a.tile.ptr = getelementptr inbounds i8, ptr %a, i64 64
	%a.tile = load <256 x i32>, ptr %a.tile.ptr, align 64			%a.tile = load <256 x i32>, ptr %a.tile.ptr, align 64
	%c.tile.ptr = getelementptr inbounds %struct.__tile1024i_str, ptr %c, i64 0, i32 3			%c.tile.ptr = getelementptr inbounds %struct.__tile1024i_str, ptr %c, i64 0, i32 3
	%c.tile = load <256 x i32>, ptr %c.tile.ptr, align 64			%c.tile = load <256 x i32>, ptr %c.tile.ptr, align 64
	%c.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %c.tile)			%c.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %c.tile)
	%a.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %a.tile)			%a.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %a.tile)
	%b.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %b.tile)			%b.amx = tail call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %b.tile)
	%res = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 %a.row, i16 %b.row, i16 %a.col, x86_amx %c.amx, x86_amx %a.amx, x86_amx %b.amx)			%res = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 %a.row, i16 %b.row, i16 %a.col, x86_amx %c.amx, x86_amx %a.amx, x86_amx %b.amx)
	ret void			ret void
	}			}

				define void @combine_v256i8amcast_with_store(i8* %src_ptr, <256 x i8>* %dst_ptr) {
				; CHECK-LABEL: @combine_v256i8amcast_with_store(
				; CHECK-NEXT: entry:
				; CHECK-NEXT: [[TILE:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, ptr [[SRC_PTR:%.]], i64 64)
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 8, i16 32, ptr [[DST_PTR:%.*]], i64 32, x86_amx [[TILE]])
				; CHECK-NEXT: ret void
				;
				entry:
				%tile = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, i8* %src_ptr, i64 64)
				%vec = call <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx %tile)
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Could you add comments in the amx-cast definition that the vector size can be smaller than AMX register size (1024 bytes)? I think vector size can NOT be larger than AMX register size, am I right? LuoYuanke: Could you add comments in the amx-cast definition that the vector size can be smaller than AMX…
				store <256 x i8> %vec, <256 x i8>* %dst_ptr, align 256
				ret void
				}

				define void @combine_v256i8amcast_with_load(i8* %src_ptr, <256 x i8>* %dst_ptr) {
				; CHECK-LABEL: @combine_v256i8amcast_with_load(
				; CHECK-NEXT: entry:
				; CHECK-NEXT: [[TMP0:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 8, i16 32, ptr [[SRC_PTR:%.]], i64 32)
				; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 8, i16 32, ptr [[DST_PTR:%.*]], i64 32, x86_amx [[TMP0]])
				; CHECK-NEXT: ret void
				;
				entry:
				%vec = load <256 x i8>, ptr %src_ptr, align 256
				%tile = call x86_amx @llvm.x86.cast.vector.to.tile.v256i8(<256 x i8> %vec)
				call void @llvm.x86.tilestored64.internal(i16 8, i16 32, <256 x i8>* %dst_ptr, i64 32, x86_amx %tile)
				ret void
				}

	declare x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32>)			declare x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32>)
	declare <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx)			declare <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx)
				declare x86_amx @llvm.x86.cast.vector.to.tile.v256i8(<256 x i8>)
				declare <256 x i8> @llvm.x86.cast.tile.to.vector.v256i8(x86_amx)
	declare x86_amx @llvm.x86.tilezero.internal(i16, i16)			declare x86_amx @llvm.x86.tilezero.internal(i16, i16)
	declare x86_amx @llvm.x86.tileloadd64.internal(i16, i16, ptr, i64)			declare x86_amx @llvm.x86.tileloadd64.internal(i16, i16, ptr, i64)
	declare void @llvm.x86.tilestored64.internal(i16, i16, ptr, i64, x86_amx)			declare void @llvm.x86.tilestored64.internal(i16, i16, ptr, i64, x86_amx)
	declare x86_amx @llvm.x86.tdpbssd.internal(i16, i16, i16, x86_amx, x86_amx, x86_amx)			declare x86_amx @llvm.x86.tdpbssd.internal(i16, i16, i16, x86_amx, x86_amx, x86_amx)

llvm/test/CodeGen/X86/AMX/lat-transform-amx-bitcast.ll

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
define dso_local <256 x i32> @test_amx_bitcast_store(ptr %out, i16 %m, i16 %n, ptr%buf, i64 %s) {		define dso_local <256 x i32> @test_amx_bitcast_store(ptr %out, i16 %m, i16 %n, ptr%buf, i64 %s) {
; CHECK-LABEL: @test_amx_bitcast_store(		; CHECK-LABEL: @test_amx_bitcast_store(
; CHECK-NEXT: entry:		; CHECK-NEXT: entry:
; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64		; CHECK-NEXT: [[TMP0:%.*]] = alloca <256 x i32>, align 64
; CHECK-NEXT: [[T1:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[M]], ptr [[BUF:%.]], i64 [[S:%.]])		; CHECK-NEXT: [[T1:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[M]], ptr [[BUF:%.]], i64 [[S:%.]])
; CHECK-NEXT: [[TMP1:%.*]] = sext i16 [[M]] to i64		; CHECK-NEXT: [[TMP1:%.*]] = sext i16 [[M]] to i64
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[TMP0]], i64 [[TMP1]], x86_amx [[T1]])		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[TMP0]], i64 [[TMP1]], x86_amx [[T1]])
; CHECK-NEXT: [[TMP2:%.*]] = load <256 x i32>, ptr [[TMP0]], align 1024		; CHECK-NEXT: [[TMP2:%.*]] = load <256 x i32>, ptr [[TMP0]], align 1024
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[OUT:%.*]], i64 64, x86_amx [[T1]])		; CHECK-NEXT: [[TMP3:%.*]] = sext i16 [[M]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[M]], ptr [[OUT:%.*]], i64 [[TMP3]], x86_amx [[T1]])
; CHECK-NEXT: ret <256 x i32> [[TMP2]]		; CHECK-NEXT: ret <256 x i32> [[TMP2]]
;		;
entry:		entry:
%t1 = call x86_amx @llvm.x86.tileloadd64.internal(i16 %m, i16 %m, ptr %buf, i64 %s)		%t1 = call x86_amx @llvm.x86.tileloadd64.internal(i16 %m, i16 %m, ptr %buf, i64 %s)
%t2 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t1)		%t2 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t1)
store <256 x i32> %t2, ptr %out		store <256 x i32> %t2, ptr %out
ret <256 x i32> %t2		ret <256 x i32> %t2
}		}
Show All 38 Lines
; CHECK-LABEL: @__tile_loadd(		; CHECK-LABEL: @__tile_loadd(
; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP0:%.]], align 64		; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP0:%.]], align 64
; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP0]], i64 0, i32 1		; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP0]], i64 0, i32 1
; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2		; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2
; CHECK-NEXT: [[TMP7:%.]] = shl i64 [[TMP2:%.]], 32		; CHECK-NEXT: [[TMP7:%.]] = shl i64 [[TMP2:%.]], 32
; CHECK-NEXT: [[TMP8:%.*]] = ashr exact i64 [[TMP7]], 32		; CHECK-NEXT: [[TMP8:%.*]] = ashr exact i64 [[TMP7]], 32
; CHECK-NEXT: [[TMP9:%.]] = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP1:%.]], i64 [[TMP8]])		; CHECK-NEXT: [[TMP9:%.]] = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP1:%.]], i64 [[TMP8]])
; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0]], i64 0, i32 2		; CHECK-NEXT: [[TMP10:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0]], i64 0, i32 2
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64, x86_amx [[TMP9]])		; CHECK-NEXT: [[TMP11:%.*]] = sext i16 [[TMP6]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 [[TMP11]], x86_amx [[TMP9]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%4 = load i16, ptr %0, align 64		%4 = load i16, ptr %0, align 64
%5 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 1		%5 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 1
%6 = load i16, ptr %5, align 2		%6 = load i16, ptr %5, align 2
%7 = shl i64 %2, 32		%7 = shl i64 %2, 32
%8 = ashr exact i64 %7, 32		%8 = ashr exact i64 %7, 32
%9 = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 %4, i16 %6, ptr %1, i64 %8)		%9 = tail call x86_amx @llvm.x86.tileloadd64.internal(i16 %4, i16 %6, ptr %1, i64 %8)
%10 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %9)		%10 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %9)
%11 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2		%11 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2
store <256 x i32> %10, ptr %11, align 64		store <256 x i32> %10, ptr %11, align 64
ret void		ret void
}		}

define dso_local void @__tile_dpbssd(ptr nocapture %0, ptr nocapture readonly byval(%struct.__tile_str) align 64 %1, ptr nocapture readonly byval(%struct.__tile_str) align 64 %2) local_unnamed_addr {		define dso_local void @__tile_dpbssd(ptr nocapture %0, ptr nocapture readonly byval(%struct.__tile_str) align 64 %1, ptr nocapture readonly byval(%struct.__tile_str) align 64 %2) local_unnamed_addr {
; CHECK-LABEL: @__tile_dpbssd(		; CHECK-LABEL: @__tile_dpbssd(
; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP1:%.]], align 64		; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP1:%.]], align 64
; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP2:%.*]], i64 0, i32 1		; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP2:%.*]], i64 0, i32 1
; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2		; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2
; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 1		; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 1
; CHECK-NEXT: [[TMP8:%.*]] = load i16, ptr [[TMP7]], align 2		; CHECK-NEXT: [[TMP8:%.*]] = load i16, ptr [[TMP7]], align 2
; CHECK-NEXT: [[TMP9:%.*]] = udiv i16 [[TMP8]], 4		; CHECK-NEXT: [[TMP9:%.*]] = udiv i16 [[TMP8]], 4
; CHECK-NEXT: [[TMP10:%.]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0:%.]], i64 0, i32 2		; CHECK-NEXT: [[TMP10:%.]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP0:%.]], i64 0, i32 2
; CHECK-NEXT: [[TMP11:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64)		; CHECK-NEXT: [[TMP11:%.*]] = sext i16 [[TMP6]] to i64
; CHECK-NEXT: [[TMP12:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 2		; CHECK-NEXT: [[TMP12:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 [[TMP11]])
; CHECK-NEXT: [[TMP13:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP8]], ptr [[TMP12]], i64 64)		; CHECK-NEXT: [[TMP13:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP1]], i64 0, i32 2
; CHECK-NEXT: [[TMP14:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2		; CHECK-NEXT: [[TMP14:%.*]] = sext i16 [[TMP8]] to i64
; CHECK-NEXT: [[TMP15:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP9]], i16 [[TMP6]], ptr [[TMP14]], i64 64)		; CHECK-NEXT: [[TMP15:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP8]], ptr [[TMP13]], i64 [[TMP14]])
; CHECK-NEXT: [[TMP16:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[TMP4]], i16 [[TMP6]], i16 [[TMP8]], x86_amx [[TMP11]], x86_amx [[TMP13]], x86_amx [[TMP15]])		; CHECK-NEXT: [[TMP16:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 64, x86_amx [[TMP16]])		; CHECK-NEXT: [[TMP17:%.*]] = sext i16 [[TMP6]] to i64
		; CHECK-NEXT: [[TMP18:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP9]], i16 [[TMP6]], ptr [[TMP16]], i64 [[TMP17]])
		; CHECK-NEXT: [[TMP19:%.*]] = tail call x86_amx @llvm.x86.tdpbssd.internal(i16 [[TMP4]], i16 [[TMP6]], i16 [[TMP8]], x86_amx [[TMP12]], x86_amx [[TMP15]], x86_amx [[TMP18]])
		; CHECK-NEXT: [[TMP20:%.*]] = sext i16 [[TMP6]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP10]], i64 [[TMP20]], x86_amx [[TMP19]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%4 = load i16, ptr %1, align 64		%4 = load i16, ptr %1, align 64
%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1		%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1
%6 = load i16, ptr %5, align 2		%6 = load i16, ptr %5, align 2
%7 = getelementptr inbounds %struct.__tile_str, ptr %1, i64 0, i32 1		%7 = getelementptr inbounds %struct.__tile_str, ptr %1, i64 0, i32 1
%8 = load i16, ptr %7, align 2		%8 = load i16, ptr %7, align 2
%9 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2		%9 = getelementptr inbounds %struct.__tile_str, ptr %0, i64 0, i32 2
Show All 9 Lines	;
%19 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %18)		%19 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %18)
store <256 x i32> %19, ptr %9, align 64		store <256 x i32> %19, ptr %9, align 64
ret void		ret void
}		}

define dso_local void @__tile_dpbsud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {		define dso_local void @__tile_dpbsud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
; CHECK-LABEL: @__tile_dpbsud(		; CHECK-LABEL: @__tile_dpbsud(
; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4		; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)		; CHECK-NEXT: [[TMP2:%.*]] = sext i16 [[K]] to i64
; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)		; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 [[TMP2]])
; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)		; CHECK-NEXT: [[TMP4:%.]] = sext i16 [[N:%.]] to i64
; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])		; CHECK-NEXT: [[TMP5:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N]], ptr [[PB:%.]], i64 [[TMP4]])
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])		; CHECK-NEXT: [[TMP6:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: [[TMP7:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 [[TMP6]])
		; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP7]], x86_amx [[TMP3]], x86_amx [[TMP5]])
		; CHECK-NEXT: [[TMP8:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP8]], x86_amx [[T6]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%t0 = load <256 x i32>, ptr %pa, align 64		%t0 = load <256 x i32>, ptr %pa, align 64
%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)		%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
%t2 = load <256 x i32>, ptr %pb, align 64		%t2 = load <256 x i32>, ptr %pb, align 64
%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)		%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
%t4 = load <256 x i32>, ptr %pc, align 64		%t4 = load <256 x i32>, ptr %pc, align 64
%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)		%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
%t6 = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)		%t6 = tail call x86_amx @llvm.x86.tdpbsud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)		%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
store <256 x i32> %t7, ptr %pc, align 64		store <256 x i32> %t7, ptr %pc, align 64
ret void		ret void
}		}

define dso_local void @__tile_dpbusd(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {		define dso_local void @__tile_dpbusd(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
; CHECK-LABEL: @__tile_dpbusd(		; CHECK-LABEL: @__tile_dpbusd(
; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4		; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)		; CHECK-NEXT: [[TMP2:%.*]] = sext i16 [[K]] to i64
; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)		; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 [[TMP2]])
; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)		; CHECK-NEXT: [[TMP4:%.]] = sext i16 [[N:%.]] to i64
; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])		; CHECK-NEXT: [[TMP5:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N]], ptr [[PB:%.]], i64 [[TMP4]])
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])		; CHECK-NEXT: [[TMP6:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: [[TMP7:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 [[TMP6]])
		; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP7]], x86_amx [[TMP3]], x86_amx [[TMP5]])
		; CHECK-NEXT: [[TMP8:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP8]], x86_amx [[T6]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%t0 = load <256 x i32>, ptr %pa, align 64		%t0 = load <256 x i32>, ptr %pa, align 64
%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)		%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
%t2 = load <256 x i32>, ptr %pb, align 64		%t2 = load <256 x i32>, ptr %pb, align 64
%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)		%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
%t4 = load <256 x i32>, ptr %pc, align 64		%t4 = load <256 x i32>, ptr %pc, align 64
%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)		%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
%t6 = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)		%t6 = tail call x86_amx @llvm.x86.tdpbusd.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)		%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
store <256 x i32> %t7, ptr %pc, align 64		store <256 x i32> %t7, ptr %pc, align 64
ret void		ret void
}		}

define dso_local void @__tile_dpbuud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {		define dso_local void @__tile_dpbuud(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
; CHECK-LABEL: @__tile_dpbuud(		; CHECK-LABEL: @__tile_dpbuud(
; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4		; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)		; CHECK-NEXT: [[TMP2:%.*]] = sext i16 [[K]] to i64
; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)		; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 [[TMP2]])
; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)		; CHECK-NEXT: [[TMP4:%.]] = sext i16 [[N:%.]] to i64
; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])		; CHECK-NEXT: [[TMP5:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N]], ptr [[PB:%.]], i64 [[TMP4]])
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])		; CHECK-NEXT: [[TMP6:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: [[TMP7:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 [[TMP6]])
		; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP7]], x86_amx [[TMP3]], x86_amx [[TMP5]])
		; CHECK-NEXT: [[TMP8:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP8]], x86_amx [[T6]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%t0 = load <256 x i32>, ptr %pa, align 64		%t0 = load <256 x i32>, ptr %pa, align 64
%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)		%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
%t2 = load <256 x i32>, ptr %pb, align 64		%t2 = load <256 x i32>, ptr %pb, align 64
%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)		%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
%t4 = load <256 x i32>, ptr %pc, align 64		%t4 = load <256 x i32>, ptr %pc, align 64
%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)		%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
%t6 = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)		%t6 = tail call x86_amx @llvm.x86.tdpbuud.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)		%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
store <256 x i32> %t7, ptr %pc, align 64		store <256 x i32> %t7, ptr %pc, align 64
ret void		ret void
}		}

define dso_local void @__tile_dpbf16ps(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {		define dso_local void @__tile_dpbf16ps(i16 %m, i16 %n, i16 %k, ptr %pc, ptr %pa, ptr %pb) {
; CHECK-LABEL: @__tile_dpbf16ps(		; CHECK-LABEL: @__tile_dpbf16ps(
; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4		; CHECK-NEXT: [[TMP1:%.]] = udiv i16 [[K:%.]], 4
; CHECK-NEXT: [[TMP2:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 64)		; CHECK-NEXT: [[TMP2:%.*]] = sext i16 [[K]] to i64
; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N:%.]], ptr [[PB:%.*]], i64 64)		; CHECK-NEXT: [[TMP3:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M:%.]], i16 [[K]], ptr [[PA:%.*]], i64 [[TMP2]])
; CHECK-NEXT: [[TMP4:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 64)		; CHECK-NEXT: [[TMP4:%.]] = sext i16 [[N:%.]] to i64
; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP4]], x86_amx [[TMP2]], x86_amx [[TMP3]])		; CHECK-NEXT: [[TMP5:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP1]], i16 [[N]], ptr [[PB:%.]], i64 [[TMP4]])
; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 64, x86_amx [[T6]])		; CHECK-NEXT: [[TMP6:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: [[TMP7:%.]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[M]], i16 [[N]], ptr [[PC:%.]], i64 [[TMP6]])
		; CHECK-NEXT: [[T6:%.*]] = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 [[M]], i16 [[N]], i16 [[K]], x86_amx [[TMP7]], x86_amx [[TMP3]], x86_amx [[TMP5]])
		; CHECK-NEXT: [[TMP8:%.*]] = sext i16 [[N]] to i64
		; CHECK-NEXT: call void @llvm.x86.tilestored64.internal(i16 [[M]], i16 [[N]], ptr [[PC]], i64 [[TMP8]], x86_amx [[T6]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%t0 = load <256 x i32>, ptr %pa, align 64		%t0 = load <256 x i32>, ptr %pa, align 64
%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)		%t1 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t0)
%t2 = load <256 x i32>, ptr %pb, align 64		%t2 = load <256 x i32>, ptr %pb, align 64
%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)		%t3 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t2)
%t4 = load <256 x i32>, ptr %pc, align 64		%t4 = load <256 x i32>, ptr %pc, align 64
%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)		%t5 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %t4)
%t6 = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)		%t6 = tail call x86_amx @llvm.x86.tdpbf16ps.internal(i16 %m, i16 %n, i16 %k, x86_amx %t5, x86_amx %t1, x86_amx %t3)
%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)		%t7 = call <256 x i32> @llvm.x86.cast.tile.to.vector.v256i32(x86_amx %t6)
store <256 x i32> %t7, ptr %pc, align 64		store <256 x i32> %t7, ptr %pc, align 64
ret void		ret void
}		}

define dso_local void @__tile_stored(ptr %0, i64 %1, ptr nocapture readonly byval(%struct.__tile_str) align 64 %2) local_unnamed_addr {		define dso_local void @__tile_stored(ptr %0, i64 %1, ptr nocapture readonly byval(%struct.__tile_str) align 64 %2) local_unnamed_addr {
; CHECK-LABEL: @__tile_stored(		; CHECK-LABEL: @__tile_stored(
; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP2:%.]], align 64		; CHECK-NEXT: [[TMP4:%.]] = load i16, ptr [[TMP2:%.]], align 64
; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP2]], i64 0, i32 1		; CHECK-NEXT: [[TMP5:%.]] = getelementptr inbounds [[STRUCT___TILE_STR:%.]], ptr [[TMP2]], i64 0, i32 1
; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2		; CHECK-NEXT: [[TMP6:%.*]] = load i16, ptr [[TMP5]], align 2
; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2		; CHECK-NEXT: [[TMP7:%.*]] = getelementptr inbounds [[STRUCT___TILE_STR]], ptr [[TMP2]], i64 0, i32 2
; CHECK-NEXT: [[TMP8:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP7]], i64 64)		; CHECK-NEXT: [[TMP8:%.*]] = sext i16 [[TMP6]] to i64
; CHECK-NEXT: [[TMP9:%.]] = shl i64 [[TMP1:%.]], 32		; CHECK-NEXT: [[TMP9:%.*]] = call x86_amx @llvm.x86.tileloadd64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP7]], i64 [[TMP8]])
; CHECK-NEXT: [[TMP10:%.*]] = ashr exact i64 [[TMP9]], 32		; CHECK-NEXT: [[TMP10:%.]] = shl i64 [[TMP1:%.]], 32
; CHECK-NEXT: tail call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP0:%.*]], i64 [[TMP10]], x86_amx [[TMP8]])		; CHECK-NEXT: [[TMP11:%.*]] = ashr exact i64 [[TMP10]], 32
		; CHECK-NEXT: tail call void @llvm.x86.tilestored64.internal(i16 [[TMP4]], i16 [[TMP6]], ptr [[TMP0:%.*]], i64 [[TMP11]], x86_amx [[TMP9]])
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
%4 = load i16, ptr %2, align 64		%4 = load i16, ptr %2, align 64
%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1		%5 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 1
%6 = load i16, ptr %5, align 2		%6 = load i16, ptr %5, align 2
%7 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 2		%7 = getelementptr inbounds %struct.__tile_str, ptr %2, i64 0, i32 2
%8 = load <256 x i32>, ptr %7, align 64		%8 = load <256 x i32>, ptr %7, align 64
%9 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %8)		%9 = call x86_amx @llvm.x86.cast.vector.to.tile.v256i32(<256 x i32> %8)
▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines