Diff 325688

clang/include/clang/Basic/BuiltinsX86_64.def

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	TARGET_BUILTIN(__builtin_ia32_clui, "v", "n", "uintr")			TARGET_BUILTIN(__builtin_ia32_clui, "v", "n", "uintr")
	TARGET_BUILTIN(__builtin_ia32_stui, "v", "n", "uintr")			TARGET_BUILTIN(__builtin_ia32_stui, "v", "n", "uintr")
	TARGET_BUILTIN(__builtin_ia32_testui, "Uc", "n", "uintr")			TARGET_BUILTIN(__builtin_ia32_testui, "Uc", "n", "uintr")
	TARGET_BUILTIN(__builtin_ia32_senduipi, "vUWi", "n", "uintr")			TARGET_BUILTIN(__builtin_ia32_senduipi, "vUWi", "n", "uintr")

	// AMX internal builtin			// AMX internal builtin
	TARGET_BUILTIN(__builtin_ia32_tileloadd64_internal, "V256iUsUsvC*z", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tileloadd64_internal, "V256iUsUsvC*z", "n", "amx-tile")
	TARGET_BUILTIN(__builtin_ia32_tdpbssd_internal, "V256iUsUsUsV256iV256iV256i", "n", "amx-int8")			TARGET_BUILTIN(__builtin_ia32_tdpbssd_internal, "V256iUsUsUsV256iV256iV256i", "n", "amx-int8")
				TARGET_BUILTIN(__builtin_ia32_tdpbf16ps_internal, "V256iUsUsUsV256iV256iV256i", "n", "amx-bf16")
	TARGET_BUILTIN(__builtin_ia32_tilestored64_internal, "vUsUsv*zV256i", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tilestored64_internal, "vUsUsv*zV256i", "n", "amx-tile")
	TARGET_BUILTIN(__builtin_ia32_tilezero_internal, "V256iUsUs", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tilezero_internal, "V256iUsUs", "n", "amx-tile")
	// AMX			// AMX
	TARGET_BUILTIN(__builtin_ia32_tile_loadconfig, "vvC*", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tile_loadconfig, "vvC*", "n", "amx-tile")
	TARGET_BUILTIN(__builtin_ia32_tile_storeconfig, "vvC*", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tile_storeconfig, "vvC*", "n", "amx-tile")
	TARGET_BUILTIN(__builtin_ia32_tilerelease, "v", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tilerelease, "v", "n", "amx-tile")
	TARGET_BUILTIN(__builtin_ia32_tilezero, "vUc", "n", "amx-tile")			TARGET_BUILTIN(__builtin_ia32_tilezero, "vUc", "n", "amx-tile")

	Show All 14 Lines

clang/lib/Headers/amxintrin.h

	Show First 20 Lines • Show All 218 Lines • ▼ Show 20 Lines
	/// \param src1			/// \param src1
	/// The 2nd source tile. Max size is 1024 Bytes.			/// The 2nd source tile. Max size is 1024 Bytes.
	#define _tile_dpbf16ps(dst, src0, src1) \			#define _tile_dpbf16ps(dst, src0, src1) \
	__builtin_ia32_tdpbf16ps((dst), (src0), (src1))			__builtin_ia32_tdpbf16ps((dst), (src0), (src1))

	#define __DEFAULT_FN_ATTRS_INT8 \			#define __DEFAULT_FN_ATTRS_INT8 \
	__attribute__((__always_inline__, __nodebug__, __target__("amx-int8")))			__attribute__((__always_inline__, __nodebug__, __target__("amx-int8")))

				#define __DEFAULT_FN_ATTRS_BF16 \
				__attribute__((__always_inline__, __nodebug__, __target__("amx-bf16")))

	typedef int _tile1024i __attribute__((__vector_size__(1024), __aligned__(64)));			typedef int _tile1024i __attribute__((__vector_size__(1024), __aligned__(64)));
	static __inline__ _tile1024i __DEFAULT_FN_ATTRS_INT8			static __inline__ _tile1024i __DEFAULT_FN_ATTRS_INT8
	_tile_loadd_internal(unsigned short m, unsigned short n, const void *base,			_tile_loadd_internal(unsigned short m, unsigned short n, const void *base,
	__SIZE_TYPE__ stride) {			__SIZE_TYPE__ stride) {
	return __builtin_ia32_tileloadd64_internal(m, n, base,			return __builtin_ia32_tileloadd64_internal(m, n, base,
	(__SIZE_TYPE__)(stride));			(__SIZE_TYPE__)(stride));
	}			}

	static __inline__ _tile1024i __DEFAULT_FN_ATTRS_INT8			static __inline__ _tile1024i __DEFAULT_FN_ATTRS_INT8
	_tile_dpbssd_internal(unsigned short m, unsigned short n, unsigned short k,			_tile_dpbssd_internal(unsigned short m, unsigned short n, unsigned short k,
	_tile1024i dst, _tile1024i src1, _tile1024i src2) {			_tile1024i dst, _tile1024i src1, _tile1024i src2) {
	return __builtin_ia32_tdpbssd_internal(m, n, k, dst, src1, src2);			return __builtin_ia32_tdpbssd_internal(m, n, k, dst, src1, src2);
	}			}

				static __inline__ _tile1024i __DEFAULT_FN_ATTRS_INT8
				_tile_dpbf16ps_internal(unsigned short m, unsigned short n, unsigned short k,
				_tile1024i dst, _tile1024i src1, _tile1024i src2) {
				return __builtin_ia32_tdpbf16ps_internal(m, n, k, dst, src1, src2);
				}

	static __inline__ void __DEFAULT_FN_ATTRS_INT8			static __inline__ void __DEFAULT_FN_ATTRS_INT8
	_tile_stored_internal(unsigned short m, unsigned short n, void *base,			_tile_stored_internal(unsigned short m, unsigned short n, void *base,
	__SIZE_TYPE__ stride, _tile1024i tile) {			__SIZE_TYPE__ stride, _tile1024i tile) {
	return __builtin_ia32_tilestored64_internal(m, n, base,			return __builtin_ia32_tilestored64_internal(m, n, base,
	(__SIZE_TYPE__)(stride), tile);			(__SIZE_TYPE__)(stride), tile);
	}			}

	typedef struct __tile1024i_str {			typedef struct __tile1024i_str {
	Show All 10 Lines

	__DEFAULT_FN_ATTRS_INT8			__DEFAULT_FN_ATTRS_INT8
	static void __tile_dpbssd(__tile1024i *dst, __tile1024i src1,			static void __tile_dpbssd(__tile1024i *dst, __tile1024i src1,
	__tile1024i src2) {			__tile1024i src2) {
	dst->tile = _tile_dpbssd_internal(src1.row, src2.col, src1.col, dst->tile,			dst->tile = _tile_dpbssd_internal(src1.row, src2.col, src1.col, dst->tile,
	src1.tile, src2.tile);			src1.tile, src2.tile);
	}			}

				__DEFAULT_FN_ATTRS_INT8
				static void __tile_dpbf16ps(__tile1024i *dst, __tile1024i src1,
				__tile1024i src2) {
				dst->tile = _tile_dpbf16ps_internal(src1.row, src2.col, src1.col, dst->tile,
				src1.tile, src2.tile);
				}

	__DEFAULT_FN_ATTRS_TILE			__DEFAULT_FN_ATTRS_TILE
	static void __tile_stored(void *base, __SIZE_TYPE__ stride, __tile1024i src) {			static void __tile_stored(void *base, __SIZE_TYPE__ stride, __tile1024i src) {
	_tile_stored_internal(src.row, src.col, base, stride, src.tile);			_tile_stored_internal(src.row, src.col, base, stride, src.tile);
	}			}

	__DEFAULT_FN_ATTRS_TILE			__DEFAULT_FN_ATTRS_TILE
	static void __tile_zero(__tile1024i *dst) {			static void __tile_zero(__tile1024i *dst) {
	dst->tile = __builtin_ia32_tilezero_internal(dst->row, dst->col);			dst->tile = __builtin_ia32_tilezero_internal(dst->row, dst->col);
	}			}

	#endif /* __x86_64__ */			#endif /* __x86_64__ */
	#endif /* __AMXINTRIN_H */			#endif /* __AMXINTRIN_H */

llvm/include/llvm/IR/IntrinsicsX86.td

Show First 20 Lines • Show All 5,047 Lines • ▼ Show 20 Lines	def int_x86_tileloadd64_internal :
[llvm_i16_ty, llvm_i16_ty, llvm_ptr_ty, llvm_i64_ty],		[llvm_i16_ty, llvm_i16_ty, llvm_ptr_ty, llvm_i64_ty],
[]>;		[]>;
def int_x86_tdpbssd_internal :		def int_x86_tdpbssd_internal :
GCCBuiltin<"__builtin_ia32_tdpbssd_internal">,		GCCBuiltin<"__builtin_ia32_tdpbssd_internal">,
Intrinsic<[llvm_x86amx_ty],		Intrinsic<[llvm_x86amx_ty],
[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,		[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,
llvm_x86amx_ty, llvm_x86amx_ty,		llvm_x86amx_ty, llvm_x86amx_ty,
llvm_x86amx_ty], []>;		llvm_x86amx_ty], []>;
		def int_x86_tdpbf16ps_internal :
		GCCBuiltin<"__builtin_ia32_tdpbf16ps_internal">,
		Intrinsic<[llvm_x86amx_ty],
		[llvm_i16_ty, llvm_i16_ty, llvm_i16_ty,
		llvm_x86amx_ty, llvm_x86amx_ty,
		llvm_x86amx_ty], []>;
def int_x86_tilestored64_internal :		def int_x86_tilestored64_internal :
GCCBuiltin<"__builtin_ia32_tilestored64_internal">,		GCCBuiltin<"__builtin_ia32_tilestored64_internal">,
Intrinsic<[], [llvm_i16_ty, llvm_i16_ty, llvm_ptr_ty,		Intrinsic<[], [llvm_i16_ty, llvm_i16_ty, llvm_ptr_ty,
llvm_i64_ty, llvm_x86amx_ty], []>;		llvm_i64_ty, llvm_x86amx_ty], []>;
def int_x86_tilezero_internal :		def int_x86_tilezero_internal :
GCCBuiltin<"__builtin_ia32_tilezero_internal">,		GCCBuiltin<"__builtin_ia32_tilezero_internal">,
Intrinsic<[llvm_x86amx_ty], [llvm_i16_ty, llvm_i16_ty],		Intrinsic<[llvm_x86amx_ty], [llvm_i16_ty, llvm_i16_ty],
[]>;		[]>;
Show All 15 Lines

llvm/lib/Target/X86/X86ExpandPseudo.cpp

Show First 20 Lines • Show All 469 Lines • ▼ Show 20 Lines	bool X86ExpandPseudo::ExpandMI(MachineBasicBlock &MBB,
case X86::PTDPBSSDV: {		case X86::PTDPBSSDV: {
MI.untieRegOperand(4);		MI.untieRegOperand(4);
for (unsigned i = 3; i > 0; --i)		for (unsigned i = 3; i > 0; --i)
MI.RemoveOperand(i);		MI.RemoveOperand(i);
MI.setDesc(TII->get(X86::TDPBSSD));		MI.setDesc(TII->get(X86::TDPBSSD));
MI.tieOperands(0, 1);		MI.tieOperands(0, 1);
return true;		return true;
}		}
		case X86::PTDPBF16PSV: {
		MI.untieRegOperand(4);
		for (unsigned i = 3; i > 0; --i)
		MI.RemoveOperand(i);
		MI.setDesc(TII->get(X86::TDPBF16PS));
		MI.tieOperands(0, 1);
		return true;
		}
case X86::PTILESTOREDV: {		case X86::PTILESTOREDV: {
for (int i = 1; i >= 0; --i)		for (int i = 1; i >= 0; --i)
MI.RemoveOperand(i);		MI.RemoveOperand(i);
MI.setDesc(TII->get(X86::TILESTORED));		MI.setDesc(TII->get(X86::TILESTORED));
return true;		return true;
}		}
case X86::PTILEZEROV: {		case X86::PTILEZEROV: {
for (int i = 2; i > 0; --i) // Remove row, col		for (int i = 2; i > 0; --i) // Remove row, col
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelDAGToDAG.cpp

Show First 20 Lines • Show All 4,632 Lines • ▼ Show 20 Lines	case Intrinsic::x86_tdpbssd_internal: {
Node->getOperand(6),		Node->getOperand(6),
Node->getOperand(7),		Node->getOperand(7),
Chain};		Chain};
MachineSDNode *CNode =		MachineSDNode *CNode =
CurDAG->getMachineNode(Opc, dl, {MVT::x86amx, MVT::Other}, Ops);		CurDAG->getMachineNode(Opc, dl, {MVT::x86amx, MVT::Other}, Ops);
ReplaceNode(Node, CNode);		ReplaceNode(Node, CNode);
return;		return;
}		}
		case Intrinsic::x86_tdpbf16ps_internal: {
		if (!Subtarget->hasAMXTILE())
		break;
		SDValue Chain = Node->getOperand(0);
		unsigned Opc = X86::PTDPBF16PSV;
		SDValue Ops[] = {Node->getOperand(2),
		Node->getOperand(3),
		Node->getOperand(4),
		Node->getOperand(5),
		Node->getOperand(6),
		Node->getOperand(7),
		Chain};
		MachineSDNode *CNode =
		CurDAG->getMachineNode(Opc, dl, {MVT::x86amx, MVT::Other}, Ops);
		ReplaceNode(Node, CNode);
		return;
		}
case Intrinsic::x86_tilezero_internal: {		case Intrinsic::x86_tilezero_internal: {
if (!Subtarget->hasAMXTILE())		if (!Subtarget->hasAMXTILE())
break;		break;
unsigned Opc = X86::PTILEZEROV;		unsigned Opc = X86::PTILEZEROV;
SDValue Chain = Node->getOperand(0);		SDValue Chain = Node->getOperand(0);
SDValue Ops[] = {Node->getOperand(2), Node->getOperand(3), Chain};		SDValue Ops[] = {Node->getOperand(2), Node->getOperand(3), Chain};
MachineSDNode *CNode =		MachineSDNode *CNode =
CurDAG->getMachineNode(Opc, dl, {MVT::x86amx, MVT::Other}, Ops);		CurDAG->getMachineNode(Opc, dl, {MVT::x86amx, MVT::Other}, Ops);
▲ Show 20 Lines • Show All 1,365 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAMX.td

Show First 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	let SchedRW = [WriteSystem] in {
let usesCustomInserter = 1 in {		let usesCustomInserter = 1 in {
// Pseudo instructions, using immediates instead of tile registers.		// Pseudo instructions, using immediates instead of tile registers.
// To be translated to the actual instructions in X86ISelLowering.cpp		// To be translated to the actual instructions in X86ISelLowering.cpp
def PTDPBF16PS : PseudoI<(outs), (ins u8imm:$src1,		def PTDPBF16PS : PseudoI<(outs), (ins u8imm:$src1,
u8imm:$src2, u8imm:$src3),		u8imm:$src2, u8imm:$src3),
[(int_x86_tdpbf16ps timm:$src1,		[(int_x86_tdpbf16ps timm:$src1,
timm:$src2, timm:$src3)]>;		timm:$src2, timm:$src3)]>;
}		}
		// Pseduo instruction for RA.
		let Constraints = "$src4 = $dst" in
		def PTDPBF16PSV : PseudoI<(outs TILE: $dst), (ins GR16:$src1,
		GR16:$src2, GR16:$src3, TILE:$src4,
		TILE:$src5, TILE:$src6), []>;
}		}
} // HasAMXTILE, HasAMXBF16		} // HasAMXTILE, HasAMXBF16

llvm/lib/Target/X86/X86LowerAMXIntrinsics.cpp

Show All 16 Lines
//		//
#include "X86.h"		#include "X86.h"
#include "llvm/ADT/DenseSet.h"		#include "llvm/ADT/DenseSet.h"
#include "llvm/ADT/PostOrderIterator.h"		#include "llvm/ADT/PostOrderIterator.h"
#include "llvm/Analysis/DomTreeUpdater.h"		#include "llvm/Analysis/DomTreeUpdater.h"
#include "llvm/Analysis/OptimizationRemarkEmitter.h"		#include "llvm/Analysis/OptimizationRemarkEmitter.h"
#include "llvm/Analysis/TargetTransformInfo.h"		#include "llvm/Analysis/TargetTransformInfo.h"
#include "llvm/CodeGen/Passes.h"		#include "llvm/CodeGen/Passes.h"

#include "llvm/CodeGen/TargetPassConfig.h"		#include "llvm/CodeGen/TargetPassConfig.h"
#include "llvm/CodeGen/ValueTypes.h"		#include "llvm/CodeGen/ValueTypes.h"
#include "llvm/IR/DataLayout.h"		#include "llvm/IR/DataLayout.h"
#include "llvm/IR/Function.h"		#include "llvm/IR/Function.h"
#include "llvm/IR/IRBuilder.h"		#include "llvm/IR/IRBuilder.h"
#include "llvm/IR/Instructions.h"		#include "llvm/IR/Instructions.h"
#include "llvm/IR/IntrinsicInst.h"		#include "llvm/IR/IntrinsicInst.h"
#include "llvm/IR/IntrinsicsX86.h"		#include "llvm/IR/IntrinsicsX86.h"
▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	if (IntrID == Intrinsic::x86_tileloadd64_internal) {
B.SetInsertPoint(ColBody->getTerminator());		B.SetInsertPoint(ColBody->getTerminator());
Value *Elt = B.CreateExtractElement(Vec, Idx);		Value *Elt = B.CreateExtractElement(Vec, Idx);

B.CreateStore(Elt, EltPtr);		B.CreateStore(Elt, EltPtr);
return nullptr;		return nullptr;
}		}
}		}

static Value createTileDPBSSDLoops(BasicBlock Start, BasicBlock *End,		template <Intrinsic::ID IntrID,
		typename = typename std::enable_if<
		IntrID == Intrinsic::x86_tdpbssd_internal \|\|
		IntrID == Intrinsic::x86_tdpbf16ps_internal>::type>
		static Value createTileDPLoops(BasicBlock Start, BasicBlock *End,
IRBuilderBase &B, DomTreeUpdater &DTU,		IRBuilderBase &B, DomTreeUpdater &DTU,
LoopInfo &LI, Value Row, Value Col,		LoopInfo &LI, Value Row, Value Col, Value *K,
Value K, Value Acc, Value *LHS,		Value Acc, Value LHS, Value *RHS) {
Value *RHS) {		std::string IntrinName =
		IntrID == Intrinsic::x86_tdpbssd_internal ? "tiledpbssd" : "tdpbf16ps";
Loop *RowLoop = LI.AllocateLoop();		Loop *RowLoop = LI.AllocateLoop();
Loop *ColLoop = LI.AllocateLoop();		Loop *ColLoop = LI.AllocateLoop();
Loop *InnerLoop = LI.AllocateLoop();		Loop *InnerLoop = LI.AllocateLoop();
ColLoop->addChildLoop(InnerLoop);		ColLoop->addChildLoop(InnerLoop);
RowLoop->addChildLoop(ColLoop);		RowLoop->addChildLoop(ColLoop);
if (Loop *ParentL = LI.getLoopFor(Start))		if (Loop *ParentL = LI.getLoopFor(Start))
ParentL->addChildLoop(RowLoop);		ParentL->addChildLoop(RowLoop);
else		else
LI.addTopLevelLoop(RowLoop);		LI.addTopLevelLoop(RowLoop);

BasicBlock *RowBody =		BasicBlock *RowBody =
createLoop(Start, End, Row, B.getInt16(1), "tiledpbssd.scalarize.rows", B,		createLoop(Start, End, Row, B.getInt16(1), IntrinName + ".scalarize.rows",
DTU, RowLoop, LI);		B, DTU, RowLoop, LI);
BasicBlock *RowLatch = RowBody->getSingleSuccessor();		BasicBlock *RowLatch = RowBody->getSingleSuccessor();

BasicBlock *ColBody =		BasicBlock *ColBody =
createLoop(RowBody, RowLatch, Col, B.getInt16(1),		createLoop(RowBody, RowLatch, Col, B.getInt16(1),
"tiledpbssd.scalarize.cols", B, DTU, ColLoop, LI);		IntrinName + ".scalarize.cols", B, DTU, ColLoop, LI);
BasicBlock *ColLoopLatch = ColBody->getSingleSuccessor();		BasicBlock *ColLoopLatch = ColBody->getSingleSuccessor();

B.SetInsertPoint(ColBody->getTerminator());		B.SetInsertPoint(ColBody->getTerminator());
BasicBlock *InnerBody =		BasicBlock *InnerBody =
createLoop(ColBody, ColLoopLatch, K, B.getInt16(1),		createLoop(ColBody, ColLoopLatch, K, B.getInt16(1),
"tiledpbssd.scalarize.inner", B, DTU, InnerLoop, LI);		IntrinName + ".scalarize.inner", B, DTU, InnerLoop, LI);

BasicBlock *ColumnLoopHeader = ColBody->getSinglePredecessor();		BasicBlock *ColumnLoopHeader = ColBody->getSinglePredecessor();
BasicBlock *RowLoopHeader = RowBody->getSinglePredecessor();		BasicBlock *RowLoopHeader = RowBody->getSinglePredecessor();
BasicBlock *InnerLoopHeader = InnerBody->getSinglePredecessor();		BasicBlock *InnerLoopHeader = InnerBody->getSinglePredecessor();
BasicBlock *InnerLoopLatch = InnerBody->getSingleSuccessor();		BasicBlock *InnerLoopLatch = InnerBody->getSingleSuccessor();
Value CurrentRow = &RowLoopHeader->begin();		Value CurrentRow = &RowLoopHeader->begin();
Value CurrentCol = &ColumnLoopHeader->begin();		Value CurrentCol = &ColumnLoopHeader->begin();
Value CurrentInner = &InnerLoopHeader->begin();		Value CurrentInner = &InnerLoopHeader->begin();
▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	static Value createTileDPLoops(BasicBlock Start, BasicBlock *End,
// %tiledpbssd.scalarize.cols.body ], [ %NewVecD,		// %tiledpbssd.scalarize.cols.body ], [ %NewVecD,
// %tiledpbssd.scalarize.inner.latch ]		// %tiledpbssd.scalarize.inner.latch ]
B.SetInsertPoint(InnerLoopHeader->getTerminator());		B.SetInsertPoint(InnerLoopHeader->getTerminator());
PHINode *VecCPhi = B.CreatePHI(V256I32Ty, 2, "vec.c.inner.phi");		PHINode *VecCPhi = B.CreatePHI(V256I32Ty, 2, "vec.c.inner.phi");
VecCPhi->addIncoming(VecCPhiColLoop, ColBody);		VecCPhi->addIncoming(VecCPhiColLoop, ColBody);
PHINode *VecDPhi = B.CreatePHI(V256I32Ty, 2, "vec.d.inner.phi");		PHINode *VecDPhi = B.CreatePHI(V256I32Ty, 2, "vec.d.inner.phi");
VecDPhi->addIncoming(VecDPhiColLoop, ColBody);		VecDPhi->addIncoming(VecDPhiColLoop, ColBody);

		B.SetInsertPoint(InnerBody->getTerminator());
		Value *IdxC =
		B.CreateAdd(B.CreateMul(CurrentRow, B.getInt16(16)), CurrentCol);
		Value *IdxA =
		B.CreateAdd(B.CreateMul(CurrentRow, B.getInt16(16)), CurrentInner);
		Value *IdxB =
		B.CreateAdd(B.CreateMul(CurrentInner, B.getInt16(16)), CurrentCol);
		Value *ResElt = nullptr;
		if (IntrID == Intrinsic::x86_tdpbssd_internal) {
// tiledpbssd.scalarize.inner.body:		// tiledpbssd.scalarize.inner.body:
// calculate idxa, idxb, idxc		// calculate idxa, idxb, idxc
// %eltc = extractelement <256 x i32> %vec.c.inner.phi, i16 %idxc		// %eltc = extractelement <256 x i32> %vec.c.inner.phi, i16 %idxc
// %elta = extractelement <256 x i32> %veca, i16 %idxa		// %elta = extractelement <256 x i32> %veca, i16 %idxa
// %eltav4i8 = bitcast i32 %elta to <4 x i8>		// %eltav4i8 = bitcast i32 %elta to <4 x i8>
// %eltb = extractelement <256 x i32> %vecb, i16 %idxb		// %eltb = extractelement <256 x i32> %vecb, i16 %idxb
// %eltbv4i8 = bitcast i32 %eltb to <4 x i8>		// %eltbv4i8 = bitcast i32 %eltb to <4 x i8>
// %eltav4i32 = sext <4 x i8> %eltav4i8 to <4 x i32>		// %eltav4i32 = sext <4 x i8> %eltav4i8 to <4 x i32>
// %eltbv4i32 = sext <4 x i8> %eltbv4i8 to <4 x i32>		// %eltbv4i32 = sext <4 x i8> %eltbv4i8 to <4 x i32>
// %mulab = mul <4 x i32> %eltbv4i32, %eltav4i32		// %mulab = mul <4 x i32> %eltbv4i32, %eltav4i32
// %acc = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %131)		// %acc = call i32 @llvm.vector.reduce.add.v4i32(<4 x i32> %131)
// %neweltc = add i32 %elt, %acc		// %neweltc = add i32 %elt, %acc
// %NewVecC = insertelement <256 x i32> %vec.c.inner.phi, i32 %neweltc,		// %NewVecC = insertelement <256 x i32> %vec.c.inner.phi, i32 %neweltc,
// i16 %idxc		// i16 %idxc
// %NewVecD = insertelement <256 x i32> %vec.d.inner.phi, i32 %neweltc,		// %NewVecD = insertelement <256 x i32> %vec.d.inner.phi, i32 %neweltc,
// i16 %idxc		// i16 %idxc
B.SetInsertPoint(InnerBody->getTerminator());
Value *IdxC =
B.CreateAdd(B.CreateMul(CurrentRow, B.getInt16(16)), CurrentCol);
Value *IdxA =
B.CreateAdd(B.CreateMul(CurrentRow, B.getInt16(16)), CurrentInner);
Value *IdxB =
B.CreateAdd(B.CreateMul(CurrentInner, B.getInt16(16)), CurrentCol);

FixedVectorType *V4I8Ty = FixedVectorType::get(B.getInt8Ty(), 4);		FixedVectorType *V4I8Ty = FixedVectorType::get(B.getInt8Ty(), 4);
FixedVectorType *V4I32Ty = FixedVectorType::get(B.getInt32Ty(), 4);		FixedVectorType *V4I32Ty = FixedVectorType::get(B.getInt32Ty(), 4);
Value *EltC = B.CreateExtractElement(VecCPhi, IdxC);		Value *EltC = B.CreateExtractElement(VecCPhi, IdxC);
Value *EltA = B.CreateExtractElement(VecA, IdxA);		Value *EltA = B.CreateExtractElement(VecA, IdxA);
Value *SubVecA = B.CreateBitCast(EltA, V4I8Ty);		Value *SubVecA = B.CreateBitCast(EltA, V4I8Ty);
Value *EltB = B.CreateExtractElement(VecB, IdxB);		Value *EltB = B.CreateExtractElement(VecB, IdxB);
Value *SubVecB = B.CreateBitCast(EltB, V4I8Ty);		Value *SubVecB = B.CreateBitCast(EltB, V4I8Ty);
Value *SubVecR = B.CreateAddReduce(B.CreateMul(		Value *SubVecR = B.CreateAddReduce(B.CreateMul(
B.CreateSExt(SubVecA, V4I32Ty), B.CreateSExt(SubVecB, V4I32Ty)));		B.CreateSExt(SubVecA, V4I32Ty), B.CreateSExt(SubVecB, V4I32Ty)));
Value *ResElt = B.CreateAdd(EltC, SubVecR);		ResElt = B.CreateAdd(EltC, SubVecR);
		} else if (IntrID == Intrinsic::x86_tdpbf16ps_internal) {
		// tiledpbf16ps.scalarize.inner.body:
		// calculate idxa, idxb, idxc
		// %eltc = extractelement <256 x i32> %vec.c.inner.phi, i16 %idxc
		// %eltcf32 = bitcast i32 %eltc to float
		// %elta = extractelement <256 x i32> %veca, i16 %idxa
		// %eltav2i16 = bitcast i32 %elta to <2 x i16>
		// %eltb = extractelement <256 x i32> %vecb, i16 %idxb
		// %eltbv2i16 = bitcast i32 %eltb to <2 x i16>
		// %shufflea = shufflevector <2 x i16> %elta, <2 x i16> zeroinitializer, <4
		// x i32> <i32 2, i32 0, i32 3, i32 1> %eltav2f32 = bitcast <4 x i16>
		// %shufflea to <2 x float>
		// %shuffleb = shufflevector <2 x i16> %eltb, <2 xi16> zeroinitializer, <4 x
		// i32> <i32 2, i32 0, i32 3, i32 1> %eltbv2f32 = bitcast <4 x i16>
		// %shuffleb to <2 x float> %mulab = fmul <2 x float> %eltav2f32, %eltbv2f32
		// %acc = call float
		// @llvm.vector.reduce.fadd.v2f32(float %eltcf32, <2 x float> %mulab)
		// %neweltc = bitcast float %acc to i32
		// %NewVecC = insertelement <256 x i32> %vec.c.inner.phi, i32 %neweltc,
		// i16 %idxc
		// %NewVecD = insertelement <256 x i32> %vec.d.inner.phi, i32 %neweltc,
		// i16 %idxc
		FixedVectorType *V2I16Ty = FixedVectorType::get(B.getInt16Ty(), 2);
		FixedVectorType *V2F32Ty = FixedVectorType::get(B.getFloatTy(), 2);
		Value *EltC = B.CreateExtractElement(VecCPhi, IdxC);
		Value *C_F32 = B.CreateBitCast(EltC, B.getFloatTy());
		Value *EltA = B.CreateExtractElement(VecA, IdxA);
		Value *SubVecA = B.CreateBitCast(EltA, V2I16Ty);
		Value *EltB = B.CreateExtractElement(VecB, IdxB);
		Value *SubVecB = B.CreateBitCast(EltB, V2I16Ty);
		Value *ZeroV2I16 = Constant::getNullValue(V2I16Ty);
		int ShuffleMask[4] = {2, 0, 3, 1};
		Value *A_V2F32 = B.CreateBitCast(
		B.CreateShuffleVector(SubVecA, ZeroV2I16, makeArrayRef(ShuffleMask)),
		V2F32Ty);
		Value *B_V2F32 = B.CreateBitCast(
		B.CreateShuffleVector(SubVecB, ZeroV2I16, makeArrayRef(ShuffleMask)),
		V2F32Ty);
		Value *SubVecR = B.CreateFAddReduce(C_F32, B.CreateFMul(A_V2F32, B_V2F32));
		ResElt = B.CreateBitCast(SubVecR, B.getInt32Ty());
		} else {
		llvm_unreachable("it is not a tdpb intrinsic");
		}
Value *NewVecC = B.CreateInsertElement(VecCPhi, ResElt, IdxC);		Value *NewVecC = B.CreateInsertElement(VecCPhi, ResElt, IdxC);
Value *NewVecD = B.CreateInsertElement(VecDPhi, ResElt, IdxC);		Value *NewVecD = B.CreateInsertElement(VecDPhi, ResElt, IdxC);

VecCPhi->addIncoming(NewVecC, InnerLoopLatch);		VecCPhi->addIncoming(NewVecC, InnerLoopLatch);
VecCPhiRowLoop->addIncoming(NewVecC, RowLatch);		VecCPhiRowLoop->addIncoming(NewVecC, RowLatch);
VecCPhiColLoop->addIncoming(NewVecC, ColLoopLatch);		VecCPhiColLoop->addIncoming(NewVecC, ColLoopLatch);
VecDPhi->addIncoming(NewVecD, InnerLoopLatch);		VecDPhi->addIncoming(NewVecD, InnerLoopLatch);
VecDPhiRowLoop->addIncoming(NewVecD, RowLatch);		VecDPhiRowLoop->addIncoming(NewVecD, RowLatch);
Show All 15 Lines	private:
DominatorTree *DT;		DominatorTree *DT;
LoopInfo *LI;		LoopInfo *LI;
template <Intrinsic::ID IntrID,		template <Intrinsic::ID IntrID,
typename = typename std::enable_if<		typename = typename std::enable_if<
IntrID == Intrinsic::x86_tileloadd64_internal \|\|		IntrID == Intrinsic::x86_tileloadd64_internal \|\|
IntrID == Intrinsic::x86_tilestored64_internal>::type>		IntrID == Intrinsic::x86_tilestored64_internal>::type>
bool lowerTileLoadStore(Instruction *TileLoad);		bool lowerTileLoadStore(Instruction *TileLoad);
bool lowerTileLoad(Instruction *TileLoad);		bool lowerTileLoad(Instruction *TileLoad);
bool lowerTileDPBSSD(Instruction *TileDPBSSD);		template <Intrinsic::ID IntrID,
		typename = typename std::enable_if<
		IntrID == Intrinsic::x86_tdpbssd_internal \|\|
		pengfeiUnsubmitted Not Done Reply Inline Actions Can we create vecC with <256 x float>? pengfei: Can we create vecC with <256 x float>?
		yubingAuthorUnsubmitted Done Reply Inline Actions In fact, we are trying to find a bitcast whose operand is <256 x i32>, as shown in line229. yubing: In fact, we are trying to find a bitcast whose operand is <256 x i32>, as shown in line229.
		IntrID == Intrinsic::x86_tdpbf16ps_internal>::type>
		bool lowerTileDP(Instruction *TileDP);
bool lowerTileStore(Instruction *TileStore);		bool lowerTileStore(Instruction *TileStore);
bool lowerTileZero(Instruction *TileZero);		bool lowerTileZero(Instruction *TileZero);
		pengfeiUnsubmitted Not Done Reply Inline Actions Is it concise to use below? template <Intrinsic::ID IntrID> typename std::enable_if_t< IntrID == Intrinsic::x86_tdpbssd_internal \|\| IntrID == Intrinsic::x86_tdpbf16ps_internal, bool> lowerTileDP(Instruction TileDP); pengfei:* Is it concise to use below? ``` template <Intrinsic::ID IntrID> typename std::enable_if_t<…
};		};

bool X86LowerAMXIntrinsics::lowerTileDPBSSD(Instruction *TileDPBSSD) {		template <Intrinsic::ID IntrID,
		typename = typename std::enable_if<
		IntrID == Intrinsic::x86_tdpbssd_internal \|\|
		IntrID == Intrinsic::x86_tdpbf16ps_internal>::type>
		bool X86LowerAMXIntrinsics::lowerTileDP(Instruction *TileDP) {
Value M, N, K, C, A, B;		Value M, N, K, C, A, B;
match(TileDPBSSD, m_Intrinsic<Intrinsic::x86_tdpbssd_internal>(		match(TileDP, m_Intrinsic<IntrID>(m_Value(M), m_Value(N), m_Value(K),
m_Value(M), m_Value(N), m_Value(K), m_Value(C),		m_Value(C), m_Value(A), m_Value(B)));
m_Value(A), m_Value(B)));
DomTreeUpdater DTU(DT, DomTreeUpdater::UpdateStrategy::Lazy);		DomTreeUpdater DTU(DT, DomTreeUpdater::UpdateStrategy::Lazy);
Instruction *InsertI = TileDPBSSD;		Instruction *InsertI = TileDP;
IRBuilder<> PreBuilder(TileDPBSSD);		IRBuilder<> PreBuilder(TileDP);
PreBuilder.SetInsertPoint(TileDPBSSD);		PreBuilder.SetInsertPoint(TileDP);
// We visit the loop with (m, n/4, k/4):		// We visit the loop with (m, n/4, k/4):
// %n_dword = udiv i16 %n, 4		// %n_dword = udiv i16 %n, 4
// %k_dword = udiv i16 %k, 4		// %k_dword = udiv i16 %k, 4
Value *NDWord = PreBuilder.CreateLShr(N, PreBuilder.getInt16(2));		Value *NDWord = PreBuilder.CreateLShr(N, PreBuilder.getInt16(2));
		pengfeiUnsubmitted Not Done Reply Inline Actions better to use EltCF32 or CF32 pengfei: better to use EltCF32 or CF32
Value *KDWord = PreBuilder.CreateLShr(K, PreBuilder.getInt16(2));		Value *KDWord = PreBuilder.CreateLShr(K, PreBuilder.getInt16(2));
BasicBlock *Start = InsertI->getParent();		BasicBlock *Start = InsertI->getParent();
BasicBlock *End =		BasicBlock *End =
SplitBlock(InsertI->getParent(), InsertI, DT, LI, nullptr, "continue");		SplitBlock(InsertI->getParent(), InsertI, DT, LI, nullptr, "continue");
IRBuilder<> Builder(TileDPBSSD);		IRBuilder<> Builder(TileDP);
Value ResVec = createTileDPBSSDLoops(Start, End, Builder, DTU, LI, M,		Value ResVec = createTileDPLoops<IntrID>(Start, End, Builder, DTU, LI, M,
NDWord, KDWord, C, A, B);		NDWord, KDWord, C, A, B);
		pengfeiUnsubmitted Not Done Reply Inline Actions ditto pengfei: ditto
// we cannot assume there always be bitcast after tiledpbssd. So we need to		// we cannot assume there always be bitcast after TileDP. So we need to
		pengfeiUnsubmitted Not Done Reply Inline Actions Better to define a variable for it and reuse. pengfei: Better to define a variable for it and reuse.
// insert one bitcast as required		// insert one bitcast as required
Builder.SetInsertPoint(End->getFirstNonPHI());		Builder.SetInsertPoint(End->getFirstNonPHI());
Value *ResAMX =		Value *ResAMX =
Builder.CreateBitCast(ResVec, Type::getX86_AMXTy(Builder.getContext()));		Builder.CreateBitCast(ResVec, Type::getX86_AMXTy(Builder.getContext()));
// Delete tiledpbssd intrinsic and do some clean-up.		// Delete TileDP intrinsic and do some clean-up.
for (auto UI = TileDPBSSD->use_begin(), UE = TileDPBSSD->use_end();		for (auto UI = TileDP->use_begin(), UE = TileDP->use_end(); UI != UE;) {
UI != UE;) {
Instruction *I = cast<Instruction>((UI++)->getUser());		Instruction *I = cast<Instruction>((UI++)->getUser());
Value *Vec;		Value *Vec;
if (match(I, m_BitCast(m_Value(Vec)))) {		if (match(I, m_BitCast(m_Value(Vec)))) {
I->replaceAllUsesWith(ResVec);		I->replaceAllUsesWith(ResVec);
I->eraseFromParent();		I->eraseFromParent();
}		}
}		}
TileDPBSSD->replaceAllUsesWith(ResAMX);		TileDP->replaceAllUsesWith(ResAMX);
TileDPBSSD->eraseFromParent();		TileDP->eraseFromParent();
return true;		return true;
}		}

template <Intrinsic::ID IntrID,		template <Intrinsic::ID IntrID,
typename = typename std::enable_if<		typename = typename std::enable_if<
IntrID == Intrinsic::x86_tileloadd64_internal \|\|		IntrID == Intrinsic::x86_tileloadd64_internal \|\|
IntrID == Intrinsic::x86_tilestored64_internal>::type>		IntrID == Intrinsic::x86_tilestored64_internal>::type>
bool X86LowerAMXIntrinsics::lowerTileLoadStore(Instruction *TileLoad) {		bool X86LowerAMXIntrinsics::lowerTileLoadStore(Instruction *TileLoad) {
▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	bool X86LowerAMXIntrinsics::visit() {
for (BasicBlock *BB : depth_first(&Func)) {		for (BasicBlock *BB : depth_first(&Func)) {
for (BasicBlock::iterator II = BB->begin(), IE = BB->end(); II != IE;) {		for (BasicBlock::iterator II = BB->begin(), IE = BB->end(); II != IE;) {
if (auto Inst = dyn_cast<IntrinsicInst>(&II++)) {		if (auto Inst = dyn_cast<IntrinsicInst>(&II++)) {
switch (Inst->getIntrinsicID()) {		switch (Inst->getIntrinsicID()) {
case Intrinsic::x86_tdpbssd_internal:		case Intrinsic::x86_tdpbssd_internal:
case Intrinsic::x86_tileloadd64_internal:		case Intrinsic::x86_tileloadd64_internal:
case Intrinsic::x86_tilestored64_internal:		case Intrinsic::x86_tilestored64_internal:
case Intrinsic::x86_tilezero_internal:		case Intrinsic::x86_tilezero_internal:
		case Intrinsic::x86_tdpbf16ps_internal:
WorkList.push_back(Inst);		WorkList.push_back(Inst);
break;		break;
default:		default:
break;		break;
}		}
}		}
}		}
}		}

for (auto *Inst : WorkList) {		for (auto *Inst : WorkList) {
switch (Inst->getIntrinsicID()) {		switch (Inst->getIntrinsicID()) {
case Intrinsic::x86_tdpbssd_internal:		case Intrinsic::x86_tdpbssd_internal:
C = lowerTileDPBSSD(Inst) \|\| C;		C = lowerTileDP<Intrinsic::x86_tdpbssd_internal>(Inst) \|\| C;
		break;
		case Intrinsic::x86_tdpbf16ps_internal:
		C = lowerTileDP<Intrinsic::x86_tdpbf16ps_internal>(Inst) \|\| C;
break;		break;
case Intrinsic::x86_tileloadd64_internal:		case Intrinsic::x86_tileloadd64_internal:
C = lowerTileLoadStore<Intrinsic::x86_tileloadd64_internal>(Inst) \|\| C;		C = lowerTileLoadStore<Intrinsic::x86_tileloadd64_internal>(Inst) \|\| C;
break;		break;
case Intrinsic::x86_tilestored64_internal:		case Intrinsic::x86_tilestored64_internal:
C = lowerTileLoadStore<Intrinsic::x86_tilestored64_internal>(Inst) \|\| C;		C = lowerTileLoadStore<Intrinsic::x86_tilestored64_internal>(Inst) \|\| C;
break;		break;
case Intrinsic::x86_tilezero_internal:		case Intrinsic::x86_tilezero_internal:
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86LowerAMXType.cpp

Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	static std::pair<Value , Value > getShape(IntrinsicInst *II, unsigned OpNo) {
case Intrinsic::x86_tileloadd64_internal:		case Intrinsic::x86_tileloadd64_internal:
case Intrinsic::x86_tilestored64_internal: {		case Intrinsic::x86_tilestored64_internal: {
Row = II->getArgOperand(0);		Row = II->getArgOperand(0);
Col = II->getArgOperand(1);		Col = II->getArgOperand(1);
break;		break;
}		}
// a * b + c		// a * b + c
// The shape depends on which operand.		// The shape depends on which operand.
case Intrinsic::x86_tdpbssd_internal: {		case Intrinsic::x86_tdpbssd_internal:
		case Intrinsic::x86_tdpbf16ps_internal: {
switch (OpNo) {		switch (OpNo) {
case 3:		case 3:
Row = II->getArgOperand(0);		Row = II->getArgOperand(0);
Col = II->getArgOperand(1);		Col = II->getArgOperand(1);
break;		break;
case 4:		case 4:
Row = II->getArgOperand(0);		Row = II->getArgOperand(0);
Col = II->getArgOperand(2);		Col = II->getArgOperand(2);
▲ Show 20 Lines • Show All 279 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86PreTileConfig.cpp

	Show First 20 Lines • Show All 121 Lines • ▼ Show 20 Lines

	static ShapeT getShape(const MachineInstr &MI, MachineRegisterInfo *MRI) {			static ShapeT getShape(const MachineInstr &MI, MachineRegisterInfo *MRI) {
	unsigned Opcode = MI.getOpcode();			unsigned Opcode = MI.getOpcode();
	switch (Opcode) {			switch (Opcode) {
	default:			default:
	llvm_unreachable("Unexpected machine instruction on tile");			llvm_unreachable("Unexpected machine instruction on tile");
	case X86::PTILELOADDV:			case X86::PTILELOADDV:
	case X86::PTDPBSSDV:			case X86::PTDPBSSDV:
				case X86::PTDPBF16PSV:
	case X86::PTILEZEROV:			case X86::PTILEZEROV:
	MachineOperand &MO1 = const_cast<MachineOperand &>(MI.getOperand(1));			MachineOperand &MO1 = const_cast<MachineOperand &>(MI.getOperand(1));
	MachineOperand &MO2 = const_cast<MachineOperand &>(MI.getOperand(2));			MachineOperand &MO2 = const_cast<MachineOperand &>(MI.getOperand(2));
	ShapeT Shape(&MO1, &MO2, MRI);			ShapeT Shape(&MO1, &MO2, MRI);
	return Shape;			return Shape;
	}			}
	}			}

	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines

	static bool isAMXInstruction(MachineBasicBlock::iterator MII) {			static bool isAMXInstruction(MachineBasicBlock::iterator MII) {
	switch (MII->getOpcode()) {			switch (MII->getOpcode()) {
	default:			default:
	return false;			return false;
	case X86::PTILELOADDV:			case X86::PTILELOADDV:
	case X86::PTILESTOREDV:			case X86::PTILESTOREDV:
	case X86::PTDPBSSDV:			case X86::PTDPBSSDV:
				case X86::PTDPBF16PSV:
	case X86::PTILEZEROV:			case X86::PTILEZEROV:
	return true;			return true;
	}			}
	}			}

	struct BBInfo {			struct BBInfo {
	bool HasAMX = false;			bool HasAMX = false;
	bool HasCallBeforeAMX = false;			bool HasCallBeforeAMX = false;
	▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86RegisterInfo.cpp

Show First 20 Lines • Show All 872 Lines • ▼ Show 20 Lines	static ShapeT getTileShape(Register VirtReg, VirtRegMap *VRM,
unsigned OpCode = MI->getOpcode();		unsigned OpCode = MI->getOpcode();
switch (OpCode) {		switch (OpCode) {
default:		default:
llvm_unreachable("Unexpected machine instruction on tile register!");		llvm_unreachable("Unexpected machine instruction on tile register!");
break;		break;
// We only collect the tile shape that is defined.		// We only collect the tile shape that is defined.
case X86::PTILELOADDV:		case X86::PTILELOADDV:
case X86::PTDPBSSDV:		case X86::PTDPBSSDV:
		case X86::PTDPBF16PSV:
case X86::PTILEZEROV:		case X86::PTILEZEROV:
MachineOperand &MO1 = MI->getOperand(1);		MachineOperand &MO1 = MI->getOperand(1);
MachineOperand &MO2 = MI->getOperand(2);		MachineOperand &MO2 = MI->getOperand(2);
ShapeT Shape(&MO1, &MO2, MRI);		ShapeT Shape(&MO1, &MO2, MRI);
VRM->assignVirt2Shape(VirtReg, Shape);		VRM->assignVirt2Shape(VirtReg, Shape);
return Shape;		return Shape;
}		}
}		}
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/AMX/amx-low-intrinsics.ll

Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
;		;
entry:		entry:
%amx = call x86_amx @llvm.x86.tileloadd64.internal(i16 %row, i16 %col, i8* %ptr, i64 %stride)		%amx = call x86_amx @llvm.x86.tileloadd64.internal(i16 %row, i16 %col, i8* %ptr, i64 %stride)
%vec = bitcast x86_amx %amx to <256 x i32>		%vec = bitcast x86_amx %amx to <256 x i32>
store <256 x i32> %vec, <256 x i32>* %vptr, align 64		store <256 x i32> %vec, <256 x i32>* %vptr, align 64
ret void		ret void
}		}

define dso_local void @test_amx_dp(i16 signext %row, i16 signext %col, i16 signext %k, <256 x i32> %c, <256 x i32> %a, <256 x i32> %b, <256 x i32>* %vptr) #0 {		define dso_local void @test_amx_dpbssd(i16 signext %row, i16 signext %col, i16 signext %k, <256 x i32> %c, <256 x i32> %a, <256 x i32> %b, <256 x i32>* %vptr) #0 {
; CHECK-LABEL: @test_amx_dp(		; CHECK-LABEL: @test_amx_dpbssd(
; CHECK-NEXT: entry:		; CHECK-NEXT: entry:
; CHECK-NEXT: [[A_AMX:%.]] = bitcast <256 x i32> [[A:%.]] to x86_amx		; CHECK-NEXT: [[A_AMX:%.]] = bitcast <256 x i32> [[A:%.]] to x86_amx
; CHECK-NEXT: [[B_AMX:%.]] = bitcast <256 x i32> [[B:%.]] to x86_amx		; CHECK-NEXT: [[B_AMX:%.]] = bitcast <256 x i32> [[B:%.]] to x86_amx
; CHECK-NEXT: [[C_AMX:%.]] = bitcast <256 x i32> [[C:%.]] to x86_amx		; CHECK-NEXT: [[C_AMX:%.]] = bitcast <256 x i32> [[C:%.]] to x86_amx
; CHECK-NEXT: [[TMP0:%.]] = lshr i16 [[COL:%.]], 2		; CHECK-NEXT: [[TMP0:%.]] = lshr i16 [[COL:%.]], 2
; CHECK-NEXT: [[TMP1:%.]] = lshr i16 [[K:%.]], 2		; CHECK-NEXT: [[TMP1:%.]] = lshr i16 [[K:%.]], 2
; CHECK-NEXT: br label [[TILEDPBSSD_SCALARIZE_ROWS_HEADER:%.*]]		; CHECK-NEXT: br label [[TILEDPBSSD_SCALARIZE_ROWS_HEADER:%.*]]
; CHECK: tiledpbssd.scalarize.rows.header:		; CHECK: tiledpbssd.scalarize.rows.header:
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines	entry:
%b.amx = bitcast <256 x i32> %b to x86_amx		%b.amx = bitcast <256 x i32> %b to x86_amx
%c.amx = bitcast <256 x i32> %c to x86_amx		%c.amx = bitcast <256 x i32> %c to x86_amx
%acc = call x86_amx @llvm.x86.tdpbssd.internal(i16 %row, i16 %col, i16 %k, x86_amx %c.amx, x86_amx %a.amx, x86_amx %b.amx)		%acc = call x86_amx @llvm.x86.tdpbssd.internal(i16 %row, i16 %col, i16 %k, x86_amx %c.amx, x86_amx %a.amx, x86_amx %b.amx)
%vec = bitcast x86_amx %acc to <256 x i32>		%vec = bitcast x86_amx %acc to <256 x i32>
store <256 x i32> %vec, <256 x i32>* %vptr, align 64		store <256 x i32> %vec, <256 x i32>* %vptr, align 64
ret void		ret void
}		}

		define dso_local void @test_amx_dpbf16ps(i16 signext %row, i16 signext %col, i16 signext %k, <256 x i32> %c, <256 x i32> %a, <256 x i32> %b, <256 x i32>* %vptr) #0 {
		; CHECK-LABEL: @test_amx_dpbf16ps(
		; CHECK-NEXT: entry:
		; CHECK-NEXT: [[A_AMX:%.]] = bitcast <256 x i32> [[A:%.]] to x86_amx
		; CHECK-NEXT: [[B_AMX:%.]] = bitcast <256 x i32> [[B:%.]] to x86_amx
		; CHECK-NEXT: [[C_AMX:%.]] = bitcast <256 x i32> [[C:%.]] to x86_amx
		; CHECK-NEXT: [[TMP0:%.]] = lshr i16 [[COL:%.]], 2
		; CHECK-NEXT: [[TMP1:%.]] = lshr i16 [[K:%.]], 2
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_ROWS_HEADER:%.*]]
		; CHECK: tdpbf16ps.scalarize.rows.header:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_ROWS_IV:%.]] = phi i16 [ 0, [[ENTRY:%.]] ], [ [[TDPBF16PS_SCALARIZE_ROWS_STEP:%.]], [[TDPBF16PS_SCALARIZE_ROWS_LATCH:%.]] ]
		; CHECK-NEXT: [[VEC_C_PHI_ROW:%.]] = phi <256 x i32> [ [[C]], [[ENTRY]] ], [ [[TMP21:%.]], [[TDPBF16PS_SCALARIZE_ROWS_LATCH]] ]
		; CHECK-NEXT: [[VEC_D_PHI_ROW:%.]] = phi <256 x i32> [ zeroinitializer, [[ENTRY]] ], [ [[TMP22:%.]], [[TDPBF16PS_SCALARIZE_ROWS_LATCH]] ]
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_ROWS_BODY:%.*]]
		; CHECK: tdpbf16ps.scalarize.rows.body:
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_COLS_HEADER:%.*]]
		; CHECK: tdpbf16ps.scalarize.cols.header:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_COLS_IV:%.]] = phi i16 [ 0, [[TDPBF16PS_SCALARIZE_ROWS_BODY]] ], [ [[TDPBF16PS_SCALARIZE_COLS_STEP:%.]], [[TDPBF16PS_SCALARIZE_COLS_LATCH:%.*]] ]
		; CHECK-NEXT: [[VEC_C_PHI_COL:%.*]] = phi <256 x i32> [ [[VEC_C_PHI_ROW]], [[TDPBF16PS_SCALARIZE_ROWS_BODY]] ], [ [[TMP21]], [[TDPBF16PS_SCALARIZE_COLS_LATCH]] ]
		; CHECK-NEXT: [[VEC_D_PHI_COL:%.*]] = phi <256 x i32> [ [[VEC_D_PHI_ROW]], [[TDPBF16PS_SCALARIZE_ROWS_BODY]] ], [ [[TMP22]], [[TDPBF16PS_SCALARIZE_COLS_LATCH]] ]
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_COLS_BODY:%.*]]
		; CHECK: tdpbf16ps.scalarize.cols.body:
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_INNER_HEADER:%.*]]
		; CHECK: tdpbf16ps.scalarize.inner.header:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_INNER_IV:%.]] = phi i16 [ 0, [[TDPBF16PS_SCALARIZE_COLS_BODY]] ], [ [[TDPBF16PS_SCALARIZE_INNER_STEP:%.]], [[TDPBF16PS_SCALARIZE_INNER_LATCH:%.*]] ]
		; CHECK-NEXT: [[VEC_C_INNER_PHI:%.*]] = phi <256 x i32> [ [[VEC_C_PHI_COL]], [[TDPBF16PS_SCALARIZE_COLS_BODY]] ], [ [[TMP21]], [[TDPBF16PS_SCALARIZE_INNER_LATCH]] ]
		; CHECK-NEXT: [[VEC_D_INNER_PHI:%.*]] = phi <256 x i32> [ [[VEC_D_PHI_COL]], [[TDPBF16PS_SCALARIZE_COLS_BODY]] ], [ [[TMP22]], [[TDPBF16PS_SCALARIZE_INNER_LATCH]] ]
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_INNER_BODY:%.*]]
		; CHECK: tdpbf16ps.scalarize.inner.body:
		; CHECK-NEXT: [[TMP2:%.*]] = mul i16 [[TDPBF16PS_SCALARIZE_ROWS_IV]], 16
		; CHECK-NEXT: [[TMP3:%.*]] = add i16 [[TMP2]], [[TDPBF16PS_SCALARIZE_COLS_IV]]
		; CHECK-NEXT: [[TMP4:%.*]] = mul i16 [[TDPBF16PS_SCALARIZE_ROWS_IV]], 16
		; CHECK-NEXT: [[TMP5:%.*]] = add i16 [[TMP4]], [[TDPBF16PS_SCALARIZE_INNER_IV]]
		; CHECK-NEXT: [[TMP6:%.*]] = mul i16 [[TDPBF16PS_SCALARIZE_INNER_IV]], 16
		; CHECK-NEXT: [[TMP7:%.*]] = add i16 [[TMP6]], [[TDPBF16PS_SCALARIZE_COLS_IV]]
		; CHECK-NEXT: [[TMP8:%.*]] = extractelement <256 x i32> [[VEC_C_INNER_PHI]], i16 [[TMP3]]
		; CHECK-NEXT: [[TMP9:%.*]] = bitcast i32 [[TMP8]] to float
		; CHECK-NEXT: [[TMP10:%.*]] = extractelement <256 x i32> [[A]], i16 [[TMP5]]
		; CHECK-NEXT: [[TMP11:%.*]] = bitcast i32 [[TMP10]] to <2 x i16>
		; CHECK-NEXT: [[TMP12:%.*]] = extractelement <256 x i32> [[B]], i16 [[TMP7]]
		pengfeiUnsubmitted Done Reply Inline Actions Can we use a shuffle instruction? pengfei: Can we use a shuffle instruction?
		; CHECK-NEXT: [[TMP13:%.*]] = bitcast i32 [[TMP12]] to <2 x i16>
		; CHECK-NEXT: [[TMP14:%.*]] = shufflevector <2 x i16> [[TMP11]], <2 x i16> zeroinitializer, <4 x i32> <i32 2, i32 0, i32 3, i32 1>
		; CHECK-NEXT: [[TMP15:%.*]] = bitcast <4 x i16> [[TMP14]] to <2 x float>
		; CHECK-NEXT: [[TMP16:%.*]] = shufflevector <2 x i16> [[TMP13]], <2 x i16> zeroinitializer, <4 x i32> <i32 2, i32 0, i32 3, i32 1>
		; CHECK-NEXT: [[TMP17:%.*]] = bitcast <4 x i16> [[TMP16]] to <2 x float>
		; CHECK-NEXT: [[TMP18:%.*]] = fmul <2 x float> [[TMP15]], [[TMP17]]
		; CHECK-NEXT: [[TMP19:%.*]] = call float @llvm.vector.reduce.fadd.v2f32(float [[TMP9]], <2 x float> [[TMP18]])
		; CHECK-NEXT: [[TMP20:%.*]] = bitcast float [[TMP19]] to i32
		; CHECK-NEXT: [[TMP21]] = insertelement <256 x i32> [[VEC_C_INNER_PHI]], i32 [[TMP20]], i16 [[TMP3]]
		; CHECK-NEXT: [[TMP22]] = insertelement <256 x i32> [[VEC_D_INNER_PHI]], i32 [[TMP20]], i16 [[TMP3]]
		; CHECK-NEXT: br label [[TDPBF16PS_SCALARIZE_INNER_LATCH]]
		; CHECK: tdpbf16ps.scalarize.inner.latch:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_INNER_STEP]] = add i16 [[TDPBF16PS_SCALARIZE_INNER_IV]], 1
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_INNER_COND:%.*]] = icmp ne i16 [[TDPBF16PS_SCALARIZE_INNER_STEP]], [[TMP1]]
		; CHECK-NEXT: br i1 [[TDPBF16PS_SCALARIZE_INNER_COND]], label [[TDPBF16PS_SCALARIZE_INNER_HEADER]], label [[TDPBF16PS_SCALARIZE_COLS_LATCH]]
		; CHECK: tdpbf16ps.scalarize.cols.latch:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_COLS_STEP]] = add i16 [[TDPBF16PS_SCALARIZE_COLS_IV]], 1
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_COLS_COND:%.*]] = icmp ne i16 [[TDPBF16PS_SCALARIZE_COLS_STEP]], [[TMP0]]
		; CHECK-NEXT: br i1 [[TDPBF16PS_SCALARIZE_COLS_COND]], label [[TDPBF16PS_SCALARIZE_COLS_HEADER]], label [[TDPBF16PS_SCALARIZE_ROWS_LATCH]]
		; CHECK: tdpbf16ps.scalarize.rows.latch:
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_ROWS_STEP]] = add i16 [[TDPBF16PS_SCALARIZE_ROWS_IV]], 1
		; CHECK-NEXT: [[TDPBF16PS_SCALARIZE_ROWS_COND:%.]] = icmp ne i16 [[TDPBF16PS_SCALARIZE_ROWS_STEP]], [[ROW:%.]]
		; CHECK-NEXT: br i1 [[TDPBF16PS_SCALARIZE_ROWS_COND]], label [[TDPBF16PS_SCALARIZE_ROWS_HEADER]], label [[CONTINUE:%.*]]
		; CHECK: continue:
		; CHECK-NEXT: [[TMP23:%.*]] = bitcast <256 x i32> [[TMP22]] to x86_amx
		; CHECK-NEXT: store <256 x i32> [[TMP22]], <256 x i32>* [[VPTR:%.*]], align 64
		; CHECK-NEXT: ret void
		;
		entry:
		%a.amx = bitcast <256 x i32> %a to x86_amx
		%b.amx = bitcast <256 x i32> %b to x86_amx
		%c.amx = bitcast <256 x i32> %c to x86_amx
		%acc = call x86_amx @llvm.x86.tdpbf16ps.internal(i16 %row, i16 %col, i16 %k, x86_amx %c.amx, x86_amx %a.amx, x86_amx %b.amx)
		%vec = bitcast x86_amx %acc to <256 x i32>
		store <256 x i32> %vec, <256 x i32>* %vptr, align 64
		ret void
		}

define dso_local void @test_amx_store(i16 signext %row, i16 signext %col, i8 %ptr, i64 %stride, <256 x i32> %vptr, <256 x i32> %vec) #0 {		define dso_local void @test_amx_store(i16 signext %row, i16 signext %col, i8 %ptr, i64 %stride, <256 x i32> %vptr, <256 x i32> %vec) #0 {
; CHECK-LABEL: @test_amx_store(		; CHECK-LABEL: @test_amx_store(
; CHECK-NEXT: entry:		; CHECK-NEXT: entry:
; CHECK-NEXT: [[AMX:%.]] = bitcast <256 x i32> [[VEC:%.]] to x86_amx		; CHECK-NEXT: [[AMX:%.]] = bitcast <256 x i32> [[VEC:%.]] to x86_amx
; CHECK-NEXT: [[TMP0:%.]] = lshr i16 [[COL:%.]], 2		; CHECK-NEXT: [[TMP0:%.]] = lshr i16 [[COL:%.]], 2
; CHECK-NEXT: [[TMP1:%.]] = lshr i64 [[STRIDE:%.]], 2		; CHECK-NEXT: [[TMP1:%.]] = lshr i64 [[STRIDE:%.]], 2
; CHECK-NEXT: br label [[TILESTORE_SCALARIZE_ROWS_HEADER:%.*]]		; CHECK-NEXT: br label [[TILESTORE_SCALARIZE_ROWS_HEADER:%.*]]
; CHECK: tilestore.scalarize.rows.header:		; CHECK: tilestore.scalarize.rows.header:
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	entry:
%vec = bitcast x86_amx %amx to <256 x i32>		%vec = bitcast x86_amx %amx to <256 x i32>
store <256 x i32> %vec, <256 x i32>* %vptr, align 64		store <256 x i32> %vec, <256 x i32>* %vptr, align 64
ret void		ret void
}		}

declare x86_amx @llvm.x86.tilezero.internal(i16, i16)		declare x86_amx @llvm.x86.tilezero.internal(i16, i16)
declare x86_amx @llvm.x86.tileloadd64.internal(i16, i16, i8*, i64)		declare x86_amx @llvm.x86.tileloadd64.internal(i16, i16, i8*, i64)
declare x86_amx @llvm.x86.tdpbssd.internal(i16, i16, i16, x86_amx, x86_amx, x86_amx)		declare x86_amx @llvm.x86.tdpbssd.internal(i16, i16, i16, x86_amx, x86_amx, x86_amx)
		declare x86_amx @llvm.x86.tdpbf16ps.internal(i16, i16, i16, x86_amx, x86_amx, x86_amx)
declare void @llvm.x86.tilestored64.internal(i16, i16, i8*, i64, x86_amx)		declare void @llvm.x86.tilestored64.internal(i16, i16, i8*, i64, x86_amx)

attributes #0 = { noinline nounwind optnone }		attributes #0 = { noinline nounwind optnone }

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Pass to transform tdpbf16ps intrinsics to scalar operation.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 325688

clang/include/clang/Basic/BuiltinsX86_64.def

clang/lib/Headers/amxintrin.h

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/Target/X86/X86ExpandPseudo.cpp

llvm/lib/Target/X86/X86ISelDAGToDAG.cpp

llvm/lib/Target/X86/X86InstrAMX.td

llvm/lib/Target/X86/X86LowerAMXIntrinsics.cpp

llvm/lib/Target/X86/X86LowerAMXType.cpp

llvm/lib/Target/X86/X86PreTileConfig.cpp

llvm/lib/Target/X86/X86RegisterInfo.cpp

llvm/test/CodeGen/X86/AMX/amx-low-intrinsics.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Pass to transform tdpbf16ps intrinsics to scalar operation.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 325688

clang/include/clang/Basic/BuiltinsX86_64.def

clang/lib/Headers/amxintrin.h

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/Target/X86/X86ExpandPseudo.cpp

llvm/lib/Target/X86/X86ISelDAGToDAG.cpp

llvm/lib/Target/X86/X86InstrAMX.td

llvm/lib/Target/X86/X86LowerAMXIntrinsics.cpp

llvm/lib/Target/X86/X86LowerAMXType.cpp

llvm/lib/Target/X86/X86PreTileConfig.cpp

llvm/lib/Target/X86/X86RegisterInfo.cpp

llvm/test/CodeGen/X86/AMX/amx-low-intrinsics.ll

[X86] Pass to transform tdpbf16ps intrinsics to scalar operation.
ClosedPublic