This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU]: Allow combining into v_dot4
ClosedPublic

Authored by jrbyrnes on Jul 21 2023, 2:21 PM.

Download Raw Diff

Details

Reviewers

arsenm
gandhi21299
foad
bcahoon

Commits

rG7794e16b49d0: [AMDGPU]: Allow combining into v_dot4
rG7fda1b74be4a: [AMDGPU]: Allow combining into v_dot4

Summary

Adds the algorithm to match and select v_dot4 instructions in combining, and removes the patterns from selection. The patterns are fragile, and fail to match when byte extraction code is slightly different, or any optimizations alters the add / mul structure of the tree. The DAG combining approach is more flexible, and should not result in much overhead given all the early exits.

For kernels that should select into these instructions, doing so is vitally important. Not only is performance much improved, but failing to select into them can result in severe code bloat which drastically degrades compile time.

The extended perm matching is a happy consequence of whitelisting EXTRACT_VECT_ELT i32s as ultimate srcs of bytes.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

jrbyrnes created this revision.Jul 21 2023, 2:21 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 21 2023, 2:21 PM

Herald added subscribers: foad, wenlei, kerbowa and 6 others. · View Herald Transcript

jrbyrnes requested review of this revision.Jul 21 2023, 2:21 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 21 2023, 2:21 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

jrbyrnes added inline comments.Jul 21 2023, 2:22 PM

llvm/lib/Target/AMDGPU/VOP3PInstructions.td
293 ↗	(On Diff #543065)	Should we delete these?

Harbormaster completed remote builds in B247321: Diff 543065.Jul 21 2023, 2:22 PM

jrbyrnes mentioned this in D155868: [AMDGPU] Add patterns for v_dot*_IU for GFX11.Jul 21 2023, 2:23 PM

jrbyrnes added a parent revision: D155864: [AMDGPU] Allow 8,16 bit sources in calculateSrcByte.Jul 21 2023, 2:29 PM

Fix some errors.

Harbormaster completed remote builds in B247360: Diff 543123.Jul 22 2023, 1:04 AM

passes psdb

Nothing necessarily planned at the moment, just want to block the review for now.

It may make more sense to tune vectorization cost model (for i8 and potentially i16) to produce something like

%m = mul < n x i8> %v0, %v1
%o = llvm.vector.reduce.add.vni8(%m)
%op.rdx = add %o, %scalar

Then lower to mfma or v_dot in CodeGenPrepare.

e.g.

%op.rdx = v_dot4_i32_i8 %v0, %v1, %scalar

Instead of scalarizing the sequence and trying to combine all possible variants.

Need to finish investigation before unblocking review.

SLP vectorization should be tuned but that seems like a separate issue. Trees corresponding to v_dot4 often have s/zext as the final dest is 32 bit, but the arithmetic operations involve 8 bit operands. By introducing s/zext into the tree, we confuse the SLP vectorization cost model as it thinks it is vectorizing 32bit operands. The main issue is that cost model only looks at one node of the vectorizable tree at a time to calculate cost, instead of also considering the sequence as a whole. If we were to vectorize, codegen may be significantly less complex for these.

Plan is to move forward with this patch, and potentially tune vectorization in later work.

jrbyrnes added a parent revision: D157133: [AMDGPU] Extend CalculateByteProvider to capture vectors and signed.Aug 4 2023, 1:26 PM

Rebase + Extended algorithm for more complete coverage of potential trees.

Still a WIP while I determine if it is coverage / feature complete, and need to make lit testing more robust.

jrbyrnes added a reviewer: gandhi21299.Aug 4 2023, 1:28 PM

Harbormaster completed remote builds in B250421: Diff 547328.Aug 4 2023, 3:06 PM

jrbyrnes added a parent revision: D157733: [DAG] NFC: Add getBitcasedExtOrTrunc.Aug 11 2023, 9:31 AM

jrbyrnes removed parent revisions: D157133: [AMDGPU] Extend CalculateByteProvider to capture vectors and signed, D155864: [AMDGPU] Allow 8,16 bit sources in calculateSrcByte.

Rebase + clean up code. Still running tests but no longer a WIP.

jrbyrnes retitled this revision from [AMDGPU] WIP: Allow matching into v_dot4 to [AMDGPU]: Allow combining into v_dot4.Aug 11 2023, 1:49 PM

jrbyrnes edited the summary of this revision. (Show Details)

Harbormaster completed remote builds in B252041: Diff 549513.Aug 11 2023, 3:25 PM

Fix non-determinism -- iteration order of DenseMap. Use SmallVector instead (worst case lookup is non factor due to size)

Harbormaster completed remote builds in B252993: Diff 550814.Aug 16 2023, 12:46 PM

arsenm requested changes to this revision.Aug 18 2023, 7:26 AM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12755	don't need .has_value() part
12759	Ditto
12828–12829	is_contained
12913	1 \|\| == 2?
12985	Don't know why we have getSubtarget, you can just use Subtarget-> directly
12992	SDValue TempNode(N, 0)
12994–12997	Don't understand what you are doing with this opcode to index check
13022	Don't need has_value()
13039	Don't need has_value
13083–13084	is_contained
13109	use deleted_node instead of optional opcode
13110	Can you avoid generation checks?
13116	Can you go through the intrinsics instead of going straight to the machine node?

This revision now requires changes to proceed.Aug 18 2023, 7:26 AM

jrbyrnes added a parent revision: D158468: [AMDGPU] Support sdot4 / sdot8 intrinsics on gfx11.Aug 21 2023, 5:21 PM

Rebase (for https://reviews.llvm.org/D158468) and lower with intrinsics.

Allowing combining in pre-legalize phase.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12828–12829	We use the found value here
12994–12997	It is a convenience which allows getting the mul operand without having to do operand checks every time.

Harbormaster completed remote builds in B254169: Diff 552475.Aug 22 2023, 1:41 PM

jrbyrnes mentioned this in D158468: [AMDGPU] Support sdot4 / sdot8 intrinsics on gfx11.Aug 23 2023, 9:48 AM

arsenm added inline comments.Aug 23 2023, 5:13 PM

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12921	auto &[Something, Mask] : ?
12928–12944	I thought we combined the mul24 intrinsics to the nodes specifically so you don't need to do this
13117–13118	DAG.getTargetConstant(IsSigned ? Intrinsic::amdgcn_sdot4 : Intrinsic::amdgcn_udot4, SL, MVT::i32)

Address Comments

Harbormaster completed remote builds in B254691: Diff 553220.Aug 24 2023, 2:32 PM

jrbyrnes mentioned this in D159036: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider.Aug 28 2023, 4:38 PM

jrbyrnes added a child revision: D159036: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider.Aug 28 2023, 4:38 PM

ping

arsenm accepted this revision.Sep 5 2023, 1:46 PM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12764	Missing newline
12861	maybe comment skipping bswap?
13023	extra parens

This revision is now accepted and ready to land.Sep 5 2023, 1:46 PM

Address comments

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12861	It's the original SDValue, not bswap. I'll add comment. def : GCNPat < (i32 (bswap i32:$a)), (V_PERM_B32_e64 (i32 0), VSrc_b32:$a, (S_MOV_B32 (i32 0x00010203))) >;

arsenm accepted this revision.Sep 7 2023, 12:48 PM

This revision was landed with ongoing or failed builds.Sep 7 2023, 1:06 PM

Closed by commit rG7fda1b74be4a: [AMDGPU]: Allow combining into v_dot4 (authored by jrbyrnes). · Explain Why

This revision was automatically updated to reflect the committed changes.

jrbyrnes added a commit: rG7fda1b74be4a: [AMDGPU]: Allow combining into v_dot4.

GitHub <noreply@github.com> added a reverting change: rGdb47264ab32d: Revert "[AMDGPU]: Allow combining into v_dot4" (#66158).Sep 12 2023, 4:57 PM

Reopen for review as it has been reverted, now includes https://github.com/llvm/llvm-project/pull/65995

This revision is now accepted and ready to land.Sep 12 2023, 4:58 PM

Bring in https://github.com/llvm/llvm-project/pull/65995

Harbormaster completed remote builds in B257111: Diff 556617.Sep 12 2023, 5:16 PM

IsSigned tracks whether or not to produce an instruction with signed behavior. In some cases, we are able to determine this based on the semantics of the top-level instruction, however, in other cases, we need more information. For such cases, we must look to the tree itself.

In cases of vectorized arithmetic reduction instructions, we typically see a widening of type. We can use the signedness of the extension to determine the signedness semantics required for the instruction we will ultimately produce.

However, other clients of calculateByteProvider may not be producing arithmetic instructions, and, in these cases, there may be no requirement to track the signedness semantics. Thus, we do not need to fail if we are unable to detemine the signedness.

This removes the requirement that ByteProviders must determine IsSigned.

Harbormaster completed remote builds in B257293: Diff 556879.Sep 15 2023, 2:42 PM

jrbyrnes added a reviewer: foad.Sep 19 2023, 4:32 PM

Herald added a subscriber: StephenFan. · View Herald TranscriptSep 19 2023, 4:32 PM

Extract signedness checking

Harbormaster completed remote builds in B257542: Diff 557255.Sep 22 2023, 1:56 PM

Fix dereference issue + nits (reorganize logic + comments)

Harbormaster completed remote builds in B257544: Diff 557258.Sep 22 2023, 2:41 PM

Fix signedness handling of any_extend

Harbormaster completed remote builds in B257611: Diff 557369.Sep 26 2023, 11:38 AM

Just some minor comments/questions.

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
11074	add period at the end.
12751	This function is used for any mul, not just mul24?
12946	I think the check includes any extend (or unknown?) as well as signed? Maybe say, If we have MUL_u24 without unsigned semantics, then fail.
12950	BTW, is this the same as : if (!Src0.IsSigned.value_or(false) && MulOpcode == AMDGPUISD::MUL_I24)

Address comments + update handling of AtomicSDNode + MemIntrinsic

llvm/lib/Target/AMDGPU/SIISelLowering.cpp
12946	This check is checking for conflicting signedness semantics. In the case where we don't have signedness info from the ByteProvider, the signedness is irrelevant so we should say it doesn't conflict. In the case where we don't have signedness information, then two things could have occurred: We are accumulating into 8 bit register, and have not done any extensions. In this case, the upper bits are irrelevant, and we may use either version of the dot. We have exclusively used any_extends. Same as case 1, the upper bits are irrelevant. There is a third scenario which I have accounted for in the latest version. Previously, we would not have signedness info if we encountered an unhandled node (MemIntrinsic / AtomicSDNode). However, in this case, the upper bits may be relevant. Thus, instead of throwing away signedness info in this situations, we now fail.
12950	Right nice catch -- except we should not fail if we don't have signedness info.
llvm/test/CodeGen/AMDGPU/idot4s.ll
146	Answering offline question about "neg_lo:[1,1,0]" These tests are introduced via this patch, and the modifier indicates we need signedness semantics for both operands. neg_lo:[1,1,0] was introduced originally by rebasing on top of changes from https://reviews.llvm.org/D158468?vs=552172&id=552466#toc I believe.

Harbormaster completed remote builds in B257759: Diff 557593.Oct 4 2023, 11:13 AM

Changes LGTM.

This revision was landed with ongoing or failed builds.Oct 4 2023, 1:32 PM

Closed by commit rG7794e16b49d0: [AMDGPU]: Allow combining into v_dot4 (authored by jrbyrnes). · Explain Why

This revision was automatically updated to reflect the committed changes.

jrbyrnes added a commit: rG7794e16b49d0: [AMDGPU]: Allow combining into v_dot4.

jrbyrnes mentioned this in rGef3365949232: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider.Oct 23 2023, 4:08 PM

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

ByteProvider.h

16 lines

lib/

Target/

AMDGPU/

SIISelLowering.cpp

420 lines

test/

CodeGen/

AMDGPU/

idot2.ll

23 lines

idot4s.ll

2514 lines

idot4u.ll

2843 lines

Diff 557598

llvm/include/llvm/CodeGen/ByteProvider.h

Show All 26 Lines
/// some other productive instruction (e.g. arithmetic instructions).		/// some other productive instruction (e.g. arithmetic instructions).
/// Bit manipulation instructions like shifts are not ByteProviders, rather		/// Bit manipulation instructions like shifts are not ByteProviders, rather
/// are used to extract Bytes.		/// are used to extract Bytes.
template <typename ISelOp> class ByteProvider {		template <typename ISelOp> class ByteProvider {
private:		private:
ByteProvider(std::optional<ISelOp> Src, int64_t DestOffset, int64_t SrcOffset)		ByteProvider(std::optional<ISelOp> Src, int64_t DestOffset, int64_t SrcOffset)
: Src(Src), DestOffset(DestOffset), SrcOffset(SrcOffset) {}		: Src(Src), DestOffset(DestOffset), SrcOffset(SrcOffset) {}

		ByteProvider(std::optional<ISelOp> Src, int64_t DestOffset, int64_t SrcOffset,
		std::optional<bool> IsSigned)
		: Src(Src), DestOffset(DestOffset), SrcOffset(SrcOffset),
		IsSigned(IsSigned) {}

// TODO -- use constraint in c++20		// TODO -- use constraint in c++20
// Does this type correspond with an operation in selection DAG		// Does this type correspond with an operation in selection DAG
template <typename T> class is_op {		template <typename T> class is_op {
private:		private:
using yes = std::true_type;		using yes = std::true_type;
using no = std::false_type;		using no = std::false_type;

// Only allow classes with member function getOpcode		// Only allow classes with member function getOpcode
Show All 13 Lines	public:
// Src represents the node which originally produced the relevant bits.		// Src represents the node which originally produced the relevant bits.
std::optional<ISelOp> Src = std::nullopt;		std::optional<ISelOp> Src = std::nullopt;
// DestOffset is the offset of the byte in the dest we are trying to map for.		// DestOffset is the offset of the byte in the dest we are trying to map for.
int64_t DestOffset = 0;		int64_t DestOffset = 0;
// SrcOffset is the offset in the ultimate source node that maps to the		// SrcOffset is the offset in the ultimate source node that maps to the
// DestOffset		// DestOffset
int64_t SrcOffset = 0;		int64_t SrcOffset = 0;

		// Whether or not the path to this Src involved signed extensions
		std::optional<bool> IsSigned;

ByteProvider() = default;		ByteProvider() = default;

static ByteProvider getSrc(std::optional<ISelOp> Val, int64_t ByteOffset,		static ByteProvider getSrc(std::optional<ISelOp> Val, int64_t ByteOffset,
int64_t VectorOffset) {		int64_t VectorOffset) {
static_assert(is_op<ISelOp>().value,		static_assert(is_op<ISelOp>().value,
"ByteProviders must contain an operation in selection DAG.");		"ByteProviders must contain an operation in selection DAG.");
return ByteProvider(Val, ByteOffset, VectorOffset);		return ByteProvider(Val, ByteOffset, VectorOffset);
}		}

		static ByteProvider getSrc(std::optional<ISelOp> Val, int64_t ByteOffset,
		int64_t VectorOffset,
		std::optional<bool> IsSigned) {
		static_assert(is_op<ISelOp>().value,
		"ByteProviders must contain an operation in selection DAG.");
		return ByteProvider(Val, ByteOffset, VectorOffset, IsSigned);
		}

static ByteProvider getConstantZero() {		static ByteProvider getConstantZero() {
return ByteProvider<ISelOp>(std::nullopt, 0, 0);		return ByteProvider<ISelOp>(std::nullopt, 0, 0);
}		}
bool isConstantZero() const { return !Src; }		bool isConstantZero() const { return !Src; }

bool hasSrc() const { return Src.has_value(); }		bool hasSrc() const { return Src.has_value(); }

bool hasSameSrc(const ByteProvider &Other) const { return Other.Src == Src; }		bool hasSameSrc(const ByteProvider &Other) const { return Other.Src == Src; }
Show All 9 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,804 Lines • ▼ Show 20 Lines

// Find the source and byte position from a node.		// Find the source and byte position from a node.
// \p DestByte is the byte position of the dest of the or that the src		// \p DestByte is the byte position of the dest of the or that the src
// ultimately provides. \p SrcIndex is the byte of the src that maps to this		// ultimately provides. \p SrcIndex is the byte of the src that maps to this
// dest of the or byte. \p Depth tracks how many recursive iterations we have		// dest of the or byte. \p Depth tracks how many recursive iterations we have
// performed.		// performed.
static const std::optional<ByteProvider<SDValue>>		static const std::optional<ByteProvider<SDValue>>
calculateSrcByte(const SDValue Op, uint64_t DestByte, uint64_t SrcIndex = 0,		calculateSrcByte(const SDValue Op, uint64_t DestByte, uint64_t SrcIndex = 0,
		std::optional<bool> IsSigned = std::nullopt,
unsigned Depth = 0) {		unsigned Depth = 0) {
// We may need to recursively traverse a series of SRLs		// We may need to recursively traverse a series of SRLs
if (Depth >= 6)		if (Depth >= 6)
return std::nullopt;		return std::nullopt;

auto ValueSize = Op.getValueSizeInBits();		auto ValueSize = Op.getValueSizeInBits();
if (ValueSize != 8 && ValueSize != 16 && ValueSize != 32)		if (ValueSize != 8 && ValueSize != 16 && ValueSize != 32)
return std::nullopt;		return std::nullopt;

switch (Op->getOpcode()) {		switch (Op->getOpcode()) {
case ISD::TRUNCATE: {		case ISD::TRUNCATE: {
return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, Depth + 1);		return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, IsSigned,
		Depth + 1);
}		}

case ISD::SIGN_EXTEND:		case ISD::SIGN_EXTEND:
case ISD::ZERO_EXTEND:		case ISD::ZERO_EXTEND:
case ISD::SIGN_EXTEND_INREG: {		case ISD::SIGN_EXTEND_INREG: {
		IsSigned = IsSigned.value_or(false) \|\|
		Op->getOpcode() == ISD::SIGN_EXTEND \|\|
		Op->getOpcode() == ISD::SIGN_EXTEND_INREG;
SDValue NarrowOp = Op->getOperand(0);		SDValue NarrowOp = Op->getOperand(0);
auto NarrowVT = NarrowOp.getValueType();		auto NarrowVT = NarrowOp.getValueType();
if (Op->getOpcode() == ISD::SIGN_EXTEND_INREG) {		if (Op->getOpcode() == ISD::SIGN_EXTEND_INREG) {
auto *VTSign = cast<VTSDNode>(Op->getOperand(1));		auto *VTSign = cast<VTSDNode>(Op->getOperand(1));
NarrowVT = VTSign->getVT();		NarrowVT = VTSign->getVT();
}		}
if (!NarrowVT.isByteSized())		if (!NarrowVT.isByteSized())
return std::nullopt;		return std::nullopt;
uint64_t NarrowByteWidth = NarrowVT.getStoreSize();		uint64_t NarrowByteWidth = NarrowVT.getStoreSize();

if (SrcIndex >= NarrowByteWidth)		if (SrcIndex >= NarrowByteWidth)
return std::nullopt;		return std::nullopt;
return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, Depth + 1);		return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, IsSigned,
		Depth + 1);
}		}

case ISD::SRA:		case ISD::SRA:
case ISD::SRL: {		case ISD::SRL: {
auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));		auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));
if (!ShiftOp)		if (!ShiftOp)
return std::nullopt;		return std::nullopt;

uint64_t BitShift = ShiftOp->getZExtValue();		uint64_t BitShift = ShiftOp->getZExtValue();

if (BitShift % 8 != 0)		if (BitShift % 8 != 0)
return std::nullopt;		return std::nullopt;

SrcIndex += BitShift / 8;		SrcIndex += BitShift / 8;

return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, Depth + 1);		return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, IsSigned,
		Depth + 1);
}		}

default: {		default: {
		if (auto A = dyn_cast<AtomicSDNode>(Op) \|\| Op->isMemIntrinsic()) {
		// If this causes us to throw away signedness info, then fail.
		if (IsSigned)
		return std::nullopt;
return ByteProvider<SDValue>::getSrc(Op, DestByte, SrcIndex);		return ByteProvider<SDValue>::getSrc(Op, DestByte, SrcIndex);
}		}

		if (auto L = dyn_cast<LoadSDNode>(Op))
		if (L->getExtensionType() != ISD::NON_EXTLOAD)
		IsSigned =
		IsSigned.value_or(false) \|\| L->getExtensionType() == ISD::SEXTLOAD;

		return ByteProvider<SDValue>::getSrc(Op, DestByte, SrcIndex, IsSigned);
		}
}		}
llvm_unreachable("fully handled switch");		llvm_unreachable("fully handled switch");
}		}

// For a byte position in the result of an Or, traverse the tree and find the		// For a byte position in the result of an Or, traverse the tree and find the
// node (and the byte of the node) which ultimately provides this {Or,		// node (and the byte of the node) which ultimately provides this {Or,
// BytePosition}. \p Op is the operand we are currently examining. \p Index is		// BytePosition}. \p Op is the operand we are currently examining. \p Index is
// the byte position of the Op that corresponds with the originally requested		// the byte position of the Op that corresponds with the originally requested
// byte of the Or \p Depth tracks how many recursive iterations we have		// byte of the Or \p Depth tracks how many recursive iterations we have
// performed. \p StartingIndex is the originally requested byte of the Or		// performed. \p StartingIndex is the originally requested byte of the Or
static const std::optional<ByteProvider<SDValue>>		static const std::optional<ByteProvider<SDValue>>
calculateByteProvider(const SDValue &Op, unsigned Index, unsigned Depth,		calculateByteProvider(const SDValue &Op, unsigned Index, unsigned Depth,
unsigned StartingIndex = 0) {		unsigned StartingIndex = 0,
		std::optional<bool> IsSigned = std::nullopt) {
// Finding Src tree of RHS of or typically requires at least 1 additional		// Finding Src tree of RHS of or typically requires at least 1 additional
// depth		// depth
if (Depth > 6)		if (Depth > 6)
return std::nullopt;		return std::nullopt;

unsigned BitWidth = Op.getScalarValueSizeInBits();		unsigned BitWidth = Op.getScalarValueSizeInBits();
if (BitWidth % 8 != 0)		if (BitWidth % 8 != 0)
return std::nullopt;		return std::nullopt;
if (Index > BitWidth / 8 - 1)		if (Index > BitWidth / 8 - 1)
return std::nullopt;		return std::nullopt;

switch (Op.getOpcode()) {		switch (Op.getOpcode()) {
case ISD::OR: {		case ISD::OR: {
auto RHS = calculateByteProvider(Op.getOperand(1), Index, Depth + 1,		auto RHS = calculateByteProvider(Op.getOperand(1), Index, Depth + 1,
StartingIndex);		StartingIndex, IsSigned);
if (!RHS)		if (!RHS)
return std::nullopt;		return std::nullopt;
auto LHS = calculateByteProvider(Op.getOperand(0), Index, Depth + 1,		auto LHS = calculateByteProvider(Op.getOperand(0), Index, Depth + 1,
StartingIndex);		StartingIndex, IsSigned);
if (!LHS)		if (!LHS)
return std::nullopt;		return std::nullopt;
// A well formed Or will have two ByteProviders for each byte, one of which		// A well formed Or will have two ByteProviders for each byte, one of which
// is constant zero		// is constant zero
if (!LHS->isConstantZero() && !RHS->isConstantZero())		if (!LHS->isConstantZero() && !RHS->isConstantZero())
return std::nullopt;		return std::nullopt;
if (!LHS \|\| LHS->isConstantZero())		if (!LHS \|\| LHS->isConstantZero())
return RHS;		return RHS;
Show All 14 Lines	case ISD::AND: {
if ((IndexMask & BitMask) != IndexMask) {		if ((IndexMask & BitMask) != IndexMask) {
// If the result of the and partially provides the byte, then it		// If the result of the and partially provides the byte, then it
// is not well formatted		// is not well formatted
if (IndexMask & BitMask)		if (IndexMask & BitMask)
return std::nullopt;		return std::nullopt;
return ByteProvider<SDValue>::getConstantZero();		return ByteProvider<SDValue>::getConstantZero();
}		}

return calculateSrcByte(Op->getOperand(0), StartingIndex, Index);		return calculateSrcByte(Op->getOperand(0), StartingIndex, Index, IsSigned);
}		}

case ISD::FSHR: {		case ISD::FSHR: {
// fshr(X,Y,Z): (X << (BW - (Z % BW))) \| (Y >> (Z % BW))		// fshr(X,Y,Z): (X << (BW - (Z % BW))) \| (Y >> (Z % BW))
auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(2));		auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(2));
if (!ShiftOp \|\| Op.getValueType().isVector())		if (!ShiftOp \|\| Op.getValueType().isVector())
return std::nullopt;		return std::nullopt;

Show All 32 Lines	case ISD::SRL: {
uint64_t BytesProvided = BitsProvided / 8;		uint64_t BytesProvided = BitsProvided / 8;
uint64_t ByteShift = BitShift / 8;		uint64_t ByteShift = BitShift / 8;
// The dest of shift will have good [0 : (BytesProvided - ByteShift)] bytes.		// The dest of shift will have good [0 : (BytesProvided - ByteShift)] bytes.
// If the byte we are trying to provide (as tracked by index) falls in this		// If the byte we are trying to provide (as tracked by index) falls in this
// range, then the SRL provides the byte. The byte of interest of the src of		// range, then the SRL provides the byte. The byte of interest of the src of
// the SRL is Index + ByteShift		// the SRL is Index + ByteShift
return BytesProvided - ByteShift > Index		return BytesProvided - ByteShift > Index
? calculateSrcByte(Op->getOperand(0), StartingIndex,		? calculateSrcByte(Op->getOperand(0), StartingIndex,
Index + ByteShift)		Index + ByteShift, IsSigned)
: ByteProvider<SDValue>::getConstantZero();		: ByteProvider<SDValue>::getConstantZero();
}		}

case ISD::SHL: {		case ISD::SHL: {
auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));		auto ShiftOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));
if (!ShiftOp)		if (!ShiftOp)
return std::nullopt;		return std::nullopt;

uint64_t BitShift = ShiftOp->getZExtValue();		uint64_t BitShift = ShiftOp->getZExtValue();
if (BitShift % 8 != 0)		if (BitShift % 8 != 0)
return std::nullopt;		return std::nullopt;
uint64_t ByteShift = BitShift / 8;		uint64_t ByteShift = BitShift / 8;

// If we are shifting by an amount greater than (or equal to)		// If we are shifting by an amount greater than (or equal to)
// the index we are trying to provide, then it provides 0s. If not,		// the index we are trying to provide, then it provides 0s. If not,
// then this bytes are not definitively 0s, and the corresponding byte		// then this bytes are not definitively 0s, and the corresponding byte
// of interest is Index - ByteShift of the src		// of interest is Index - ByteShift of the src
return Index < ByteShift		return Index < ByteShift
? ByteProvider<SDValue>::getConstantZero()		? ByteProvider<SDValue>::getConstantZero()
: calculateByteProvider(Op.getOperand(0), Index - ByteShift,		: calculateByteProvider(Op.getOperand(0), Index - ByteShift,
Depth + 1, StartingIndex);		Depth + 1, StartingIndex, IsSigned);
}		}
case ISD::ANY_EXTEND:		case ISD::ANY_EXTEND:
case ISD::SIGN_EXTEND:		case ISD::SIGN_EXTEND:
case ISD::ZERO_EXTEND:		case ISD::ZERO_EXTEND:
case ISD::SIGN_EXTEND_INREG:		case ISD::SIGN_EXTEND_INREG:
case ISD::AssertZext:		case ISD::AssertZext:
case ISD::AssertSext: {		case ISD::AssertSext: {
SDValue NarrowOp = Op->getOperand(0);		SDValue NarrowOp = Op->getOperand(0);
unsigned NarrowBitWidth = NarrowOp.getValueSizeInBits();		unsigned NarrowBitWidth = NarrowOp.getValueSizeInBits();
if (Op->getOpcode() == ISD::SIGN_EXTEND_INREG \|\|		if (Op->getOpcode() == ISD::SIGN_EXTEND_INREG \|\|
Op->getOpcode() == ISD::AssertZext \|\|		Op->getOpcode() == ISD::AssertZext \|\|
Op->getOpcode() == ISD::AssertSext) {		Op->getOpcode() == ISD::AssertSext) {
auto *VTSign = cast<VTSDNode>(Op->getOperand(1));		auto *VTSign = cast<VTSDNode>(Op->getOperand(1));
NarrowBitWidth = VTSign->getVT().getSizeInBits();		NarrowBitWidth = VTSign->getVT().getSizeInBits();
}		}
if (NarrowBitWidth % 8 != 0)		if (NarrowBitWidth % 8 != 0)
return std::nullopt;		return std::nullopt;
uint64_t NarrowByteWidth = NarrowBitWidth / 8;		uint64_t NarrowByteWidth = NarrowBitWidth / 8;

		IsSigned =
		Op->getOpcode() != ISD::ANY_EXTEND
		? std::optional<bool>(IsSigned.value_or(false) \|\|
		Op->getOpcode() == ISD::SIGN_EXTEND \|\|
		Op->getOpcode() == ISD::SIGN_EXTEND_INREG \|\|
		Op->getOpcode() == ISD::AssertSext)
		: IsSigned;

if (Index >= NarrowByteWidth)		if (Index >= NarrowByteWidth)
return Op.getOpcode() == ISD::ZERO_EXTEND		return Op.getOpcode() == ISD::ZERO_EXTEND
? std::optional<ByteProvider<SDValue>>(		? std::optional<ByteProvider<SDValue>>(
ByteProvider<SDValue>::getConstantZero())		ByteProvider<SDValue>::getConstantZero())
: std::nullopt;		: std::nullopt;
return calculateByteProvider(NarrowOp, Index, Depth + 1, StartingIndex);		return calculateByteProvider(NarrowOp, Index, Depth + 1, StartingIndex,
		IsSigned);
}		}

case ISD::TRUNCATE: {		case ISD::TRUNCATE: {
uint64_t NarrowByteWidth = BitWidth / 8;		uint64_t NarrowByteWidth = BitWidth / 8;

if (NarrowByteWidth >= Index) {		if (NarrowByteWidth >= Index) {
return calculateByteProvider(Op.getOperand(0), Index, Depth + 1,		return calculateByteProvider(Op.getOperand(0), Index, Depth + 1,
StartingIndex);		StartingIndex, IsSigned);
}		}

return std::nullopt;		return std::nullopt;
}		}

case ISD::CopyFromReg: {		case ISD::CopyFromReg: {
if (BitWidth / 8 > Index)		if (BitWidth / 8 > Index)
return calculateSrcByte(Op, StartingIndex, Index);		return calculateSrcByte(Op, StartingIndex, Index, IsSigned);

return std::nullopt;		return std::nullopt;
}		}

case ISD::LOAD: {		case ISD::LOAD: {
auto L = cast<LoadSDNode>(Op.getNode());		auto L = cast<LoadSDNode>(Op.getNode());

		// Only set IsSigned if the load is extended.
		bcahoonUnsubmitted Done Reply Inline Actions add period at the end. bcahoon: add period at the end.
		if (L->getExtensionType() != ISD::NON_EXTLOAD)
		IsSigned =
		IsSigned.value_or(false) \|\| L->getExtensionType() == ISD::SEXTLOAD;
unsigned NarrowBitWidth = L->getMemoryVT().getSizeInBits();		unsigned NarrowBitWidth = L->getMemoryVT().getSizeInBits();
if (NarrowBitWidth % 8 != 0)		if (NarrowBitWidth % 8 != 0)
return std::nullopt;		return std::nullopt;
uint64_t NarrowByteWidth = NarrowBitWidth / 8;		uint64_t NarrowByteWidth = NarrowBitWidth / 8;

// If the width of the load does not reach byte we are trying to provide for		// If the width of the load does not reach byte we are trying to provide for
// and it is not a ZEXTLOAD, then the load does not provide for the byte in		// and it is not a ZEXTLOAD, then the load does not provide for the byte in
// question		// question
if (Index >= NarrowByteWidth) {		if (Index >= NarrowByteWidth) {
return L->getExtensionType() == ISD::ZEXTLOAD		return L->getExtensionType() == ISD::ZEXTLOAD
? std::optional<ByteProvider<SDValue>>(		? std::optional<ByteProvider<SDValue>>(
ByteProvider<SDValue>::getConstantZero())		ByteProvider<SDValue>::getConstantZero())
: std::nullopt;		: std::nullopt;
}		}

if (NarrowByteWidth > Index) {		if (NarrowByteWidth > Index) {
return calculateSrcByte(Op, StartingIndex, Index);		return calculateSrcByte(Op, StartingIndex, Index, IsSigned);
}		}

return std::nullopt;		return std::nullopt;
}		}

case ISD::BSWAP:		case ISD::BSWAP:
return calculateByteProvider(Op->getOperand(0), BitWidth / 8 - Index - 1,		return calculateByteProvider(Op->getOperand(0), BitWidth / 8 - Index - 1,
Depth + 1, StartingIndex);		Depth + 1, StartingIndex, IsSigned);

case ISD::EXTRACT_VECTOR_ELT: {		case ISD::EXTRACT_VECTOR_ELT: {
auto IdxOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));		auto IdxOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));
if (!IdxOp)		if (!IdxOp)
return std::nullopt;		return std::nullopt;
auto VecIdx = IdxOp->getZExtValue();		auto VecIdx = IdxOp->getZExtValue();
auto ScalarSize = Op.getScalarValueSizeInBits();		auto ScalarSize = Op.getScalarValueSizeInBits();
if (ScalarSize != 32) {		if (ScalarSize != 32) {
if ((VecIdx + 1) * ScalarSize > 32)		if ((VecIdx + 1) * ScalarSize > 32)
return std::nullopt;		return std::nullopt;
Index = ScalarSize == 8 ? VecIdx : VecIdx * 2 + Index;		Index = ScalarSize == 8 ? VecIdx : VecIdx * 2 + Index;
}		}

return calculateSrcByte(ScalarSize == 32 ? Op : Op.getOperand(0),		return calculateSrcByte(ScalarSize == 32 ? Op : Op.getOperand(0),
StartingIndex, Index);		StartingIndex, Index, IsSigned);
}		}

case AMDGPUISD::PERM: {		case AMDGPUISD::PERM: {
auto PermMask = dyn_cast<ConstantSDNode>(Op->getOperand(2));		auto PermMask = dyn_cast<ConstantSDNode>(Op->getOperand(2));
if (!PermMask)		if (!PermMask)
return std::nullopt;		return std::nullopt;

auto IdxMask =		auto IdxMask =
(PermMask->getZExtValue() & (0xFF << (Index * 8))) >> (Index * 8);		(PermMask->getZExtValue() & (0xFF << (Index * 8))) >> (Index * 8);
if (IdxMask > 0x07 && IdxMask != 0x0c)		if (IdxMask > 0x07 && IdxMask != 0x0c)
return std::nullopt;		return std::nullopt;

auto NextOp = Op.getOperand(IdxMask > 0x03 ? 0 : 1);		auto NextOp = Op.getOperand(IdxMask > 0x03 ? 0 : 1);
auto NextIndex = IdxMask > 0x03 ? IdxMask % 4 : IdxMask;		auto NextIndex = IdxMask > 0x03 ? IdxMask % 4 : IdxMask;

return IdxMask != 0x0c ? calculateSrcByte(NextOp, StartingIndex, NextIndex)		return IdxMask != 0x0c
		? calculateSrcByte(NextOp, StartingIndex, NextIndex, IsSigned)
: ByteProvider<SDValue>(		: ByteProvider<SDValue>(
ByteProvider<SDValue>::getConstantZero());		ByteProvider<SDValue>::getConstantZero());
}		}

default: {		default: {
return std::nullopt;		return std::nullopt;
}		}
}		}

llvm_unreachable("fully handled switch");		llvm_unreachable("fully handled switch");
▲ Show 20 Lines • Show All 1,597 Lines • ▼ Show 20 Lines	if (!MulSignedLo && (!MulLHSUnsigned32 \|\| !MulRHSUnsigned32)) {
Accum = DAG.getBitcast(MVT::i64, Accum);		Accum = DAG.getBitcast(MVT::i64, Accum);
}		}

if (VT != MVT::i64)		if (VT != MVT::i64)
Accum = DAG.getNode(ISD::TRUNCATE, SL, VT, Accum);		Accum = DAG.getNode(ISD::TRUNCATE, SL, VT, Accum);
return Accum;		return Accum;
}		}

		// Collect the ultimate src of each of the mul node's operands, and confirm
		// each operand is 8 bytes.
		bcahoonUnsubmitted Done Reply Inline Actions This function is used for any mul, not just mul24? bcahoon: This function is used for any mul, not just mul24?
		static std::optional<ByteProvider<SDValue>>
		handleMulOperand(const SDValue &MulOperand) {
		auto Byte0 = calculateByteProvider(MulOperand, 0, 0);
		if (!Byte0 \|\| Byte0->isConstantZero()) {
		arsenmUnsubmitted Done Reply Inline Actions don't need .has_value() part arsenm: don't need .has_value() part
		return std::nullopt;
		}
		auto Byte1 = calculateByteProvider(MulOperand, 1, 0);
		if (Byte1 && !Byte1->isConstantZero()) {
		arsenmUnsubmitted Done Reply Inline Actions Ditto arsenm: Ditto
		return std::nullopt;
		}
		return Byte0;
		}

		arsenmUnsubmitted Done Reply Inline Actions Missing newline arsenm: Missing newline
		static unsigned addPermMasks(unsigned First, unsigned Second) {
		unsigned FirstCs = First & 0x0c0c0c0c;
		unsigned SecondCs = Second & 0x0c0c0c0c;
		unsigned FirstNoCs = First & ~0x0c0c0c0c;
		unsigned SecondNoCs = Second & ~0x0c0c0c0c;

		assert(FirstCs & 0xFF \| SecondCs & 0xFF);
		assert(FirstCs & 0xFF00 \| SecondCs & 0xFF00);
		assert(FirstCs & 0xFF0000 \| SecondCs & 0xFF0000);
		assert(FirstCs & 0xFF000000 \| SecondCs & 0xFF000000);

		return (FirstNoCs \| SecondNoCs) \| (FirstCs & SecondCs);
		}

		static void placeSources(ByteProvider<SDValue> &Src0,
		ByteProvider<SDValue> &Src1,
		SmallVectorImpl<std::pair<SDValue, unsigned>> &Src0s,
		SmallVectorImpl<std::pair<SDValue, unsigned>> &Src1s,
		int Step) {

		assert(Src0.Src.has_value() && Src1.Src.has_value());
		// Src0s and Src1s are empty, just place arbitrarily.
		if (Step == 0) {
		Src0s.push_back({*Src0.Src, (Src0.SrcOffset << 24) + 0x0c0c0c});
		Src1s.push_back({*Src1.Src, (Src1.SrcOffset << 24) + 0x0c0c0c});
		return;
		}

		for (int BPI = 0; BPI < 2; BPI++) {
		std::pair<ByteProvider<SDValue>, ByteProvider<SDValue>> BPP = {Src0, Src1};
		if (BPI == 1) {
		BPP = {Src1, Src0};
		}
		unsigned ZeroMask = 0x0c0c0c0c;
		unsigned FMask = 0xFF << (8 * (3 - Step));

		unsigned FirstMask =
		BPP.first.SrcOffset << (8 * (3 - Step)) \| (ZeroMask & ~FMask);
		unsigned SecondMask =
		BPP.second.SrcOffset << (8 * (3 - Step)) \| (ZeroMask & ~FMask);
		// Attempt to find Src vector which contains our SDValue, if so, add our
		// perm mask to the existing one. If we are unable to find a match for the
		// first SDValue, attempt to find match for the second.
		int FirstGroup = -1;
		for (int I = 0; I < 2; I++) {
		SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs =
		I == 0 ? Src0s : Src1s;
		auto MatchesFirst = [&BPP](std::pair<SDValue, unsigned> IterElt) {
		return IterElt.first == *BPP.first.Src;
		};

		auto Match = std::find_if(Srcs.begin(), Srcs.end(), MatchesFirst);
		if (Match != Srcs.end()) {
		Match->second = addPermMasks(FirstMask, Match->second);
		FirstGroup = I;
		break;
		}
		}
		if (FirstGroup != -1) {
		SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs =
		FirstGroup == 1 ? Src0s : Src1s;
		auto MatchesSecond = [&BPP](std::pair<SDValue, unsigned> IterElt) {
		return IterElt.first == *BPP.second.Src;
		};
		auto Match = std::find_if(Srcs.begin(), Srcs.end(), MatchesSecond);
		arsenmUnsubmitted Done Reply Inline Actions is_contained arsenm: is_contained
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions We use the found value here jrbyrnes: We use the found value here
		if (Match != Srcs.end()) {
		Match->second = addPermMasks(SecondMask, Match->second);
		} else
		Srcs.push_back({*BPP.second.Src, SecondMask});
		return;
		}
		}

		// If we have made it here, then we could not find a match in Src0s or Src1s
		// for either Src0 or Src1, so just place them arbitrarily.

		unsigned ZeroMask = 0x0c0c0c0c;
		unsigned FMask = 0xFF << (8 * (3 - Step));

		Src0s.push_back(
		{Src0.Src, (Src0.SrcOffset << (8 (3 - Step)) \| (ZeroMask & ~FMask))});
		Src1s.push_back(
		{Src1.Src, (Src1.SrcOffset << (8 (3 - Step)) \| (ZeroMask & ~FMask))});

		return;
		}

		static SDValue
		resolveSources(SelectionDAG &DAG, SDLoc SL,
		SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs,
		bool IsSigned, bool IsAny) {

		// If we just have one source, just permute it accordingly.
		if (Srcs.size() == 1) {
		auto Elt = Srcs.begin();
		auto EltVal = DAG.getBitcastedAnyExtOrTrunc(Elt->first, SL, MVT::i32);

		arsenmUnsubmitted Done Reply Inline Actions maybe comment skipping bswap? arsenm: maybe comment skipping bswap?
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions It's the original SDValue, not bswap. I'll add comment. def : GCNPat < (i32 (bswap i32:$a)), (V_PERM_B32_e64 (i32 0), VSrc_b32:$a, (S_MOV_B32 (i32 0x00010203))) >; jrbyrnes: It's the original SDValue, not bswap. I'll add comment. ``` def : GCNPat < (i32 (bswap i32…
		// v_perm will produce the original value.
		if (Elt->second == 0x3020100)
		return EltVal;

		return DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltVal, EltVal,
		DAG.getConstant(Elt->second, SL, MVT::i32));
		}

		auto FirstElt = Srcs.begin();
		auto SecondElt = std::next(FirstElt);

		SmallVector<SDValue, 2> Perms;

		// If we have multiple sources in the chain, combine them via perms (using
		// calculated perm mask) and Ors.
		while (true) {
		auto FirstMask = FirstElt->second;
		auto SecondMask = SecondElt->second;

		unsigned FirstCs = FirstMask & 0x0c0c0c0c;
		unsigned FirstPlusFour = FirstMask \| 0x04040404;
		// 0x0c + 0x04 = 0x10, so anding with 0x0F will produced 0x00 for any
		// original 0x0C.
		FirstMask = (FirstPlusFour & 0x0F0F0F0F) \| FirstCs;

		auto PermMask = addPermMasks(FirstMask, SecondMask);
		auto FirstVal =
		DAG.getBitcastedAnyExtOrTrunc(FirstElt->first, SL, MVT::i32);
		auto SecondVal =
		DAG.getBitcastedAnyExtOrTrunc(SecondElt->first, SL, MVT::i32);

		Perms.push_back(DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, FirstVal,
		SecondVal,
		DAG.getConstant(PermMask, SL, MVT::i32)));

		FirstElt = std::next(SecondElt);
		if (FirstElt == Srcs.end())
		break;

		SecondElt = std::next(FirstElt);
		// If we only have a FirstElt, then just combine that into the cumulative
		// source node.
		if (SecondElt == Srcs.end()) {
		auto EltVal =
		DAG.getBitcastedAnyExtOrTrunc(FirstElt->first, SL, MVT::i32);

		Perms.push_back(
		DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltVal, EltVal,
		DAG.getConstant(FirstElt->second, SL, MVT::i32)));
		break;
		}
		}
		arsenmUnsubmitted Done Reply Inline Actions 1 \|\| == 2? arsenm: == 1 \|\| == 2?

		assert(Perms.size() == 1 \|\| Perms.size() == 2);
		return Perms.size() == 2
		? DAG.getNode(ISD::OR, SL, MVT::i32, Perms[0], Perms[1])
		: Perms[0];
		}

		static void fixMasks(SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs,
		arsenmUnsubmitted Done Reply Inline Actions auto &[Something, Mask] : ? arsenm: auto &[Something, Mask] : ?
		unsigned ChainLength) {
		for (auto &[EntryVal, EntryMask] : Srcs) {
		EntryMask = EntryMask >> ((4 - ChainLength) * 8);
		auto ZeroMask = ChainLength == 2 ? 0x0c0c0000 : 0x0c000000;
		EntryMask += ZeroMask;
		}
		}

		static bool isMul(const SDValue Op) {
		auto Opcode = Op.getOpcode();

		return (Opcode == ISD::MUL \|\| Opcode == AMDGPUISD::MUL_U24 \|\|
		Opcode == AMDGPUISD::MUL_I24);
		}

		static std::optional<bool> checkSignedness(const SDValue &N,
		ByteProvider<SDValue> &Src0,
		ByteProvider<SDValue> &Src1) {
		auto MulOpcode = N.getOpcode();
		std::optional<bool> IterIsSigned;
		// Both sides of the tree must have the same signedness semantics.
		if ((Src0.IsSigned != Src1.IsSigned) \|\|
		(Src0.IsSigned.value_or(false) != Src1.IsSigned.value_or(false)))
		arsenmUnsubmitted Done Reply Inline Actions I thought we combined the mul24 intrinsics to the nodes specifically so you don't need to do this arsenm: I thought we combined the mul24 intrinsics to the nodes specifically so you don't need to do…
		return IterIsSigned;
		// If we have a MUL_U24 op with signed semantics, then fail.
		bcahoonUnsubmitted Done Reply Inline Actions I think the check includes any extend (or unknown?) as well as signed? Maybe say, If we have MUL_u24 without unsigned semantics, then fail. bcahoon: I think the check includes any extend (or unknown?) as well as signed? Maybe say, If we have…
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions This check is checking for conflicting signedness semantics. In the case where we don't have signedness info from the ByteProvider, the signedness is irrelevant so we should say it doesn't conflict. In the case where we don't have signedness information, then two things could have occurred: We are accumulating into 8 bit register, and have not done any extensions. In this case, the upper bits are irrelevant, and we may use either version of the dot. We have exclusively used any_extends. Same as case 1, the upper bits are irrelevant. There is a third scenario which I have accounted for in the latest version. Previously, we would not have signedness info if we encountered an unhandled node (MemIntrinsic / AtomicSDNode). However, in this case, the upper bits may be relevant. Thus, instead of throwing away signedness info in this situations, we now fail. jrbyrnes: This check is checking for conflicting signedness semantics. In the case where we don't have…
		if (Src0.IsSigned.value_or(false) && MulOpcode == AMDGPUISD::MUL_U24)
		return IterIsSigned;
		// If we have a MUL_I24 op with unsigned semantics, then fail.
		if (!Src0.IsSigned.value_or(true) && MulOpcode == AMDGPUISD::MUL_I24)
		bcahoonUnsubmitted Done Reply Inline Actions BTW, is this the same as : if (!Src0.IsSigned.value_or(false) && MulOpcode == AMDGPUISD::MUL_I24) bcahoon: BTW, is this the same as : if (!Src0.IsSigned.value_or(false) && MulOpcode == AMDGPUISD…
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions Right nice catch -- except we should not fail if we don't have signedness info. jrbyrnes: Right nice catch -- except we should not fail if we don't have signedness info.
		return IterIsSigned;

		bool TopLevelSignedness =
		MulOpcode == AMDGPUISD::MUL_I24 \|\|
		(MulOpcode == ISD::MUL && N.getNode()->getFlags().hasNoSignedWrap() &&
		!N.getNode()->getFlags().hasNoUnsignedWrap());

		// In cases where we are accumulating into an i8 (for v_dot4), the
		// ByteProvider will not have signedness info since the MSBs are dont-cares.
		// In this case, we simply use the TopLevelSignedness of the instruction.
		IterIsSigned = Src0.IsSigned.value_or(TopLevelSignedness);
		return IterIsSigned;
		}

SDValue SITargetLowering::performAddCombine(SDNode *N,		SDValue SITargetLowering::performAddCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDLoc SL(N);		SDLoc SL(N);
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);

if (LHS.getOpcode() == ISD::MUL \|\| RHS.getOpcode() == ISD::MUL) {		if (LHS.getOpcode() == ISD::MUL \|\| RHS.getOpcode() == ISD::MUL) {
if (Subtarget->hasMad64_32()) {		if (Subtarget->hasMad64_32()) {
if (SDValue Folded = tryFoldToMad64_32(N, DCI))		if (SDValue Folded = tryFoldToMad64_32(N, DCI))
return Folded;		return Folded;
}		}

return SDValue();
}		}

if (SDValue V = reassociateScalarOps(N, DAG)) {		if (SDValue V = reassociateScalarOps(N, DAG)) {
return V;		return V;
}		}

		if ((isMul(LHS) \|\| isMul(RHS)) && Subtarget->hasDot7Insts() &&
		(Subtarget->hasDot1Insts() \|\| Subtarget->hasDot8Insts())) {
		arsenmUnsubmitted Done Reply Inline Actions Don't know why we have getSubtarget, you can just use Subtarget-> directly arsenm: Don't know why we have getSubtarget, you can just use Subtarget-> directly
		SDValue TempNode(N, 0);
		std::optional<bool> IsSigned;
		SmallVector<std::pair<SDValue, unsigned>, 4> Src0s;
		SmallVector<std::pair<SDValue, unsigned>, 4> Src1s;
		SmallVector<SDValue, 4> Src2s;

		// Match the v_dot4 tree, while collecting src nodes.
		arsenmUnsubmitted Done Reply Inline Actions SDValue TempNode(N, 0) arsenm: SDValue TempNode(N, 0)
		int ChainLength = 0;
		for (int I = 0; I < 4; I++) {
		auto MulIdx = isMul(LHS) ? 0 : isMul(RHS) ? 1 : -1;
		if (MulIdx == -1)
		break;
		arsenmUnsubmitted Done Reply Inline Actions Don't understand what you are doing with this opcode to index check arsenm: Don't understand what you are doing with this opcode to index check
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions It is a convenience which allows getting the mul operand without having to do operand checks every time. jrbyrnes: It is a convenience which allows getting the mul operand without having to do operand checks…
		auto Src0 = handleMulOperand(TempNode->getOperand(MulIdx)->getOperand(0));
		if (!Src0)
		break;
		auto Src1 = handleMulOperand(TempNode->getOperand(MulIdx)->getOperand(1));
		if (!Src1)
		break;

		auto IterIsSigned =
		checkSignedness(TempNode->getOperand(MulIdx), Src0, Src1);
		if (!IterIsSigned)
		break;
		if (!IsSigned)
		IsSigned = *IterIsSigned;
		if (IterIsSigned != IsSigned)
		break;
		placeSources(Src0, Src1, Src0s, Src1s, I);
		auto AddIdx = 1 - MulIdx;
		// Allow the special case where add (add (mul24, 0), mul24) became ->
		// add (mul24, mul24).
		if (I == 2 && isMul(TempNode->getOperand(AddIdx))) {
		Src2s.push_back(TempNode->getOperand(AddIdx));
		auto Src0 =
		handleMulOperand(TempNode->getOperand(AddIdx)->getOperand(0));
		if (!Src0)
		break;
		arsenmUnsubmitted Done Reply Inline Actions Don't need has_value() arsenm: Don't need has_value()
		auto Src1 =
		arsenmUnsubmitted Done Reply Inline Actions extra parens arsenm: extra parens
		handleMulOperand(TempNode->getOperand(AddIdx)->getOperand(1));
		if (!Src1)
		break;
		auto IterIsSigned =
		checkSignedness(TempNode->getOperand(AddIdx), Src0, Src1);
		if (!IterIsSigned)
		break;
		assert(IsSigned);
		if (IterIsSigned != IsSigned)
		break;
		placeSources(Src0, Src1, Src0s, Src1s, I + 1);
		Src2s.push_back(DAG.getConstant(0, SL, MVT::i32));
		ChainLength = I + 2;
		break;
		}

		arsenmUnsubmitted Done Reply Inline Actions Don't need has_value arsenm: Don't need has_value
		TempNode = TempNode->getOperand(AddIdx);
		Src2s.push_back(TempNode);
		ChainLength = I + 1;
		if (TempNode->getNumOperands() < 2)
		break;
		LHS = TempNode->getOperand(0);
		RHS = TempNode->getOperand(1);
		}

		if (ChainLength < 2)
		return SDValue();

		// Masks were constructed with assumption that we would find a chain of
		// length 4. If not, then we need to 0 out the MSB bits (via perm mask of
		// 0x0c) so they do not affect dot calculation.
		if (ChainLength < 4) {
		fixMasks(Src0s, ChainLength);
		fixMasks(Src1s, ChainLength);
		}

		SDValue Src0, Src1;

		// If we are just using a single source for both, and have permuted the
		// bytes consistently, we can just use the sources without permuting
		// (commutation).
		bool UseOriginalSrc = false;
		if (ChainLength == 4 && Src0s.size() == 1 && Src1s.size() == 1 &&
		Src0s.begin()->second == Src1s.begin()->second &&
		Src0s.begin()->first.getValueSizeInBits() == 32 &&
		Src1s.begin()->first.getValueSizeInBits() == 32) {
		SmallVector<unsigned, 4> SrcBytes;
		auto Src0Mask = Src0s.begin()->second;
		SrcBytes.push_back(Src0Mask & 0xFF000000);
		bool UniqueEntries = true;
		for (auto I = 1; I < 4; I++) {
		auto NextByte = Src0Mask & (0xFF << ((3 - I) * 8));

		if (is_contained(SrcBytes, NextByte)) {
		UniqueEntries = false;
		break;
		}
		SrcBytes.push_back(NextByte);
		}

		if (UniqueEntries) {
		arsenmUnsubmitted Done Reply Inline Actions is_contained arsenm: is_contained
		UseOriginalSrc = true;
		// Must be 32 bits to enter above conditional.
		assert(Src0s.begin()->first.getValueSizeInBits() == 32);
		assert(Src1s.begin()->first.getValueSizeInBits() == 32);
		Src0 = DAG.getBitcast(MVT::getIntegerVT(32), Src0s.begin()->first);
		Src1 = DAG.getBitcast(MVT::getIntegerVT(32), Src1s.begin()->first);
		}
		}

		if (!UseOriginalSrc) {
		Src0 = resolveSources(DAG, SL, Src0s, false, true);
		Src1 = resolveSources(DAG, SL, Src1s, false, true);
		}

		assert(IsSigned);
		SDValue Src2 =
		DAG.getExtOrTrunc(*IsSigned, Src2s[ChainLength - 1], SL, MVT::i32);

		SDValue IID = DAG.getTargetConstant(*IsSigned ? Intrinsic::amdgcn_sdot4
		: Intrinsic::amdgcn_udot4,
		SL, MVT::i64);

		assert(!VT.isVector());
		auto Dot = DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SL, MVT::i32, IID, Src0,
		Src1, Src2, DAG.getTargetConstant(0, SL, MVT::i1));
		arsenmUnsubmitted Done Reply Inline Actions use deleted_node instead of optional opcode arsenm: use deleted_node instead of optional opcode

		arsenmUnsubmitted Done Reply Inline Actions Can you avoid generation checks? arsenm: Can you avoid generation checks?
		return DAG.getExtOrTrunc(*IsSigned, Dot, SL, VT);
		}

if (VT != MVT::i32 \|\| !DCI.isAfterLegalizeDAG())		if (VT != MVT::i32 \|\| !DCI.isAfterLegalizeDAG())
return SDValue();		return SDValue();

		arsenmUnsubmitted Done Reply Inline Actions Can you go through the intrinsics instead of going straight to the machine node? arsenm: Can you go through the intrinsics instead of going straight to the machine node?
// add x, zext (setcc) => uaddo_carry x, 0, setcc		// add x, zext (setcc) => uaddo_carry x, 0, setcc
// add x, sext (setcc) => usubo_carry x, 0, setcc		// add x, sext (setcc) => usubo_carry x, 0, setcc
		arsenmUnsubmitted Done Reply Inline Actions DAG.getTargetConstant(IsSigned ? Intrinsic::amdgcn_sdot4 : Intrinsic::amdgcn_udot4, SL, MVT::i32) arsenm: DAG.getTargetConstant(IsSigned ? Intrinsic::amdgcn_sdot4 : Intrinsic::amdgcn_udot4, SL, MVT…
unsigned Opc = LHS.getOpcode();		unsigned Opc = LHS.getOpcode();
if (Opc == ISD::ZERO_EXTEND \|\| Opc == ISD::SIGN_EXTEND \|\|		if (Opc == ISD::ZERO_EXTEND \|\| Opc == ISD::SIGN_EXTEND \|\|
Opc == ISD::ANY_EXTEND \|\| Opc == ISD::UADDO_CARRY)		Opc == ISD::ANY_EXTEND \|\| Opc == ISD::UADDO_CARRY)
std::swap(RHS, LHS);		std::swap(RHS, LHS);

Opc = RHS.getOpcode();		Opc = RHS.getOpcode();
switch (Opc) {		switch (Opc) {
default: break;		default: break;
▲ Show 20 Lines • Show All 2,298 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot2.ll

	Show First 20 Lines • Show All 2,817 Lines • ▼ Show 20 Lines
	; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: notsdot2_sext8:			; GFX9-DL-LABEL: notsdot2_sext8:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 1, v0
				; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0001
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_ushort v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_ushort v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_ushort v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_ushort v2, v0, s[6:7]
	; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
				; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
				; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v3, sext(v2), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0			; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
	; GFX9-DL-NEXT: v_lshrrev_b16_e32 v1, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b16_e32 v2, 8, v2
	; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v2), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: v_add3_u32 v1, v1, s0, v3			; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s0
	; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: notsdot2_sext8:			; GFX10-DL-LABEL: notsdot2_sext8:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
				; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: s_clause 0x1			; GFX10-DL-NEXT: s_clause 0x1
	; GFX10-DL-NEXT: global_load_ushort v1, v0, s[4:5]			; GFX10-DL-NEXT: global_load_ushort v1, v0, s[4:5]
	; GFX10-DL-NEXT: global_load_ushort v2, v0, s[6:7]			; GFX10-DL-NEXT: global_load_ushort v2, v0, s[6:7]
	; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0			; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX10-DL-NEXT: s_waitcnt vmcnt(1)			; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX10-DL-NEXT: v_lshrrev_b16 v0, 8, v1			; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc0c0001
	; GFX10-DL-NEXT: s_waitcnt vmcnt(0)			; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX10-DL-NEXT: v_lshrrev_b16 v3, 8, v2			; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc0c0001
	; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v2), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
	; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v0, sext(v3), sext(v0) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
	; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-DL-NEXT: v_add3_u32 v0, v0, s2, v1			; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
	; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
				; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
	; GFX10-DL-NEXT: s_endpgm			; GFX10-DL-NEXT: s_endpgm
	ptr addrspace(1) %src2,			ptr addrspace(1) %src2,
	ptr addrspace(1) nocapture %dst) {			ptr addrspace(1) nocapture %dst) {
	entry:			entry:
	%idx = call i32 @llvm.amdgcn.workitem.id.x()			%idx = call i32 @llvm.amdgcn.workitem.id.x()
	%gep1 = getelementptr <2 x i8>, ptr addrspace(1) %src1, i32 %idx			%gep1 = getelementptr <2 x i8>, ptr addrspace(1) %src1, i32 %idx
	%vec1 = load <2 x i8>, ptr addrspace(1) %gep1			%vec1 = load <2 x i8>, ptr addrspace(1) %gep1
	%gep2 = getelementptr <2 x i8>, ptr addrspace(1) %src2, i32 %idx			%gep2 = getelementptr <2 x i8>, ptr addrspace(1) %src2, i32 %idx
	Show All 22 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn -mcpu=gfx700 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX7 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx700 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX7 %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-NODL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-NODL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-DL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx1011 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx1011 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx1012 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx1012 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s
		; RUN: llc -mtriple=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11-DL %s

define amdgpu_kernel void @idot4_acc32(ptr addrspace(1) %src1,		define amdgpu_kernel void @idot4_acc32(ptr addrspace(1) %src1,
; GFX7-LABEL: idot4_acc32:		; GFX7-LABEL: idot4_acc32:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc32:		; GFX10-DL-LABEL: idot4_acc32:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_dot4_i32_i8 v1, v1, v2, s2		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v0, v1, v2
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v1, v0, s2 neg_lo:[1,1,0]
		jrbyrnesAuthorUnsubmitted Done Reply Inline Actions Answering offline question about "neg_lo:[1,1,0]" These tests are introduced via this patch, and the modifier indicates we need signedness semantics for both operands. neg_lo:[1,1,0] was introduced originally by rebasing on top of changes from https://reviews.llvm.org/D158468?vs=552172&id=552466#toc I believe. jrbyrnes: Answering offline question about "neg_lo:[1,1,0]" These tests are introduced via this patch…
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 26 Lines	entry:
%add1 = add i32 %mul1, %acc		%add1 = add i32 %mul1, %acc
%add2 = add i32 %add1, %mul2		%add2 = add i32 %add1, %mul2
%add3 = add i32 %add2, %mul3		%add3 = add i32 %add2, %mul3
%add4 = add i32 %add3, %mul4		%add4 = add i32 %add3, %mul4
store i32 %add4, ptr addrspace(1) %dst, align 4		store i32 %add4, ptr addrspace(1) %dst, align 4
ret void		ret void
}		}

; TODO: Currently, vector elements{0 and 3} get zero_extended from i16 to i32 which should
; be sign_extended directly to i32; prevents the pattern recognizer to recognize this pattern.
define amdgpu_kernel void @idot4_acc16(ptr addrspace(1) %src1,		define amdgpu_kernel void @idot4_acc16(ptr addrspace(1) %src1,
; GFX7-LABEL: idot4_acc16:		; GFX7-LABEL: idot4_acc16:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc16:		; GFX9-DL-LABEL: idot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_sshort v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_bfe_i32 v6, v1, 0, 8
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_bfe_i32 v7, v2, 0, 8
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 8, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 8, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2
; GFX9-DL-NEXT: v_bfe_i32 v8, v8, 0, 8
; GFX9-DL-NEXT: v_bfe_i32 v9, v9, 0, 8
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3		; GFX9-DL-NEXT: v_dot4_i32_i8 v0, v2, v3, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX9-DL-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX9-DL-NEXT: v_bfe_i32 v4, v4, 0, 8
; GFX9-DL-NEXT: v_bfe_i32 v5, v5, 0, 8
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3
; GFX9-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
; GFX9-DL-NEXT: v_bfe_i32 v2, v2, 0, 8
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc16:		; GFX10-DL-LABEL: idot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX10-DL-NEXT: global_load_sshort v4, v1, s[2:3]
; GFX10-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_bfe_i32 v4, v1, 0, 8
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v1
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v2
; GFX10-DL-NEXT: v_bfe_i32 v7, v2, 0, 8
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v1
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GFX10-DL-NEXT: v_bfe_i32 v5, v5, 0, 8
; GFX10-DL-NEXT: v_bfe_i32 v6, v6, 0, 8
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v7, v3		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v4, v2, v3
; GFX10-DL-NEXT: v_bfe_i32 v4, v8, 0, 8		; GFX10-DL-NEXT: global_store_short v1, v4, s[2:3]
; GFX10-DL-NEXT: v_bfe_i32 v7, v9, 0, 8
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_mad_u16 v3, v5, v6, v3
; GFX10-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
; GFX10-DL-NEXT: v_bfe_i32 v2, v2, 0, 8
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v7, v3
; GFX10-DL-NEXT: v_mad_u16 v1, v1, v2, v3
; GFX10-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc16:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_i16 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v2, v0, v3 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b16 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: idot4_acc8:		; GFX9-DL-LABEL: idot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX9-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v6, v7, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v8, v9, v1
; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc8:		; GFX10-DL-LABEL: idot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v4, v2, v3, v4		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v3
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 24, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v0, v5, v4
; GFX10-DL-NEXT: v_mad_u16 v0, v6, v7, v0
; GFX10-DL-NEXT: v_mad_u16 v0, v2, v3, v0
; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]		; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v2, v0, v3
		; GFX11-DL-NEXT: global_store_b8 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_bfe_i32 v3, v1, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v3, v1, 0, 8
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_bfe_i32 v4, v2, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v4, v2, 0, 8
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v6, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX9-DL-NEXT: v_mul_i32_i24_e32 v2, v3, v4
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mad_i32_i24 v3, v3, v4, s0		; GFX9-DL-NEXT: v_mad_i32_i24 v3, v3, v4, s0
; GFX9-DL-NEXT: v_add3_u32 v2, v5, v3, v2		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v1, v2, v3
; GFX9-DL-NEXT: v_add3_u32 v1, v2, v6, v1
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_multiuse_mul1:		; GFX10-DL-LABEL: idot4_multiuse_mul1:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_bfe_i32 v0, v1, 0, 8		; GFX10-DL-NEXT: v_bfe_i32 v0, v1, 0, 8
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_bfe_i32 v3, v2, 0, 8		; GFX10-DL-NEXT: v_bfe_i32 v3, v2, 0, 8
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v4, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX10-DL-NEXT: v_mul_i32_i24_e32 v5, v0, v3
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mad_i32_i24 v0, v0, v3, s2		; GFX10-DL-NEXT: v_mad_i32_i24 v0, v0, v3, s2
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v3, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v0, v1, v2
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
; GFX10-DL-NEXT: v_add3_u32 v0, v4, v0, v5
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v3, v1
; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_multiuse_mul1:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_bfe_i32 v3, v0, 0, 8
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_mad_i32_i24 v2, v2, v3, s2
		; GFX11-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v1, v0, v2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v3, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 28 Lines	entry:
%add2 = add i32 %add1, %mul1		%add2 = add i32 %add1, %mul1
%add3 = add i32 %add2, %mul3		%add3 = add i32 %add2, %mul3
%add4 = add i32 %add3, %mul4		%add4 = add i32 %add3, %mul4

store i32 %add4, ptr addrspace(1) %dst, align 4		store i32 %add4, ptr addrspace(1) %dst, align 4
ret void		ret void
}		}

; TODO: Support this pattern.
define amdgpu_kernel void @idot4_acc32_vecMul(ptr addrspace(1) %src1,		define amdgpu_kernel void @idot4_acc32_vecMul(ptr addrspace(1) %src1,
; GFX7-LABEL: idot4_acc32_vecMul:		; GFX7-LABEL: idot4_acc32_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX9-DL-NEXT: v_lshrrev_b16_e32 v3, 8, v1		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v1, v2, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_lshrrev_b16_e32 v4, 8, v2
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v3, sext(v3), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v6, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_add3_u32 v2, v5, s0, v3
; GFX9-DL-NEXT: v_add3_u32 v1, v2, v6, v1
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: idot4_acc32_vecMul:		; GFX10-DL-LABEL: idot4_acc32_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b16 v0, 8, v1
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_lshrrev_b16 v3, 8, v2
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v4, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v0, sext(v0), sext(v3) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v3, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX10-DL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_add3_u32 v0, v4, s2, v0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, s2
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v3, v1		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v0, v1, v2
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_vecMul:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v1, v0, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 204 Lines • ▼ Show 20 Lines
; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3		; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2		; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5		; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1		; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3		; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]		; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc16_vecMul:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u16 v3, v2, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX11-DL-NEXT: v_ashrrev_i16 v4, 8, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_ashrrev_i16 v5, 8, v0
		; GFX11-DL-NEXT: v_bfe_i32 v6, v0, 0, 8
		; GFX11-DL-NEXT: v_bfe_i32 v7, v1, 0, 8
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v1, 16, v1
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v0, 16, v0
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)
		; GFX11-DL-NEXT: v_perm_b32 v5, v5, v6, 0x5040100
		; GFX11-DL-NEXT: v_perm_b32 v4, v4, v7, 0x5040100
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_4)
		; GFX11-DL-NEXT: v_ashrrev_i16 v6, 8, v1
		; GFX11-DL-NEXT: v_ashrrev_i16 v7, 8, v0
		; GFX11-DL-NEXT: v_bfe_i32 v0, v0, 0, 8
		; GFX11-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
		; GFX11-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_perm_b32 v0, v7, v0, 0x5040100
		; GFX11-DL-NEXT: v_perm_b32 v1, v6, v1, 0x5040100
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_2) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_add_nc_u16 v3, v4, v3
		; GFX11-DL-NEXT: v_pk_mul_lo_u16 v0, v1, v0
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_add_nc_u16 v1, v3, v5
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v0
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v1, v0
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v0, v3
		; GFX11-DL-NEXT: global_store_b16 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 12 Lines	entry:
%add2 = add i16 %add1, %mul1		%add2 = add i16 %add1, %mul1
%add3 = add i16 %add2, %mul2		%add3 = add i16 %add2, %mul2
%add4 = add i16 %add3, %mul3		%add4 = add i16 %add3, %mul3

store i16 %add4, ptr addrspace(1) %dst, align 4		store i16 %add4, ptr addrspace(1) %dst, align 4
ret void		ret void
}		}

		define amdgpu_kernel void @idot4_acc32_2ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_2ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v2, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v3, v0, 0, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v3, s4
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_2ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v3, v3, 8, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v2, v0, 0, 8
		; GFX8-NEXT: v_bfe_i32 v0, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v2, s2
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_2ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v3, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, s0, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_2ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_2ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc0c0100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc0c0100
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
		; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_2ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		store i32 %add2, ptr addrspace(1) %dst, align 4
		ret void
		}


		define amdgpu_kernel void @idot4_acc32_3ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v4, v0, 0, 8
		; GFX7-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_i32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v4, v3, 8, 8
		; GFX8-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v2, v0, 0, 8
		; GFX8-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_bfe_i32 v3, v1, 0, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_bfe_i32 v4, v2, 0, 8
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
		; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		store i32 %add3, ptr addrspace(1) %dst, align 4
		ret void
		}


		define amdgpu_kernel void @idot4_acc32_3ele_permuted(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3ele_permuted:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_ashrrev_i32_e32 v1, 24, v2
		; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_ashrrev_i32_e32 v4, 24, v0
		; GFX7-NEXT: v_bfe_i32 v5, v0, 0, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_i32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3ele_permuted:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_ashrrev_i32_e32 v1, 24, v3
		; GFX8-NEXT: v_bfe_i32 v4, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_ashrrev_i32_e32 v2, 24, v0
		; GFX8-NEXT: v_bfe_i32 v5, v0, 0, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3ele_permuted:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_ashrrev_i32_e32 v3, 24, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_ashrrev_i32_e32 v4, 24, v2
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020003
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020003
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020003
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
		; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020003
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020003
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 3
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 3
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 0
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 0
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		store i32 %add3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_opt(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_opt:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v6, v0, 8, 8
		; GFX7-NEXT: v_bfe_i32 v5, v0, 0, 8
		; GFX7-NEXT: v_mul_i32_i24_e32 v3, v3, v6
		; GFX7-NEXT: v_bfe_i32 v4, v2, 16, 8
		; GFX7-NEXT: v_bfe_i32 v7, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v5, v3
		; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2
		; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_i32_i24 v1, v4, v7, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_opt:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v4, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v7, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v5, v2, 0, 8
		; GFX8-NEXT: v_mul_i32_i24_sdwa v6, sext(v3), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX8-NEXT: v_bfe_i32 v8, v2, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v4, v4, v5, v6
		; GFX8-NEXT: v_ashrrev_i32_e32 v3, 24, v3
		; GFX8-NEXT: v_ashrrev_i32_e32 v2, 24, v2
		; GFX8-NEXT: v_mad_i32_i24 v4, v7, v8, v4
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v2, v4
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_opt:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_bfe_i32 v3, v1, 0, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_bfe_i32 v4, v2, 0, 8
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v6, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_opt:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v1, v2, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_opt:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v0, v1, v2
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_opt:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v1, v0, 0 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <4 x i8> %vec1, i64 3
		%cv1e3 = sext i8 %v1e3 to i32
		%v2e3 = extractelement <4 x i8> %vec2, i64 3
		%cv2e3 = sext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add2 = add i32 %mul1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_3src(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3src:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v1, s0
		; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v6, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v4, v3, v1
		; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2
		; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_i32_i24 v1, v5, v6, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3src:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v1, s0
		; GFX8-NEXT: v_bfe_i32 v5, v3, 16, 8
		; GFX8-NEXT: v_ashrrev_i32_e32 v3, 24, v3
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v2, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v6, v0, 16, 8
		; GFX8-NEXT: v_ashrrev_i32_e32 v0, 24, v0
		; GFX8-NEXT: v_mad_i32_i24 v1, v5, v6, v1
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3src:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[0:1]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[4:5]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v4, sext(v1), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v2, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v3) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v3) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v2, v4, s0, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3src:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x706010c
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc0c0c00
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v3, v1, s1
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3src:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0x706010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c00
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s0
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v1, v3, v0
		; GFX10-DL-NEXT: global_store_dword v2, v1, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3src:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[0:1]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0x706010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c00
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s0 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = sext i8 %v3e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv3e2

		%v1e3 = extractelement <4 x i8> %vec1, i64 3
		%cv1e3 = sext i8 %v1e3 to i32
		%v3e3 = extractelement <4 x i8> %vec3, i64 3
		%cv3e3 = sext i8 %v3e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv3e3

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_3src_3ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3src_3ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v1, s0
		; GFX7-NEXT: v_bfe_i32 v2, v2, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v4, v3, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3src_3ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v1, s0
		; GFX8-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v2, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3src_3ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[0:1]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[4:5]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_bfe_i32 v4, v1, 0, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v2, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v3) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_i32_i24 v3, v4, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, v2, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3src_3ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc06010c
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0c00
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc020100
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s1
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3src_3ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0xc06010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c00
		; GFX10-DL-NEXT: v_perm_b32 v2, v3, v3, 0xc020100
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s0
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v1, v2, v0
		; GFX10-DL-NEXT: global_store_dword v3, v1, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3src_3ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[0:1]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc06010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c00
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s0 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = sext i8 %v3e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv3e2

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		store i32 %add3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_bad_source(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_bad_source:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dword s12, s[0:1], 0xf
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x11
		; GFX7-NEXT: s_sext_i32_i16 s5, s12
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mov_b32_e32 v1, s4
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v3, s5, v1
		; GFX7-NEXT: v_bfe_i32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v4, v5, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_bad_source:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX8-NEXT: s_sext_i32_i16 s2, s2
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v2, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v4, v3, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v2, s2, v1
		; GFX8-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_bad_source:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_sext_i32_i16 s2, s2
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_bfe_i32 v3, v1, 0, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v4, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mov_b32_e32 v2, s3
		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, s2, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v4, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_bad_source:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: s_mov_b32 s4, 0xc0c0201
		; GFX9-DL-NEXT: s_sext_i32_i16 s2, s2
		; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_bfe_i32 v4, v1, 0, 8
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s4
		; GFX9-DL-NEXT: v_mad_i32_i24 v3, v4, s2, v3
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s4
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v1, v2, v3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_bad_source:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: s_sext_i32_i16 s2, s2
		; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_bfe_i32 v0, v1, 0, 8
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v2, v2, v2, 0xc0c0201
		; GFX10-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0201
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mad_i32_i24 v0, v0, s2, s3
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v0, v1, v2
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_bad_source:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x3c
		; GFX11-DL-NEXT: v_dual_mov_b32 v3, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x44
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_sext_i32_i16 s2, s2
		; GFX11-DL-NEXT: s_load_b32 s3, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0201
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0201
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_mad_i32_i24 v2, v2, s2, s3
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v1, v0, v2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v3, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		i16 %badsource,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%other = sext i16 %badsource to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %other

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}


		define amdgpu_kernel void @idot4_commutative(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_commutative:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xf
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v4, v0, 0, 8
		; GFX7-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_bfe_i32 v2, v2, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_commutative:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x3c
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v4, v3, 8, 8
		; GFX8-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v2, v0, 0, 8
		; GFX8-NEXT: v_bfe_i32 v5, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_commutative:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x3c
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_bfe_i32 v3, v1, 0, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_bfe_i32 v4, v2, 0, 8
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v5, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_i32_i24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_commutative:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x3c
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_commutative:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x3c
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
		; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_commutative:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x3c
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = sext i8 %v1e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_3src_3ele_src0(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v2, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v4, v2, v2, s0
		; GFX7-NEXT: v_bfe_i32 v3, v3, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v2, v4
		; GFX7-NEXT: v_mad_i32_i24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_bfe_i32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v1, v4, 8, 8
		; GFX8-NEXT: v_bfe_i32 v3, v4, 16, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v4, v1, v1, s0
		; GFX8-NEXT: v_mad_i32_i24 v1, v2, v1, v4
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_i32_i24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_bfe_i32 v4, v1, 8, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v2, sext(v3), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_i32_i24 v3, v4, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, v2, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[0:1]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[2:3]
		; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc06010c
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0c01
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc020101
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v2, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s1
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v2, v1, s3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[2:3]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v2, 0xc06010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c01
		; GFX10-DL-NEXT: v_perm_b32 v2, v3, v3, 0xc020101
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, s0
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v1, v2, v0
		; GFX10-DL-NEXT: global_store_dword v3, v1, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3src_3ele_src0:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[2:3]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v2, 0xc06010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c01
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020101
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v1, s0 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v2e0 = extractelement <4 x i8> %vec2, i64 1
		%cv2e0 = sext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv2e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = sext i8 %v3e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = sext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv2e2, %cv3e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_4src(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_4src:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s3
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[6:7]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[8:9]
		; GFX7-NEXT: buffer_load_dword v4, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[10:11]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x11
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_waitcnt vmcnt(3)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v2, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_bfe_i32 v5, v3, 0, 8
		; GFX7-NEXT: v_bfe_i32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_i32_i24 v1, v1, v2, s4
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v2, v4, 0, 8
		; GFX7-NEXT: v_bfe_i32 v4, v4, 8, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v5, v3, v1
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_i32 v3, v0, 0, 8
		; GFX7-NEXT: v_bfe_i32 v0, v0, 8, 8
		; GFX7-NEXT: v_mad_i32_i24 v1, v2, v4, v1
		; GFX7-NEXT: v_mad_i32_i24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_4src:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s9
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s8, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v5, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s11
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s10, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(3)
		; GFX8-NEXT: v_bfe_i32 v1, v3, 0, 8
		; GFX8-NEXT: v_bfe_i32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_i32_i24 v1, v1, v2, s2
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_bfe_i32 v3, v4, 0, 8
		; GFX8-NEXT: v_bfe_i32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v3, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_i32 v6, v5, 0, 8
		; GFX8-NEXT: v_bfe_i32 v5, v5, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v1, v6, v5, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_i32 v7, v0, 0, 8
		; GFX8-NEXT: v_bfe_i32 v0, v0, 8, 8
		; GFX8-NEXT: v_mad_i32_i24 v2, v7, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_4src:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX9-NODL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(3)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v1, sext(v1), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v2, sext(v2), sext(v2) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v3, sext(v3), sext(v3) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_i32_i24_sdwa v4, sext(v4), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v1, v1, s2, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v1, v3, v4
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_4src:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc0c0501
		; GFX9-DL-NEXT: s_mov_b32 s3, 0x5010c0c
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX9-DL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX9-DL-NEXT: s_mov_b32 s4, 0xc0c0400
		; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s5, 0x4000c0c
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-DL-NEXT: v_perm_b32 v5, v2, v1, s2
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s4
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v6, v4, v3, s3
		; GFX9-DL-NEXT: v_perm_b32 v2, v4, v3, s5
		; GFX9-DL-NEXT: v_or_b32_e32 v3, v6, v5
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v2, v1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_i32_i8 v1, v1, v3, s6
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_4src:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x3
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX10-DL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0xc0c0501
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc0c0400
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v5, v4, v3, 0x5010c0c
		; GFX10-DL-NEXT: v_perm_b32 v2, v4, v3, 0x4000c0c
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v5, v0
		; GFX10-DL-NEXT: v_or_b32_e32 v1, v2, v1
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, s2
		; GFX10-DL-NEXT: v_dot4c_i32_i8_e32 v2, v1, v0
		; GFX10-DL-NEXT: global_store_dword v3, v2, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_4src:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[4:11], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x44
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x3
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v3, v0, s[8:9]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[10:11]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX11-DL-NEXT: v_perm_b32 v4, v2, v1, 0xc0c0501
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc0c0400
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v5, v0, v3, 0x5010c0c
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v3, 0x4000c0c
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v2, v5, v4
		; GFX11-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX11-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2)
		; GFX11-DL-NEXT: v_dot4_i32_iu8 v0, v0, v2, s2 neg_lo:[1,1,0]
		; GFX11-DL-NEXT: global_store_b32 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) %src4,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()

		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3
		%gep4 = getelementptr <4 x i8>, ptr addrspace(1) %src4, i32 %idx
		%vec4 = load <4 x i8>, ptr addrspace(1) %gep4


		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = sext i8 %v1e0 to i32
		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = sext i8 %v1e1 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e1

		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = sext i8 %v2e0 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = sext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv2e0, %cv2e1

		%v3e0 = extractelement <4 x i8> %vec3, i64 0
		%cv3e0 = sext i8 %v3e0 to i32
		%v3e1 = extractelement <4 x i8> %vec3, i64 1
		%cv3e1 = sext i8 %v3e1 to i32
		%mul3 = mul nuw nsw i32 %cv3e0, %cv3e1

		%v4e0 = extractelement <4 x i8> %vec4, i64 0
		%cv4e0 = sext i8 %v4e0 to i32
		%v4e1 = extractelement <4 x i8> %vec4, i64 1
		%cv4e1 = sext i8 %v4e1 to i32
		%mul4 = mul nuw nsw i32 %cv4e0, %cv4e1


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3
		%mad4 = add i32 %mad3, %mul4

		store i32 %mad4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_nonstandard_signed(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_nonstandard_signed:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_i32 v1, v2, 0, 8
		; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
		; GFX7-NEXT: v_bfe_i32 v4, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX7-NEXT: v_mul_u32_u24_e32 v1, v1, v5
		; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2
		; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
		; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
		; GFX7-NEXT: v_mad_u32_u24 v1, v6, v3, v1
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v7, v4, v1
		; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 16
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_nonstandard_signed:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_lshrrev_b32_e32 v7, 8, v3
		; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v3
		; GFX8-NEXT: v_bfe_i32 v7, v7, 0, 8
		; GFX8-NEXT: v_bfe_i32 v5, v5, 0, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v2
		; GFX8-NEXT: v_mul_lo_u16_sdwa v6, sext(v3), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX8-NEXT: v_and_b32_e32 v8, 0xff, v8
		; GFX8-NEXT: v_and_b32_sdwa v4, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX8-NEXT: v_mad_u16 v6, v8, v7, v6
		; GFX8-NEXT: v_bfe_i32 v3, v3, 0, 8
		; GFX8-NEXT: v_mad_u16 v4, v4, v5, v6
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4
		; GFX8-NEXT: v_bfe_i32 v2, v2, 0, 16
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_nonstandard_signed:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v5, 8, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v2
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
		; GFX9-NODL-NEXT: v_mul_lo_u16_sdwa v4, sext(v1), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_bfe_i32 v5, v5, 0, 8
		; GFX9-NODL-NEXT: v_and_b32_e32 v6, 0xff, v6
		; GFX9-NODL-NEXT: v_and_b32_sdwa v7, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX9-NODL-NEXT: v_bfe_i32 v3, v3, 0, 8
		; GFX9-NODL-NEXT: v_mad_legacy_u16 v4, v6, v5, v4
		; GFX9-NODL-NEXT: v_bfe_i32 v1, v1, 0, 8
		; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v7, v3, v4
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
		; GFX9-NODL-NEXT: v_bfe_i32 v1, v1, 0, 16
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_nonstandard_signed:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v2
		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
		; GFX9-DL-NEXT: v_mul_lo_u16_sdwa v4, sext(v1), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-DL-NEXT: v_bfe_i32 v5, v5, 0, 8
		; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
		; GFX9-DL-NEXT: v_and_b32_sdwa v7, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX9-DL-NEXT: v_bfe_i32 v3, v3, 0, 8
		; GFX9-DL-NEXT: v_mad_legacy_u16 v4, v6, v5, v4
		; GFX9-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
		; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v7, v3, v4
		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
		; GFX9-DL-NEXT: v_bfe_i32 v1, v1, 0, 16
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_nonstandard_signed:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v6, 0xff
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_bfe_i32 v0, v1, 0, 8
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_and_b32_e32 v3, 0xff, v2
		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v1
		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v2
		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v1
		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX10-DL-NEXT: v_mul_lo_u16 v0, v0, v3
		; GFX10-DL-NEXT: v_bfe_i32 v3, v4, 0, 8
		; GFX10-DL-NEXT: v_and_b32_e32 v4, 0xff, v5
		; GFX10-DL-NEXT: v_and_b32_sdwa v5, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
		; GFX10-DL-NEXT: v_bfe_i32 v6, v7, 0, 8
		; GFX10-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX10-DL-NEXT: v_mad_u16 v0, v4, v3, v0
		; GFX10-DL-NEXT: v_mad_u16 v0, v5, v6, v0
		; GFX10-DL-NEXT: v_mad_u16 v0, v1, v2, v0
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX10-DL-NEXT: v_bfe_i32 v0, v0, 0, 16
		; GFX10-DL-NEXT: global_store_dword v1, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_nonstandard_signed:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_bfe_i32 v2, v1, 0, 8
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v1
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v0
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v1
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v0
		; GFX11-DL-NEXT: v_mul_lo_u16 v2, v2, v3
		; GFX11-DL-NEXT: v_bfe_i32 v3, v4, 0, 8
		; GFX11-DL-NEXT: v_and_b32_e32 v4, 0xff, v5
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX11-DL-NEXT: v_bfe_i32 v5, v6, 0, 8
		; GFX11-DL-NEXT: v_and_b32_e32 v6, 0xff, v7
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX11-DL-NEXT: v_mad_u16 v2, v4, v3, v2
		; GFX11-DL-NEXT: v_bfe_i32 v1, v1, 0, 8
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_mad_u16 v2, v6, v5, v2
		; GFX11-DL-NEXT: v_mad_u16 v0, v1, v0, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2)
		; GFX11-DL-NEXT: v_bfe_i32 v0, v0, 0, 16
		; GFX11-DL-NEXT: global_store_b32 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%v1e0e = sext i8 %v1e0 to i16
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%v2e0e = zext i8 %v2e0 to i16
		%mul0 = mul nsw i16 %v1e0e, %v2e0e
		%add0 = add i16 %mul0, 0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%v1e1e = sext i8 %v1e1 to i16
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%v2e1e = zext i8 %v2e1 to i16
		%mul1 = mul nsw i16 %v2e1e, %v1e1e
		%add1 = add i16 %mul1, %add0
		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%v1e2e = sext i8 %v1e2 to i16
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%v2e2e = zext i8 %v2e2 to i16
		%mul2 = mul nsw i16 %v2e2e, %v1e2e
		%add2 = add i16 %mul2, %add1
		%v1e3 = extractelement <4 x i8> %vec1, i64 3
		%v1e3e = sext i8 %v1e3 to i16
		%v2e3 = extractelement <4 x i8> %vec2, i64 3
		%v2e3e = zext i8 %v2e3 to i16
		%mul3 = mul nsw i16 %v1e3e, %v2e3e
		%add3 = add i16 %mul3, %add2
		%res = sext i16 %add3 to i32
		store i32 %res, ptr addrspace(1) %dst, align 4
		ret void
		}


declare i32 @llvm.amdgcn.workitem.id.x()		declare i32 @llvm.amdgcn.workitem.id.x()

llvm/test/CodeGen/AMDGPU/idot4u.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn -mcpu=gfx700 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX7 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx700 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX7 %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-NODL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-NODL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx906 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9-DL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx1011 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx1011 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx1012 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx1012 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10-DL %s
		; RUN: llc -mtriple=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11-DL %s

define amdgpu_kernel void @udot4_acc32(ptr addrspace(1) %src1,		define amdgpu_kernel void @udot4_acc32(ptr addrspace(1) %src1,
; GFX7-LABEL: udot4_acc32:		; GFX7-LABEL: udot4_acc32:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s2		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s2
; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]		; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc16:		; GFX9-DL-LABEL: udot4_acc16:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_ushort v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xff, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xff, v7
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-DL-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc16:		; GFX10-DL-LABEL: udot4_acc16:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v8, 0xff		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX10-DL-NEXT: global_load_ushort v4, v1, s[2:3]
; GFX10-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_and_b32_e32 v4, 0xff, v1
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v1
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v2
; GFX10-DL-NEXT: v_and_b32_e32 v7, 0xff, v2
; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xff, v5
; GFX10-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v7, v3		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX10-DL-NEXT: v_and_b32_sdwa v4, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-DL-NEXT: global_store_short v1, v0, s[2:3]
; GFX10-DL-NEXT: v_and_b32_sdwa v7, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_mad_u16 v3, v5, v6, v3
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v7, v3
; GFX10-DL-NEXT: v_mad_u16 v1, v1, v2, v3
; GFX10-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc16:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u16 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v2, v0, v3
		; GFX11-DL-NEXT: global_store_b16 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_acc8:		; GFX9-DL-LABEL: udot4_acc8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX9-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v6, v7, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v4, v5, v1
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v8, v9, v1
; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc8:		; GFX10-DL-LABEL: udot4_acc8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v4, v2, v3, v4		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v2, v3, v4
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v3
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 24, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v0, v5, v4
; GFX10-DL-NEXT: v_mad_u16 v0, v6, v7, v0
; GFX10-DL-NEXT: v_mad_u16 v0, v2, v3, v0
; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]		; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v2, v0, v3
		; GFX11-DL-NEXT: global_store_b8 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 19 Lines	entry:
%mad2 = add i8 %mad1, %mul2		%mad2 = add i8 %mad1, %mul2
%mad3 = add i8 %mad2, %mul3		%mad3 = add i8 %mad2, %mul3
%mad4 = add i8 %mad3, %mul4		%mad4 = add i8 %mad3, %mul4

store i8 %mad4, ptr addrspace(1) %dst, align 2		store i8 %mad4, ptr addrspace(1) %dst, align 2
ret void		ret void
}		}

; TODO: Generate udot4?
define amdgpu_kernel void @udot2_8(ptr addrspace(1) %src1,		define amdgpu_kernel void @udot2_8(ptr addrspace(1) %src1,
; GFX7-LABEL: udot2_8:		; GFX7-LABEL: udot2_8:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_byte v1, v0, s[2:3]		; GFX9-NODL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot2_8:		; GFX9-DL-LABEL: udot2_8:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc0c0100
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)		; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v2, v2, v3, v4		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
; GFX9-DL-NEXT: v_mad_legacy_u16 v0, v0, v5, v2		; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot2_8:		; GFX10-DL-LABEL: udot2_8:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX10-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)		; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2		; GFX10-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0100
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3		; GFX10-DL-NEXT: v_perm_b32 v2, v2, v2, 0xc0c0100
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v2, v2, v3, v4		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v0, v5, v2		; GFX10-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot2_8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v2, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, v3
		; GFX11-DL-NEXT: global_store_b8 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationInsideMAD:		; GFX9-DL-LABEL: udot4_CommutationInsideMAD:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v2, v1, v3		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v3, v2, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX9-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v7, v6, v1
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v5, v4, v1
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v9, v8, v1
; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationInsideMAD:		; GFX10-DL-LABEL: udot4_CommutationInsideMAD:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v4, v3, v2, v4		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v3, v2, v4
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v6, 16, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v3
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 24, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v5, v0, v4
; GFX10-DL-NEXT: v_mad_u16 v0, v7, v6, v0
; GFX10-DL-NEXT: v_mad_u16 v0, v3, v2, v0
; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]		; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_CommutationInsideMAD:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v2, v3
		; GFX11-DL-NEXT: global_store_b8 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 19 Lines	entry:
%mad2 = add i8 %mul2, %mad1		%mad2 = add i8 %mul2, %mad1
%mad3 = add i8 %mul3, %mad2		%mad3 = add i8 %mul3, %mad2
%mad4 = add i8 %mul4, %mad3		%mad4 = add i8 %mul4, %mad3

store i8 %mad4, ptr addrspace(1) %dst, align 2		store i8 %mad4, ptr addrspace(1) %dst, align 2
ret void		ret void
}		}

; TODO: Support commutation accross the adds.
define amdgpu_kernel void @udot4_CommutationAccrossMADs(ptr addrspace(1) %src1,		define amdgpu_kernel void @udot4_CommutationAccrossMADs(ptr addrspace(1) %src1,
; GFX7-LABEL: udot4_CommutationAccrossMADs:		; GFX7-LABEL: udot4_CommutationAccrossMADs:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX9-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v7, v6, v3		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v3, v2, v4
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v2		; GFX9-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v1
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v2, v1, v3
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v5, v4, v1
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v9, v8, v1
; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:		; GFX10-DL-LABEL: udot4_CommutationAccrossMADs:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v3, v0, s[6:7]
; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]		; GFX10-DL-NEXT: global_load_ubyte v4, v1, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v0, 8, v2
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v3
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v0, v5, v0, v4		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v3, v2, v4
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v3, v2, v0
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 24, v3
; GFX10-DL-NEXT: v_mad_u16 v0, v5, v4, v0
; GFX10-DL-NEXT: v_mad_u16 v0, v3, v2, v0
; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]		; GFX10-DL-NEXT: global_store_byte v1, v0, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_CommutationAccrossMADs:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_dual_mov_b32 v1, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v1, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v2, v3
		; GFX11-DL-NEXT: global_store_b8 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_and_b32_e32 v3, 0xff, v1		; GFX9-DL-NEXT: v_and_b32_e32 v3, 0xff, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v2		; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v2
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX9-DL-NEXT: v_mul_u32_u24_e32 v2, v3, v4
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v3, v3, v4, s0		; GFX9-DL-NEXT: v_mad_u32_u24 v3, v3, v4, s0
; GFX9-DL-NEXT: v_add3_u32 v2, v5, v3, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
; GFX9-DL-NEXT: v_add3_u32 v1, v2, v6, v1
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_multiuse_mul1:		; GFX10-DL-LABEL: udot4_multiuse_mul1:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_and_b32_e32 v0, 0xff, v1		; GFX10-DL-NEXT: v_and_b32_e32 v0, 0xff, v1
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_and_b32_e32 v3, 0xff, v2		; GFX10-DL-NEXT: v_and_b32_e32 v3, 0xff, v2
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v4, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX10-DL-NEXT: v_mul_u32_u24_e32 v5, v0, v3
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, v3, s2		; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, v3, s2
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
; GFX10-DL-NEXT: v_add3_u32 v0, v4, v0, v5
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v3, v1
; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_multiuse_mul1:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_and_b32_e32 v2, 0xff, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_mad_u32_u24 v2, v2, v3, s2
		; GFX11-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, v2
		; GFX11-DL-NEXT: global_store_b32 v3, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 137 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_bfe_u32 v4, v1, 8, 8		; GFX9-DL-NEXT: s_add_i32 s1, s0, s0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_bfe_u32 v5, v2, 8, 8		; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s0
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2		; GFX9-DL-NEXT: v_add3_u32 v1, s1, v3, v1
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_mad_u32_u24 v2, v4, v5, s0
; GFX9-DL-NEXT: v_add_u32_e32 v4, s0, v2
; GFX9-DL-NEXT: v_add3_u32 v2, v2, v3, v6
; GFX9-DL-NEXT: v_add3_u32 v1, v2, v1, v4
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_multiuse_add1:		; GFX10-DL-LABEL: udot4_multiuse_add1:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_bfe_u32 v0, v1, 8, 8
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_bfe_u32 v3, v2, 8, 8		; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v0, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v4, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, v3, s2		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s2
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2		; GFX10-DL-NEXT: s_add_i32 s2, s2, s2
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
; GFX10-DL-NEXT: v_add_nc_u32_e32 v2, s2, v0		; GFX10-DL-NEXT: v_add3_u32 v0, s2, v0, v1
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v4, v3		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v1, v2
; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_multiuse_add1:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_bfe_u32 v2, v1, 8, 8
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_bfe_u32 v3, v0, 8, 8
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX11-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX11-DL-NEXT: s_add_i32 s2, s2, s2
		; GFX11-DL-NEXT: v_mul_u32_u24_e32 v2, v2, v3
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_add3_u32 v0, s2, v2, v0
		; GFX11-DL-NEXT: global_store_b32 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]		; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-NODL-NEXT: s_endpgm		; GFX9-NODL-NEXT: s_endpgm
;		;
; GFX9-DL-LABEL: notdot4_mixedtypes:		; GFX9-DL-LABEL: notdot4_mixedtypes:
; GFX9-DL: ; %bb.0: ; %entry		; GFX9-DL: ; %bb.0: ; %entry
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: s_movk_i32 s0, 0xff		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc0c0302
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]		; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX9-DL-NEXT: s_waitcnt vmcnt(2)		; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
; GFX9-DL-NEXT: s_waitcnt vmcnt(1)		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2		; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6		; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xff, v7		; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xff, v7
; GFX9-DL-NEXT: v_bfe_i32 v4, v1, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v4, v1, 0, 8
; GFX9-DL-NEXT: v_bfe_i32 v5, v2, 0, 8		; GFX9-DL-NEXT: v_bfe_i32 v5, v2, 0, 8
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3		; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s0
; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3		; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s0
; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3
; GFX9-DL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: notdot4_mixedtypes:		; GFX10-DL-LABEL: notdot4_mixedtypes:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: v_mov_b32_e32 v7, 0xff
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX10-DL-NEXT: global_load_ushort v3, v0, s[2:3]		; GFX10-DL-NEXT: global_load_ushort v3, v0, s[2:3]
; GFX10-DL-NEXT: s_waitcnt vmcnt(2)		; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v1		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v1
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v2		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v2
; GFX10-DL-NEXT: v_bfe_i32 v6, v1, 0, 8		; GFX10-DL-NEXT: v_bfe_i32 v6, v1, 0, 8
; GFX10-DL-NEXT: v_bfe_i32 v8, v2, 0, 8		; GFX10-DL-NEXT: v_bfe_i32 v7, v2, 0, 8
		; GFX10-DL-NEXT: v_perm_b32 v2, v2, v2, 0xc0c0302
; GFX10-DL-NEXT: v_and_b32_e32 v4, 0xff, v4		; GFX10-DL-NEXT: v_and_b32_e32 v4, 0xff, v4
; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xff, v5		; GFX10-DL-NEXT: v_and_b32_e32 v5, 0xff, v5
		; GFX10-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0302
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v5, v3		; GFX10-DL-NEXT: v_mad_u16 v3, v4, v5, v3
; GFX10-DL-NEXT: v_and_b32_sdwa v4, v1, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-DL-NEXT: v_mad_u16 v3, v6, v7, v3
; GFX10-DL-NEXT: v_and_b32_sdwa v5, v2, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX10-DL-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
; GFX10-DL-NEXT: v_mad_u16 v3, v6, v8, v3
; GFX10-DL-NEXT: v_mad_u16 v3, v4, v5, v3
; GFX10-DL-NEXT: v_mad_u16 v1, v1, v2, v3
; GFX10-DL-NEXT: global_store_short v0, v1, s[2:3]		; GFX10-DL-NEXT: global_store_short v0, v1, s[2:3]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: notdot4_mixedtypes:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v4, 8, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v0
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: v_bfe_i32 v6, v1, 0, 8
		; GFX11-DL-NEXT: v_bfe_i32 v7, v0, 0, 8
		; GFX11-DL-NEXT: v_and_b32_e32 v4, 0xff, v4
		; GFX11-DL-NEXT: v_and_b32_e32 v5, 0xff, v5
		; GFX11-DL-NEXT: global_load_u16 v3, v2, s[0:1]
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0302
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0302
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_mad_u16 v3, v4, v5, v3
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_mad_u16 v3, v6, v7, v3
		; GFX11-DL-NEXT: v_and_b32_e32 v3, 0xffff, v3
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, v3
		; GFX11-DL-NEXT: global_store_b16 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 27 Lines	entry:
%add2 = add i16 %add1, %mul1		%add2 = add i16 %add1, %mul1
%add3 = add i16 %add2, %mul3		%add3 = add i16 %add2, %mul3
%add4 = add i16 %add3, %mul4		%add4 = add i16 %add3, %mul4

store i16 %add4, ptr addrspace(1) %dst, align 2		store i16 %add4, ptr addrspace(1) %dst, align 2
ret void		ret void
}		}

; TODO: cleanup s_lshr_b32 and support this pattern.		; TODO: cleanup s_lshr_b32
define amdgpu_kernel void @udot4_acc32_vecMul(ptr addrspace(1) %src1,		define amdgpu_kernel void @udot4_acc32_vecMul(ptr addrspace(1) %src1,
; GFX7-LABEL: udot4_acc32_vecMul:		; GFX7-LABEL: udot4_acc32_vecMul:
; GFX7: ; %bb.0: ; %entry		; GFX7: ; %bb.0: ; %entry
; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, s3		; GFX7-NEXT: s_mov_b32 s11, s3
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX9-DL-NEXT: s_waitcnt vmcnt(0)		; GFX9-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s0
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v4, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-DL-NEXT: v_add3_u32 v2, v3, s0, v4
; GFX9-DL-NEXT: v_add3_u32 v1, v2, v5, v1
; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
; GFX9-DL-NEXT: s_endpgm		; GFX9-DL-NEXT: s_endpgm
;		;
; GFX10-DL-LABEL: udot4_acc32_vecMul:		; GFX10-DL-LABEL: udot4_acc32_vecMul:
; GFX10-DL: ; %bb.0: ; %entry		; GFX10-DL: ; %bb.0: ; %entry
; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: s_clause 0x1		; GFX10-DL-NEXT: s_clause 0x1
; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
; GFX10-DL-NEXT: s_waitcnt vmcnt(1)		; GFX10-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
; GFX10-DL-NEXT: v_and_b32_sdwa v3, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, s2
; GFX10-DL-NEXT: s_waitcnt vmcnt(0)		; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]
; GFX10-DL-NEXT: v_and_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v4, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX10-DL-NEXT: v_mul_u32_u24_e32 v0, v3, v0
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
; GFX10-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-DL-NEXT: v_add3_u32 v0, v4, s2, v0
; GFX10-DL-NEXT: v_add3_u32 v0, v0, v3, v1
; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32_vecMul:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3		; GFX10-DL-NEXT: v_add_nc_u16 v3, v4, v3
; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2		; GFX10-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5		; GFX10-DL-NEXT: v_add_nc_u16 v2, v3, v5
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1		; GFX10-DL-NEXT: v_add_nc_u16 v1, v2, v1
; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3		; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v3
; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]		; GFX10-DL-NEXT: global_store_short v0, v1, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc16_vecMul:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_dual_mov_b32 v2, 0 :: v_dual_and_b32 v7, 0xff, v1
		; GFX11-DL-NEXT: global_load_u16 v3, v2, s[0:1]
		; GFX11-DL-NEXT: v_lshrrev_b16 v4, 8, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_lshrrev_b16 v5, 8, v0
		; GFX11-DL-NEXT: v_and_b32_e32 v6, 0xff, v0
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v8, 16, v1
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v9, 16, v0
		; GFX11-DL-NEXT: v_perm_b32 v4, v4, v7, 0x5040100
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX11-DL-NEXT: v_perm_b32 v5, v5, v6, 0x5040100
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX11-DL-NEXT: v_and_b32_e32 v6, 0xff, v9
		; GFX11-DL-NEXT: v_and_b32_e32 v7, 0xff, v8
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_4) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v5
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v6, 0x5040100
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v7, 0x5040100
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v5, 16, v4
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_pk_mul_lo_u16 v0, v1, v0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_add_nc_u16 v3, v4, v3
		; GFX11-DL-NEXT: v_add_nc_u16 v1, v3, v5
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v3, 16, v0
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v1, v0
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v0, v3
		; GFX11-DL-NEXT: global_store_b16 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v4		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v2, 8, v4
; GFX10-DL-NEXT: v_or_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX10-DL-NEXT: v_or_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v5		; GFX10-DL-NEXT: v_lshrrev_b32_e32 v5, 8, v5
; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v5		; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v5
; GFX10-DL-NEXT: v_mad_u16 v1, v7, v8, v1		; GFX10-DL-NEXT: v_mad_u16 v1, v7, v8, v1
; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v2		; GFX10-DL-NEXT: v_add_nc_u16 v1, v1, v2
; GFX10-DL-NEXT: global_store_byte v0, v1, s[0:1]		; GFX10-DL-NEXT: global_store_byte v0, v1, s[0:1]
; GFX10-DL-NEXT: s_endpgm		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc8_vecMul:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_u8 v3, v2, s[0:1]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v4, 16, v1
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v5, 24, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v6, 24, v0
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v7, 16, v0
		; GFX11-DL-NEXT: v_lshrrev_b16 v8, 8, v1
		; GFX11-DL-NEXT: v_lshrrev_b16 v9, 8, v0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_mad_u16 v0, v1, v0, v3
		; GFX11-DL-NEXT: v_mul_lo_u16 v5, v5, v6
		; GFX11-DL-NEXT: v_mul_lo_u16 v6, v4, v7
		; GFX11-DL-NEXT: v_mul_lo_u16 v8, v8, v9
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_lshlrev_b16 v5, 8, v5
		; GFX11-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_lshlrev_b16 v8, 8, v8
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v1, 8, v5
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(NEXT) \| instid1(VALU_DEP_3)
		; GFX11-DL-NEXT: v_or_b32_e32 v6, v6, v5
		; GFX11-DL-NEXT: v_and_b32_e32 v8, 0xffff, v8
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v6, 16, v6
		; GFX11-DL-NEXT: v_or_b32_e32 v6, v8, v6
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v6
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v0, v6
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
		; GFX11-DL-NEXT: v_mad_u16 v0, v4, v7, v0
		; GFX11-DL-NEXT: v_add_nc_u16 v0, v0, v1
		; GFX11-DL-NEXT: global_store_b8 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
ptr addrspace(1) %src2,		ptr addrspace(1) %src2,
ptr addrspace(1) nocapture %dst) {		ptr addrspace(1) nocapture %dst) {
entry:		entry:
%idx = call i32 @llvm.amdgcn.workitem.id.x()		%idx = call i32 @llvm.amdgcn.workitem.id.x()
%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
%vec1 = load <4 x i8>, ptr addrspace(1) %gep1		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
%vec2 = load <4 x i8>, ptr addrspace(1) %gep2		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
Show All 9 Lines	entry:
%add2 = add i8 %add1, %mul1		%add2 = add i8 %add1, %mul1
%add3 = add i8 %add2, %mul2		%add3 = add i8 %add2, %mul2
%add4 = add i8 %add3, %mul3		%add4 = add i8 %add3, %mul3

store i8 %add4, ptr addrspace(1) %dst, align 4		store i8 %add4, ptr addrspace(1) %dst, align 4
ret void		ret void
}		}

		define amdgpu_kernel void @idot4_acc32_2ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_2ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v2, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, s4
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_2ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v3, v3, 8, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
		; GFX8-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_2ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v3, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, s0, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_2ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_2ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc0c0100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc0c0100
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_2ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		store i32 %add2, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_3ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
		; GFX8-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
		; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020100
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		store i32 %add3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_3ele_permuted(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_3ele_permuted:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v2
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
		; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_3ele_permuted:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v3
		; GFX8-NEXT: v_and_b32_e32 v4, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
		; GFX8-NEXT: v_and_b32_e32 v5, 0xff, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_3ele_permuted:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v3, 24, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 24, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020003
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020003
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020003
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_3ele_permuted:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020003
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020003
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 3
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 3
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 0
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 0
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%add1 = add i32 %mul1, %acc
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		store i32 %add3, ptr addrspace(1) %dst, align 4
		ret void
		}


		define amdgpu_kernel void @idot4_acc32_opt(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_opt:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
		; GFX7-NEXT: v_mul_u32_u24_e32 v3, v3, v6
		; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_opt:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v4, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v7, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v5, 0xff, v2
		; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX8-NEXT: v_bfe_u32 v8, v2, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, v6
		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX8-NEXT: v_mad_u32_u24 v4, v7, v8, v4
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v2, v4
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_opt:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_opt:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_opt:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, 0
		; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_opt:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <4 x i8> %vec1, i64 3
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <4 x i8> %vec2, i64 3
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add2 = add i32 %mul1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_acc32_3src(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_acc32_3src:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v1, s0
		; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v6, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v3, v1
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v5, v6, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_acc32_3src:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v1, s0
		; GFX8-NEXT: v_bfe_u32 v5, v3, 16, 8
		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_u32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v2, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_u32 v6, v0, 16, 8
		; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX8-NEXT: v_mad_u32_u24 v1, v5, v6, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_acc32_3src:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[0:1]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[4:5]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v4, v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v2, v4, s0, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_acc32_3src:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-DL-NEXT: s_load_dword s1, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x706010c
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc0c0c00
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v3, v1, s1
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_acc32_3src:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0x706010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c00
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v3, v0, s0
		; GFX10-DL-NEXT: global_store_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32_3src:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[0:1]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0x706010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c00
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = zext i8 %v3e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv3e2

		%v1e3 = extractelement <4 x i8> %vec1, i64 3
		%cv1e3 = zext i8 %v1e3 to i32
		%v3e3 = extractelement <4 x i8> %vec3, i64 3
		%cv3e3 = zext i8 %v3e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv3e3

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3
		%mad4 = add i32 %mad3, %mul4

		store i32 %mad4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_acc32_3src_3ele(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_acc32_3src_3ele:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v1, s0
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v3, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_acc32_3src_3ele:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v1, s0
		; GFX8-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_u32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v2, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_acc32_3src_3ele:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[0:1]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[4:5]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v4, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, v2, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_acc32_3src_3ele:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc06010c
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0c00
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc020100
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s1
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_acc32_3src_3ele:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0xc06010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c00
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32_3src_3ele:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[2:3]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[0:1]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc06010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c00
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = zext i8 %v3e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv3e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_bad_source(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_bad_source:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dword s12, s[0:1], 0xf
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x11
		; GFX7-NEXT: s_and_b32 s5, s12, 0xffff
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mov_b32_e32 v1, s4
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v3, s5, v1
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v5, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_bad_source:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX8-NEXT: s_and_b32 s2, s2, 0xffff
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v2, s2, v1
		; GFX8-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_bad_source:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_and_b32 s2, s2, 0xffff
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v4, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mov_b32_e32 v2, s3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, s2, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v4, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_bad_source:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: s_mov_b32 s4, 0xc0c0201
		; GFX9-DL-NEXT: s_and_b32 s2, s2, 0xffff
		; GFX9-DL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_mov_b32_e32 v3, s3
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s4
		; GFX9-DL-NEXT: v_mad_u32_u24 v3, v4, s2, v3
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s4
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, v3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_bad_source:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x3c
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: s_and_b32 s2, s2, 0xffff
		; GFX10-DL-NEXT: s_load_dword s3, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_and_b32_e32 v0, 0xff, v1
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v2, v2, v2, 0xc0c0201
		; GFX10-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0201
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_mad_u32_u24 v0, v0, s2, s3
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v2, v0
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_bad_source:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x3c
		; GFX11-DL-NEXT: v_dual_mov_b32 v3, 0 :: v_dual_lshlrev_b32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x44
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_and_b32 s2, s2, 0xffff
		; GFX11-DL-NEXT: s_load_b32 s3, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_and_b32_e32 v2, 0xff, v1
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc0c0201
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc0c0201
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_mad_u32_u24 v2, v2, s2, s3
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, v2
		; GFX11-DL-NEXT: global_store_b32 v3, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		i16 %badsource,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%other = zext i16 %badsource to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %other

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}


		define amdgpu_kernel void @udot4_commutative(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_commutative:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xf
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v4, s4
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v3, v5, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_commutative:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x3c
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
		; GFX8-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
		; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_commutative:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x3c
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_commutative:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x3c
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc020100
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s1
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_commutative:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x3c
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0xc020100
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0xc020100
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_commutative:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x3c
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020100
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s2
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%v1e2 = extractelement <4 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_acc32_3src_3ele_src0(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s11, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[0:1]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[2:3]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX7-NEXT: s_mov_b32 s10, -1
		; GFX7-NEXT: s_mov_b32 s8, s6
		; GFX7-NEXT: s_mov_b32 s9, s7
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_bfe_u32 v1, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v2, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v4, v2, v2, s0
		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v2, v4
		; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[8:11], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_bfe_u32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_bfe_u32 v1, v4, 8, 8
		; GFX8-NEXT: v_bfe_u32 v3, v4, 16, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v4, v1, v1, s0
		; GFX8-NEXT: v_mad_u32_u24 v1, v2, v1, v4
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s6
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[2:3]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[0:1]
		; GFX9-NODL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_bfe_u32 v4, v1, 8, 8
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v4, v4, s0
		; GFX9-NODL-NEXT: v_add3_u32 v1, v3, v2, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[0:1]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[2:3]
		; GFX9-DL-NEXT: s_load_dword s3, s[6:7], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0xc06010c
		; GFX9-DL-NEXT: s_mov_b32 s1, 0xc0c0c01
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc020101
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v2, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s1
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s2
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, s3
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[6:7]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x2
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[2:3]
		; GFX10-DL-NEXT: s_waitcnt_depctr 0xffe3
		; GFX10-DL-NEXT: s_load_dword s0, s[6:7], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v2, 0xc06010c
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc0c0c01
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0xc020101
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32_3src_3ele_src0:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[0:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x2
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[2:3]
		; GFX11-DL-NEXT: s_load_b32 s0, s[6:7], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v2, 0xc06010c
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v2, v0, v0, 0xc0c0c01
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0xc020101
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v1, v1, v2
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, s0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3

		%v2e0 = extractelement <4 x i8> %vec2, i64 1
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv2e0, %cv2e0

		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v3e2 = extractelement <4 x i8> %vec3, i64 2
		%cv3e2 = zext i8 %v3e2 to i32
		%v2e2 = extractelement <4 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv2e2, %cv3e2


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3

		store i32 %mad3, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_4src(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_4src:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x9
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s14, 0
		; GFX7-NEXT: s_mov_b32 s15, s3
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[12:13], s[4:5]
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[6:7]
		; GFX7-NEXT: buffer_load_dword v3, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[8:9]
		; GFX7-NEXT: buffer_load_dword v4, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[12:13], s[10:11]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x11
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_waitcnt vmcnt(3)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v2, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(2)
		; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v3
		; GFX7-NEXT: v_bfe_u32 v3, v3, 8, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v2, s4
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v4
		; GFX7-NEXT: v_bfe_u32 v4, v4, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v5, v3, v1
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v2, v4, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_4src:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s9
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s8, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v5, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v1, s11
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s10, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v0, v[0:1]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(3)
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
		; GFX8-NEXT: v_bfe_u32 v2, v3, 8, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
		; GFX8-NEXT: s_waitcnt vmcnt(2)
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v4
		; GFX8-NEXT: v_bfe_u32 v4, v4, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v3, v4, v1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v6, 0xff, v5
		; GFX8-NEXT: v_bfe_u32 v5, v5, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v1, v6, v5, v1
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v7, 0xff, v0
		; GFX8-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v2, v7, v0, v1
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_4src:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NODL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX9-NODL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(3)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v3, v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v4, v4, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v1, v1, s2, v2
		; GFX9-NODL-NEXT: v_add3_u32 v1, v1, v3, v4
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_4src:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX9-DL-NEXT: s_mov_b32 s2, 0xc0c0501
		; GFX9-DL-NEXT: s_mov_b32 s3, 0x5010c0c
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX9-DL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX9-DL-NEXT: s_mov_b32 s4, 0xc0c0400
		; GFX9-DL-NEXT: s_load_dword s6, s[0:1], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s5, 0x4000c0c
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX9-DL-NEXT: v_perm_b32 v5, v2, v1, s2
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v1, s4
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v6, v4, v3, s3
		; GFX9-DL-NEXT: v_perm_b32 v2, v4, v3, s5
		; GFX9-DL-NEXT: v_or_b32_e32 v3, v6, v5
		; GFX9-DL-NEXT: v_or_b32_e32 v1, v2, v1
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v3, s6
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_4src:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x44
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x3
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[8:9]
		; GFX10-DL-NEXT: global_load_dword v4, v0, s[10:11]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v1, 0xc0c0501
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc0c0400
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v5, v4, v3, 0x5010c0c
		; GFX10-DL-NEXT: v_perm_b32 v2, v4, v3, 0x4000c0c
		; GFX10-DL-NEXT: v_or_b32_e32 v0, v5, v0
		; GFX10-DL-NEXT: v_or_b32_e32 v1, v2, v1
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, s2
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_4src:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b256 s[4:11], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x44
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x3
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v2, v0, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v3, v0, s[8:9]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[10:11]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(2)
		; GFX11-DL-NEXT: v_perm_b32 v4, v2, v1, 0xc0c0501
		; GFX11-DL-NEXT: v_perm_b32 v1, v2, v1, 0xc0c0400
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v5, v0, v3, 0x5010c0c
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v3, 0x4000c0c
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_or_b32_e32 v2, v5, v4
		; GFX11-DL-NEXT: v_or_b32_e32 v0, v0, v1
		; GFX11-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_2)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v2, s2
		; GFX11-DL-NEXT: global_store_b32 v1, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) %src3,
		ptr addrspace(1) %src4,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()

		%gep1 = getelementptr <4 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <4 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <4 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <4 x i8>, ptr addrspace(1) %gep2
		%gep3 = getelementptr <4 x i8>, ptr addrspace(1) %src3, i32 %idx
		%vec3 = load <4 x i8>, ptr addrspace(1) %gep3
		%gep4 = getelementptr <4 x i8>, ptr addrspace(1) %src4, i32 %idx
		%vec4 = load <4 x i8>, ptr addrspace(1) %gep4


		%v1e0 = extractelement <4 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v1e1 = extractelement <4 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv1e1

		%v2e0 = extractelement <4 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%v2e1 = extractelement <4 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv2e0, %cv2e1

		%v3e0 = extractelement <4 x i8> %vec3, i64 0
		%cv3e0 = zext i8 %v3e0 to i32
		%v3e1 = extractelement <4 x i8> %vec3, i64 1
		%cv3e1 = zext i8 %v3e1 to i32
		%mul3 = mul nuw nsw i32 %cv3e0, %cv3e1

		%v4e0 = extractelement <4 x i8> %vec4, i64 0
		%cv4e0 = zext i8 %v4e0 to i32
		%v4e1 = extractelement <4 x i8> %vec4, i64 1
		%cv4e1 = zext i8 %v4e1 to i32
		%mul4 = mul nuw nsw i32 %cv4e0, %cv4e1


		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad1 = add i32 %mul1, %acc
		%mad2 = add i32 %mad1, %mul2
		%mad3 = add i32 %mad2, %mul3
		%mad4 = add i32 %mad3, %mul4

		store i32 %mad4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @udot4_acc32_multi(ptr addrspace(1) %src1,
		; GFX7-LABEL: udot4_acc32_multi:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]
		; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
		; GFX7-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
		; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v7, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v4, s4
		; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v3
		; GFX7-NEXT: v_mad_u32_u24 v1, v7, v8, v1
		; GFX7-NEXT: v_bfe_u32 v11, v3, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v9, v4, v1
		; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
		; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v11, v8, v1
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v5, v6, v1
		; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v2, v0, v1
		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX7-NEXT: v_mad_u32_u24 v1, v10, v6, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: udot4_acc32_multi:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: v_mov_b32_e32 v3, s7
		; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
		; GFX8-NEXT: flat_load_dword v2, v[2:3]
		; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8
		; GFX8-NEXT: v_bfe_u32 v8, v2, 16, 8
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mad_u32_u24 v3, v3, v4, s2
		; GFX8-NEXT: v_and_b32_e32 v9, 0xff, v1
		; GFX8-NEXT: v_mad_u32_u24 v3, v7, v8, v3
		; GFX8-NEXT: v_bfe_u32 v11, v1, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v3, v9, v4, v3
		; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX8-NEXT: v_bfe_u32 v6, v2, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v3, v11, v8, v3
		; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX8-NEXT: v_mad_u32_u24 v3, v5, v6, v3
		; GFX8-NEXT: v_bfe_u32 v10, v1, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v0, v0, v2, v3
		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX8-NEXT: v_mad_u32_u24 v0, v10, v6, v0
		; GFX8-NEXT: v_mad_u32_u24 v2, v1, v2, v0
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: udot4_acc32_multi:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v3, v2, s[6:7]
		; GFX9-NODL-NEXT: global_load_dwordx2 v[0:1], v2, s[4:5]
		; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v2, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v3
		; GFX9-NODL-NEXT: v_bfe_u32 v6, v3, 16, 8
		; GFX9-NODL-NEXT: v_bfe_u32 v5, v3, 8, 8
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v7, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v9, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v8, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v4, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:DWORD
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: v_add3_u32 v3, v7, s0, v9
		; GFX9-NODL-NEXT: v_add3_u32 v3, v3, v4, v6
		; GFX9-NODL-NEXT: v_add3_u32 v0, v8, v3, v0
		; GFX9-NODL-NEXT: v_add3_u32 v0, v0, v5, v1
		; GFX9-NODL-NEXT: global_store_dword v2, v0, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: udot4_acc32_multi:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x6040200
		; GFX9-DL-NEXT: s_mov_b32 s1, 0x2000200
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dwordx2 v[0:1], v2, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v3, v2, s[6:7]
		; GFX9-DL-NEXT: s_load_dword s5, s[2:3], 0x0
		; GFX9-DL-NEXT: s_mov_b32 s4, 0x7050301
		; GFX9-DL-NEXT: s_mov_b32 s6, 0x3010301
		; GFX9-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v4, v1, v0, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v5, v3, v3, s1
		; GFX9-DL-NEXT: v_perm_b32 v0, v1, v0, s4
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v4, v5, s5
		; GFX9-DL-NEXT: v_perm_b32 v3, v3, v3, s6
		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v0, v3, v1
		; GFX9-DL-NEXT: global_store_dword v2, v0, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: udot4_acc32_multi:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dwordx2 v[0:1], v2, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v3, v2, s[6:7]
		; GFX10-DL-NEXT: s_load_dword s2, s[0:1], 0x0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v2, v1, v0, 0x6040200
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v4, v3, v3, 0x2000200
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v0, 0x7050301
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v2, v4, s2
		; GFX10-DL-NEXT: v_perm_b32 v2, v3, v3, 0x3010301
		; GFX10-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v0, v2, v1
		; GFX10-DL-NEXT: global_store_dword v3, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: udot4_acc32_multi:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b64 v[0:1], v2, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v2, v2, s[6:7]
		; GFX11-DL-NEXT: s_load_b32 s2, s[0:1], 0x0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v3, v1, v0, 0x6040200
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v4, v2, v2, 0x2000200
		; GFX11-DL-NEXT: v_perm_b32 v0, v1, v0, 0x7050301
		; GFX11-DL-NEXT: v_perm_b32 v2, v2, v2, 0x3010301
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_3) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v1, v3, v4, s2
		; GFX11-DL-NEXT: v_mov_b32_e32 v3, 0
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v2, v1
		; GFX11-DL-NEXT: global_store_b32 v3, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <8 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <8 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <8 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <8 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <8 x i8> %vec1, i64 3
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 3
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%v1e4 = extractelement <8 x i8> %vec1, i64 4
		%cv1e4 = zext i8 %v1e4 to i32
		%v2e4 = extractelement <8 x i8> %vec2, i64 4
		%cv2e4 = zext i8 %v2e4 to i32
		%mul5 = mul nuw nsw i32 %cv1e4, %cv2e0

		%v1e5 = extractelement <8 x i8> %vec1, i64 5
		%cv1e5 = zext i8 %v1e5 to i32
		%v2e5 = extractelement <8 x i8> %vec2, i64 5
		%cv2e5 = zext i8 %v2e5 to i32
		%mul6 = mul nuw nsw i32 %cv1e5, %cv2e1

		%v1e6 = extractelement <8 x i8> %vec1, i64 6
		%cv1e6 = zext i8 %v1e6 to i32
		%v2e6 = extractelement <8 x i8> %vec2, i64 6
		%cv2e6 = zext i8 %v2e6 to i32
		%mul7 = mul nuw nsw i32 %cv1e6, %cv2e2

		%v1e7 = extractelement <8 x i8> %vec1, i64 7
		%cv1e7 = zext i8 %v1e7 to i32
		%v2e7 = extractelement <8 x i8> %vec2, i64 7
		%cv2e7 = zext i8 %v2e7 to i32
		%mul8 = mul nuw nsw i32 %cv1e7, %cv2e3

		%acc = load i32, ptr addrspace(1) %dst, align 4
		%mad11 = add i32 %mul1, %acc
		%mad21 = add i32 %mad11, %mul3
		%mad31 = add i32 %mad21, %mul5
		%mad41 = add i32 %mad31, %mul7
		%mad12 = add i32 %mul2, %mad41
		%mad22 = add i32 %mad12, %mul4
		%mad32 = add i32 %mad22, %mul6
		%mad42 = add i32 %mad32, %mul8

		store i32 %mad42, ptr addrspace(1) %dst, align 4
		ret void
		}

declare i32 @llvm.amdgcn.workitem.id.x()		declare i32 @llvm.amdgcn.workitem.id.x()

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU]: Allow combining into v_dot4
ClosedPublic

Details

Diff Detail

Event Timeline

1 || == 2?

Revision Contents

Diff 557598

llvm/include/llvm/CodeGen/ByteProvider.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

1 || == 2?

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU]: Allow combining into v_dot4ClosedPublic

Details

Diff Detail

Event Timeline

1 || == 2?

Revision Contents

Diff 557598

llvm/include/llvm/CodeGen/ByteProvider.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

1 || == 2?

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

[AMDGPU]: Allow combining into v_dot4
ClosedPublic