This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
-
SIISelLowering.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
idot4u.ll
-
insert_vector_elt.v2i16.ll
-
load-hi16.ll
-
permute.ll
-
permute_i8.ll

Differential D159036

[AMDGPU] Accept arbitrary sized sources in CalculateByteProvider
ClosedPublic

Authored by jrbyrnes on Aug 28 2023, 4:38 PM.

Download Raw Diff

Details

Reviewers

arsenm

Commits

rGef3365949232: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider

Summary

This allows working with e.g. v8i8 / v16i8 sources.

It is generally useful, but is primarily beneficial when allowing e.g. v8i8s to be passed to branches directly through registers. As such, this is the first in a series of patches to enable that work. However, it effects https://reviews.llvm.org/D155995, so it has been implemented on top of that.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

jrbyrnes created this revision.Aug 28 2023, 4:38 PM

Herald added a project: Restricted Project. · View Herald TranscriptAug 28 2023, 4:38 PM

Herald added subscribers: foad, kerbowa, hiraditya and 5 others. · View Herald Transcript

jrbyrnes requested review of this revision.Aug 28 2023, 4:38 PM

Herald added a project: Restricted Project. · View Herald TranscriptAug 28 2023, 4:38 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

jrbyrnes added a parent revision: D155995: [AMDGPU]: Allow combining into v_dot4.Aug 28 2023, 4:38 PM

Harbormaster completed remote builds in B255347: Diff 554103.Aug 28 2023, 4:38 PM

arsenm accepted this revision.Aug 29 2023, 5:00 AM

This revision is now accepted and ready to land.Aug 29 2023, 5:00 AM

Account for max scalar size of i256. Factor out common code.

Minor regressions in load-hi16.ll are caused by problematic heuristic hasNon16BitAccesses which will be addressed separately.

Harbormaster completed remote builds in B255858: Diff 554812.Aug 30 2023, 2:28 PM

arsenm accepted this revision.Aug 30 2023, 4:20 PM

This revision was landed with ongoing or failed builds.Oct 23 2023, 4:08 PM

Closed by commit rGef3365949232: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider (authored by jrbyrnes). · Explain Why

This revision was automatically updated to reflect the committed changes.

jrbyrnes added a commit: rGef3365949232: [AMDGPU] Accept arbitrary sized sources in CalculateByteProvider.

This seems to be causing some Vulkan CTS failures. I'm working on reducing a test case.

In D159036#4655044, @foad wrote:

This seems to be causing some Vulkan CTS failures. I'm working on reducing a test case.

Are they fixed by https://github.com/llvm/llvm-project/pull/70153?

In D159036#4655075, @jrbyrnes wrote:

In D159036#4655044, @foad wrote:

This seems to be causing some Vulkan CTS failures. I'm working on reducing a test case.

Are they fixed by https://github.com/llvm/llvm-project/pull/70153?

No that does not change the test results.

Here is a test case:

gs.ll24 KBDownload

I compiled with llc -march=amdgcn -mcpu=gfx1030 gs.ll -o /dev/null -debug and saw the following, heavily edited:

Initial selection DAG: %bb.5 '_amdgpu_gs_main:.exportVertex'
SelectionDAG has 261 nodes:
...
    t148: v2i32 = vselect # D:1 t64, t78, t147
  t149: v2i16 = truncate # D:1 t148
...
            t250: i16 = extract_vector_elt # D:1 t149, Constant:i32<1>
          t251: i32 = zero_extend # D:1 t250
        t252: i32 = shl nuw # D:1 t251, Constant:i32<16>
          t248: i16 = extract_vector_elt # D:1 t149, Constant:i32<0>
        t249: i32 = zero_extend # D:1 t248
      t253: i32 = or # D:1 t252, t249
...
Combining: t253: i32 = or # D:1 t252, t249
Creating new node: t262: i64 = bitcast # D:1 t148
Creating new node: t263: i32 = truncate # D:1 t262
 ... into: t263: i32 = truncate # D:1 t262

Note that t149 truncates each element of t148 from 32 to 16 bits.
t253 was extracting the two parts of t149 and combining them into single i32, i.e. it was equivalent to i32 bitcast t149.
You've replaced it with i32 truncate (i64 bitcast t148) which is equivalent to extracting element 0 of t148.
These are clearly not the same thing. I'd like to revert the patch unless you have a quick fix.

foad added a reverting change: rGc82ebfb97ad1: Revert "[AMDGPU] Accept arbitrary sized sources in CalculateByteProvider".Oct 25 2023, 3:11 AM

I've reverted it: c82ebfb97ad1730bb7a3e29b7d4f33dec6226872

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIISelLowering.cpp

209 lines

test/

CodeGen/

AMDGPU/

idot4u.ll

1087 lines

insert_vector_elt.v2i16.ll

15 lines

load-hi16.ll

36 lines

permute.ll

4 lines

permute_i8.ll

260 lines

Diff 557857

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,828 Lines • ▼ Show 20 Lines
static const std::optional<ByteProvider<SDValue>>		static const std::optional<ByteProvider<SDValue>>
calculateSrcByte(const SDValue Op, uint64_t DestByte, uint64_t SrcIndex = 0,		calculateSrcByte(const SDValue Op, uint64_t DestByte, uint64_t SrcIndex = 0,
std::optional<bool> IsSigned = std::nullopt,		std::optional<bool> IsSigned = std::nullopt,
unsigned Depth = 0) {		unsigned Depth = 0) {
// We may need to recursively traverse a series of SRLs		// We may need to recursively traverse a series of SRLs
if (Depth >= 6)		if (Depth >= 6)
return std::nullopt;		return std::nullopt;

auto ValueSize = Op.getValueSizeInBits();		if (Op.getValueSizeInBits() < 8)
if (ValueSize != 8 && ValueSize != 16 && ValueSize != 32)
return std::nullopt;		return std::nullopt;

switch (Op->getOpcode()) {		switch (Op->getOpcode()) {
case ISD::TRUNCATE: {		case ISD::TRUNCATE: {
return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, IsSigned,		return calculateSrcByte(Op->getOperand(0), DestByte, SrcIndex, IsSigned,
Depth + 1);		Depth + 1);
}		}

▲ Show 20 Lines • Show All 274 Lines • ▼ Show 20 Lines	calculateByteProvider(const SDValue &Op, unsigned Index, unsigned Depth,

case ISD::EXTRACT_VECTOR_ELT: {		case ISD::EXTRACT_VECTOR_ELT: {
auto IdxOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));		auto IdxOp = dyn_cast<ConstantSDNode>(Op->getOperand(1));
if (!IdxOp)		if (!IdxOp)
return std::nullopt;		return std::nullopt;
auto VecIdx = IdxOp->getZExtValue();		auto VecIdx = IdxOp->getZExtValue();
auto ScalarSize = Op.getScalarValueSizeInBits();		auto ScalarSize = Op.getScalarValueSizeInBits();
if (ScalarSize != 32) {		if (ScalarSize != 32) {
if ((VecIdx + 1) * ScalarSize > 32)
return std::nullopt;
Index = ScalarSize == 8 ? VecIdx : VecIdx * 2 + Index;		Index = ScalarSize == 8 ? VecIdx : VecIdx * 2 + Index;
}		}

return calculateSrcByte(ScalarSize == 32 ? Op : Op.getOperand(0),		return calculateSrcByte(ScalarSize == 32 ? Op : Op.getOperand(0),
StartingIndex, Index, IsSigned);		StartingIndex, Index, IsSigned);
}		}

case AMDGPUISD::PERM: {		case AMDGPUISD::PERM: {
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
// Do not lower into v_perm if the operands are actually 16 bit		// Do not lower into v_perm if the operands are actually 16 bit
// and the selected bits (based on PermMask) correspond with two		// and the selected bits (based on PermMask) correspond with two
// easily addressable 16 bit operands.		// easily addressable 16 bit operands.
static bool hasNon16BitAccesses(uint64_t PermMask, SDValue &Op,		static bool hasNon16BitAccesses(uint64_t PermMask, SDValue &Op,
SDValue &OtherOp) {		SDValue &OtherOp) {
int Low16 = PermMask & 0xffff;		int Low16 = PermMask & 0xffff;
int Hi16 = (PermMask & 0xffff0000) >> 16;		int Hi16 = (PermMask & 0xffff0000) >> 16;

assert(Op.getValueType().isByteSized());
assert(OtherOp.getValueType().isByteSized());

auto TempOp = peekThroughBitcasts(Op);		auto TempOp = peekThroughBitcasts(Op);
auto TempOtherOp = peekThroughBitcasts(OtherOp);		auto TempOtherOp = peekThroughBitcasts(OtherOp);

auto OpIs16Bit =		auto OpIs16Bit =
TempOtherOp.getValueSizeInBits() == 16 \|\| isExtendedFrom16Bits(TempOp);		TempOtherOp.getValueSizeInBits() == 16 \|\| isExtendedFrom16Bits(TempOp);
if (!OpIs16Bit)		if (!OpIs16Bit)
return true;		return true;

auto OtherOpIs16Bit = TempOtherOp.getValueSizeInBits() == 16 \|\|		auto OtherOpIs16Bit = TempOtherOp.getValueSizeInBits() == 16 \|\|
isExtendedFrom16Bits(TempOtherOp);		isExtendedFrom16Bits(TempOtherOp);
if (!OtherOpIs16Bit)		if (!OtherOpIs16Bit)
return true;		return true;

// Do we cleanly address both		// Do we cleanly address both
return !addresses16Bits(Low16) \|\| !addresses16Bits(Hi16);		return !addresses16Bits(Low16) \|\| !addresses16Bits(Hi16);
}		}

		static SDValue getDWordFromOffset(SelectionDAG &DAG, SDLoc SL, SDValue Src,
		unsigned DWordOffset) {
		SDValue Ret;
		if (Src.getValueSizeInBits() <= 32)
		return DAG.getBitcastedAnyExtOrTrunc(Src, SL, MVT::i32);

		if (Src.getValueSizeInBits() >= 256) {
		assert(!(Src.getValueSizeInBits() % 32));
		Ret = DAG.getBitcast(
		MVT::getVectorVT(MVT::i32, Src.getValueSizeInBits() / 32), Src);
		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, Ret,
		DAG.getConstant(DWordOffset, SL, MVT::i32));
		}

		Ret = DAG.getBitcastedAnyExtOrTrunc(
		Src, SL, MVT::getIntegerVT(Src.getValueSizeInBits()));
		if (DWordOffset) {
		auto Shifted = DAG.getNode(ISD::SRL, SL, Ret.getValueType(), Ret,
		DAG.getConstant(DWordOffset * 32, SL, MVT::i32));
		return DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, Shifted);
		}

		return DAG.getBitcastedAnyExtOrTrunc(Ret, SL, MVT::i32);
		}

static SDValue matchPERM(SDNode *N, TargetLowering::DAGCombinerInfo &DCI) {		static SDValue matchPERM(SDNode *N, TargetLowering::DAGCombinerInfo &DCI) {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
		SmallVector<ByteProvider<SDValue>, 8> PermNodes;
if (VT != MVT::i32)
return SDValue();

// VT is known to be MVT::i32, so we need to provide 4 bytes.		// VT is known to be MVT::i32, so we need to provide 4 bytes.
SmallVector<ByteProvider<SDValue>, 8> PermNodes;		assert(VT == MVT::i32);
for (int i = 0; i < 4; i++) {		for (int i = 0; i < 4; i++) {
// Find the ByteProvider that provides the ith byte of the result of OR		// Find the ByteProvider that provides the ith byte of the result of OR
std::optional<ByteProvider<SDValue>> P =		std::optional<ByteProvider<SDValue>> P =
calculateByteProvider(SDValue(N, 0), i, 0, /StartingIndex = / i);		calculateByteProvider(SDValue(N, 0), i, 0, /StartingIndex = / i);
// TODO support constantZero		// TODO support constantZero
if (!P \|\| P->isConstantZero())		if (!P \|\| P->isConstantZero())
return SDValue();		return SDValue();

PermNodes.push_back(*P);		PermNodes.push_back(*P);
}		}
if (PermNodes.size() != 4)		if (PermNodes.size() != 4)
return SDValue();		return SDValue();

int FirstSrc = 0;		std::pair<unsigned, unsigned> FirstSrc(0, PermNodes[0].SrcOffset / 4);
std::optional<int> SecondSrc;		std::optional<std::pair<unsigned, unsigned>> SecondSrc;
uint64_t PermMask = 0x00000000;		uint64_t PermMask = 0x00000000;
for (size_t i = 0; i < PermNodes.size(); i++) {		for (size_t i = 0; i < PermNodes.size(); i++) {
auto PermOp = PermNodes[i];		auto PermOp = PermNodes[i];
// Since the mask is applied to Src1:Src2, Src1 bytes must be offset		// Since the mask is applied to Src1:Src2, Src1 bytes must be offset
// by sizeof(Src2) = 4		// by sizeof(Src2) = 4
int SrcByteAdjust = 4;		int SrcByteAdjust = 4;

if (!PermOp.hasSameSrc(PermNodes[FirstSrc])) {		// If the Src uses a byte from a different DWORD, then it corresponds
if (SecondSrc.has_value())		// with a difference source
if (!PermOp.hasSameSrc(PermNodes[*SecondSrc]))		if (!PermOp.hasSameSrc(PermNodes[FirstSrc.first]) \|\|
		((PermOp.SrcOffset / 4) != FirstSrc.second)) {
		if (SecondSrc)
		if (!PermOp.hasSameSrc(PermNodes[SecondSrc->first]) \|\|
		((PermOp.SrcOffset / 4) != SecondSrc->second))
return SDValue();		return SDValue();

// Set the index of the second distinct Src node		// Set the index of the second distinct Src node
SecondSrc = i;		SecondSrc = {i, PermNodes[i].SrcOffset / 4};
assert(!(PermNodes[*SecondSrc].Src->getValueSizeInBits() % 8));		assert(!(PermNodes[SecondSrc->first].Src->getValueSizeInBits() % 8));
SrcByteAdjust = 0;		SrcByteAdjust = 0;
}		}
assert(PermOp.SrcOffset + SrcByteAdjust < 8);		assert((PermOp.SrcOffset % 4) + SrcByteAdjust < 8);
assert(!DAG.getDataLayout().isBigEndian());		assert(!DAG.getDataLayout().isBigEndian());
PermMask \|= (PermOp.SrcOffset + SrcByteAdjust) << (i * 8);		PermMask \|= ((PermOp.SrcOffset % 4) + SrcByteAdjust) << (i * 8);
}		}
		SDLoc DL(N);
SDValue Op = *PermNodes[FirstSrc].Src;		SDValue Op = *PermNodes[FirstSrc.first].Src;
SDValue OtherOp = SecondSrc.has_value() ? PermNodes[SecondSrc].Src		Op = getDWordFromOffset(DAG, DL, Op, FirstSrc.second);
: *PermNodes[FirstSrc].Src;		assert(Op.getValueSizeInBits() == 32);

// Check that we haven't just recreated the same FSHR node.
if (N->getOpcode() == ISD::FSHR &&
(N->getOperand(0) == Op \|\| N->getOperand(0) == OtherOp) &&
(N->getOperand(1) == Op \|\| N->getOperand(1) == OtherOp))
return SDValue();

// Check that we are not just extracting the bytes in order from an op		// Check that we are not just extracting the bytes in order from an op
if (Op == OtherOp && Op.getValueSizeInBits() == 32) {		if (!SecondSrc) {
int Low16 = PermMask & 0xffff;		int Low16 = PermMask & 0xffff;
int Hi16 = (PermMask & 0xffff0000) >> 16;		int Hi16 = (PermMask & 0xffff0000) >> 16;

bool WellFormedLow = (Low16 == 0x0504) \|\| (Low16 == 0x0100);		bool WellFormedLow = (Low16 == 0x0504) \|\| (Low16 == 0x0100);
bool WellFormedHi = (Hi16 == 0x0706) \|\| (Hi16 == 0x0302);		bool WellFormedHi = (Hi16 == 0x0706) \|\| (Hi16 == 0x0302);

// The perm op would really just produce Op. So combine into Op		// The perm op would really just produce Op. So combine into Op
if (WellFormedLow && WellFormedHi)		if (WellFormedLow && WellFormedHi)
return DAG.getBitcast(MVT::getIntegerVT(32), Op);		return DAG.getBitcast(MVT::getIntegerVT(32), Op);
}		}

		SDValue OtherOp =
		SecondSrc.has_value() ? *PermNodes[SecondSrc->first].Src : Op;

		if (SecondSrc)
		OtherOp = getDWordFromOffset(DAG, DL, OtherOp, SecondSrc->second);

		assert(Op.getValueSizeInBits() == 32);

if (hasNon16BitAccesses(PermMask, Op, OtherOp)) {		if (hasNon16BitAccesses(PermMask, Op, OtherOp)) {
SDLoc DL(N);
assert(Op.getValueType().isByteSized() &&		assert(Op.getValueType().isByteSized() &&
OtherOp.getValueType().isByteSized());		OtherOp.getValueType().isByteSized());

// If the ultimate src is less than 32 bits, then we will only be		// If the ultimate src is less than 32 bits, then we will only be
// using bytes 0: Op.getValueSizeInBytes() - 1 in the or.		// using bytes 0: Op.getValueSizeInBytes() - 1 in the or.
// CalculateByteProvider would not have returned Op as source if we		// CalculateByteProvider would not have returned Op as source if we
// used a byte that is outside its ValueType. Thus, we are free to		// used a byte that is outside its ValueType. Thus, we are free to
// ANY_EXTEND as the extended bits are dont-cares.		// ANY_EXTEND as the extended bits are dont-cares.
Op = DAG.getBitcastedAnyExtOrTrunc(Op, DL, MVT::i32);		Op = DAG.getBitcastedAnyExtOrTrunc(Op, DL, MVT::i32);
OtherOp = DAG.getBitcastedAnyExtOrTrunc(OtherOp, DL, MVT::i32);		OtherOp = DAG.getBitcastedAnyExtOrTrunc(OtherOp, DL, MVT::i32);

return DAG.getNode(AMDGPUISD::PERM, DL, MVT::i32, Op, OtherOp,		return DAG.getNode(AMDGPUISD::PERM, DL, MVT::i32, Op, OtherOp,
DAG.getConstant(PermMask, DL, MVT::i32));		DAG.getConstant(PermMask, DL, MVT::i32));
}		}

return SDValue();		return SDValue();
}		}

SDValue SITargetLowering::performOrCombine(SDNode *N,		SDValue SITargetLowering::performOrCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);
▲ Show 20 Lines • Show All 1,459 Lines • ▼ Show 20 Lines	static unsigned addPermMasks(unsigned First, unsigned Second) {
assert(FirstCs & 0xFF \| SecondCs & 0xFF);		assert(FirstCs & 0xFF \| SecondCs & 0xFF);
assert(FirstCs & 0xFF00 \| SecondCs & 0xFF00);		assert(FirstCs & 0xFF00 \| SecondCs & 0xFF00);
assert(FirstCs & 0xFF0000 \| SecondCs & 0xFF0000);		assert(FirstCs & 0xFF0000 \| SecondCs & 0xFF0000);
assert(FirstCs & 0xFF000000 \| SecondCs & 0xFF000000);		assert(FirstCs & 0xFF000000 \| SecondCs & 0xFF000000);

return (FirstNoCs \| SecondNoCs) \| (FirstCs & SecondCs);		return (FirstNoCs \| SecondNoCs) \| (FirstCs & SecondCs);
}		}

		struct DotSrc {
		SDValue SrcOp;
		int64_t PermMask;
		int64_t DWordOffset;
		};

static void placeSources(ByteProvider<SDValue> &Src0,		static void placeSources(ByteProvider<SDValue> &Src0,
ByteProvider<SDValue> &Src1,		ByteProvider<SDValue> &Src1,
SmallVectorImpl<std::pair<SDValue, unsigned>> &Src0s,		SmallVectorImpl<DotSrc> &Src0s,
SmallVectorImpl<std::pair<SDValue, unsigned>> &Src1s,		SmallVectorImpl<DotSrc> &Src1s, int Step) {
int Step) {

assert(Src0.Src.has_value() && Src1.Src.has_value());		assert(Src0.Src.has_value() && Src1.Src.has_value());
// Src0s and Src1s are empty, just place arbitrarily.		// Src0s and Src1s are empty, just place arbitrarily.
if (Step == 0) {		if (Step == 0) {
Src0s.push_back({*Src0.Src, (Src0.SrcOffset << 24) + 0x0c0c0c});		Src0s.push_back({*Src0.Src, ((Src0.SrcOffset % 4) << 24) + 0x0c0c0c,
Src1s.push_back({*Src1.Src, (Src1.SrcOffset << 24) + 0x0c0c0c});		Src0.SrcOffset / 4});
		Src1s.push_back({*Src1.Src, ((Src1.SrcOffset % 4) << 24) + 0x0c0c0c,
		Src1.SrcOffset / 4});
return;		return;
}		}

for (int BPI = 0; BPI < 2; BPI++) {		for (int BPI = 0; BPI < 2; BPI++) {
std::pair<ByteProvider<SDValue>, ByteProvider<SDValue>> BPP = {Src0, Src1};		std::pair<ByteProvider<SDValue>, ByteProvider<SDValue>> BPP = {Src0, Src1};
if (BPI == 1) {		if (BPI == 1) {
BPP = {Src1, Src0};		BPP = {Src1, Src0};
}		}
unsigned ZeroMask = 0x0c0c0c0c;		unsigned ZeroMask = 0x0c0c0c0c;
unsigned FMask = 0xFF << (8 * (3 - Step));		unsigned FMask = 0xFF << (8 * (3 - Step));

unsigned FirstMask =		unsigned FirstMask =
BPP.first.SrcOffset << (8 * (3 - Step)) \| (ZeroMask & ~FMask);		(BPP.first.SrcOffset % 4) << (8 * (3 - Step)) \| (ZeroMask & ~FMask);
unsigned SecondMask =		unsigned SecondMask =
BPP.second.SrcOffset << (8 * (3 - Step)) \| (ZeroMask & ~FMask);		(BPP.second.SrcOffset % 4) << (8 * (3 - Step)) \| (ZeroMask & ~FMask);
// Attempt to find Src vector which contains our SDValue, if so, add our		// Attempt to find Src vector which contains our SDValue, if so, add our
// perm mask to the existing one. If we are unable to find a match for the		// perm mask to the existing one. If we are unable to find a match for the
// first SDValue, attempt to find match for the second.		// first SDValue, attempt to find match for the second.
int FirstGroup = -1;		int FirstGroup = -1;
for (int I = 0; I < 2; I++) {		for (int I = 0; I < 2; I++) {
SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs =		SmallVectorImpl<DotSrc> &Srcs = I == 0 ? Src0s : Src1s;
I == 0 ? Src0s : Src1s;		auto MatchesFirst = [&BPP](DotSrc &IterElt) {
auto MatchesFirst = [&BPP](std::pair<SDValue, unsigned> IterElt) {		return IterElt.SrcOp == *BPP.first.Src &&
return IterElt.first == *BPP.first.Src;		(IterElt.DWordOffset == (BPP.first.SrcOffset / 4));
};		};

auto Match = llvm::find_if(Srcs, MatchesFirst);		auto Match = llvm::find_if(Srcs, MatchesFirst);
if (Match != Srcs.end()) {		if (Match != Srcs.end()) {
Match->second = addPermMasks(FirstMask, Match->second);		Match->PermMask = addPermMasks(FirstMask, Match->PermMask);
FirstGroup = I;		FirstGroup = I;
break;		break;
}		}
}		}
if (FirstGroup != -1) {		if (FirstGroup != -1) {
SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs =		SmallVectorImpl<DotSrc> &Srcs = FirstGroup == 1 ? Src0s : Src1s;
FirstGroup == 1 ? Src0s : Src1s;		auto MatchesSecond = [&BPP](DotSrc &IterElt) {
auto MatchesSecond = [&BPP](std::pair<SDValue, unsigned> IterElt) {		return IterElt.SrcOp == *BPP.second.Src &&
return IterElt.first == *BPP.second.Src;		(IterElt.DWordOffset == (BPP.second.SrcOffset / 4));
};		};
auto Match = llvm::find_if(Srcs, MatchesSecond);		auto Match = llvm::find_if(Srcs, MatchesSecond);
if (Match != Srcs.end()) {		if (Match != Srcs.end()) {
Match->second = addPermMasks(SecondMask, Match->second);		Match->PermMask = addPermMasks(SecondMask, Match->PermMask);
} else		} else
Srcs.push_back({*BPP.second.Src, SecondMask});		Srcs.push_back({*BPP.second.Src, SecondMask, BPP.second.SrcOffset / 4});
return;		return;
}		}
}		}

// If we have made it here, then we could not find a match in Src0s or Src1s		// If we have made it here, then we could not find a match in Src0s or Src1s
// for either Src0 or Src1, so just place them arbitrarily.		// for either Src0 or Src1, so just place them arbitrarily.

unsigned ZeroMask = 0x0c0c0c0c;		unsigned ZeroMask = 0x0c0c0c0c;
unsigned FMask = 0xFF << (8 * (3 - Step));		unsigned FMask = 0xFF << (8 * (3 - Step));

Src0s.push_back(		Src0s.push_back(
{Src0.Src, (Src0.SrcOffset << (8 (3 - Step)) \| (ZeroMask & ~FMask))});		{*Src0.Src,
		((Src0.SrcOffset % 4) << (8 * (3 - Step)) \| (ZeroMask & ~FMask)),
		Src1.SrcOffset / 4});
Src1s.push_back(		Src1s.push_back(
{Src1.Src, (Src1.SrcOffset << (8 (3 - Step)) \| (ZeroMask & ~FMask))});		{*Src1.Src,
		((Src1.SrcOffset % 4) << (8 * (3 - Step)) \| (ZeroMask & ~FMask)),
		Src1.SrcOffset / 4});

return;		return;
}		}

static SDValue		static SDValue resolveSources(SelectionDAG &DAG, SDLoc SL,
resolveSources(SelectionDAG &DAG, SDLoc SL,		SmallVectorImpl<DotSrc> &Srcs, bool IsSigned,
SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs,		bool IsAny) {
bool IsSigned, bool IsAny) {

// If we just have one source, just permute it accordingly.		// If we just have one source, just permute it accordingly.
if (Srcs.size() == 1) {		if (Srcs.size() == 1) {
auto Elt = Srcs.begin();		auto Elt = Srcs.begin();
auto EltVal = DAG.getBitcastedAnyExtOrTrunc(Elt->first, SL, MVT::i32);		auto EltOp = getDWordFromOffset(DAG, SL, Elt->SrcOp, Elt->DWordOffset);

// v_perm will produce the original value.		// v_perm will produce the original value
if (Elt->second == 0x3020100)		if (Elt->PermMask == 0x3020100)
return EltVal;		return EltOp;

return DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltVal, EltVal,		return DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltOp, EltOp,
DAG.getConstant(Elt->second, SL, MVT::i32));		DAG.getConstant(Elt->PermMask, SL, MVT::i32));
}		}

auto FirstElt = Srcs.begin();		auto FirstElt = Srcs.begin();
auto SecondElt = std::next(FirstElt);		auto SecondElt = std::next(FirstElt);

SmallVector<SDValue, 2> Perms;		SmallVector<SDValue, 2> Perms;

// If we have multiple sources in the chain, combine them via perms (using		// If we have multiple sources in the chain, combine them via perms (using
// calculated perm mask) and Ors.		// calculated perm mask) and Ors.
while (true) {		while (true) {
auto FirstMask = FirstElt->second;		auto FirstMask = FirstElt->PermMask;
auto SecondMask = SecondElt->second;		auto SecondMask = SecondElt->PermMask;

unsigned FirstCs = FirstMask & 0x0c0c0c0c;		unsigned FirstCs = FirstMask & 0x0c0c0c0c;
unsigned FirstPlusFour = FirstMask \| 0x04040404;		unsigned FirstPlusFour = FirstMask \| 0x04040404;
// 0x0c + 0x04 = 0x10, so anding with 0x0F will produced 0x00 for any		// 0x0c + 0x04 = 0x10, so anding with 0x0F will produced 0x00 for any
// original 0x0C.		// original 0x0C.
FirstMask = (FirstPlusFour & 0x0F0F0F0F) \| FirstCs;		FirstMask = (FirstPlusFour & 0x0F0F0F0F) \| FirstCs;

auto PermMask = addPermMasks(FirstMask, SecondMask);		auto PermMask = addPermMasks(FirstMask, SecondMask);
auto FirstVal =		auto FirstVal =
DAG.getBitcastedAnyExtOrTrunc(FirstElt->first, SL, MVT::i32);		getDWordFromOffset(DAG, SL, FirstElt->SrcOp, FirstElt->DWordOffset);
auto SecondVal =		auto SecondVal =
DAG.getBitcastedAnyExtOrTrunc(SecondElt->first, SL, MVT::i32);		getDWordFromOffset(DAG, SL, SecondElt->SrcOp, SecondElt->DWordOffset);

Perms.push_back(DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, FirstVal,		Perms.push_back(DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, FirstVal,
SecondVal,		SecondVal,
DAG.getConstant(PermMask, SL, MVT::i32)));		DAG.getConstant(PermMask, SL, MVT::i32)));

FirstElt = std::next(SecondElt);		FirstElt = std::next(SecondElt);
if (FirstElt == Srcs.end())		if (FirstElt == Srcs.end())
break;		break;

SecondElt = std::next(FirstElt);		SecondElt = std::next(FirstElt);
// If we only have a FirstElt, then just combine that into the cumulative		// If we only have a FirstElt, then just combine that into the cumulative
// source node.		// source node.
if (SecondElt == Srcs.end()) {		if (SecondElt == Srcs.end()) {
auto EltVal =		auto EltOp =
DAG.getBitcastedAnyExtOrTrunc(FirstElt->first, SL, MVT::i32);		getDWordFromOffset(DAG, SL, FirstElt->SrcOp, FirstElt->DWordOffset);

Perms.push_back(		Perms.push_back(
DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltVal, EltVal,		DAG.getNode(AMDGPUISD::PERM, SL, MVT::i32, EltOp, EltOp,
DAG.getConstant(FirstElt->second, SL, MVT::i32)));		DAG.getConstant(FirstElt->PermMask, SL, MVT::i32)));
break;		break;
}		}
}		}

assert(Perms.size() == 1 \|\| Perms.size() == 2);		assert(Perms.size() == 1 \|\| Perms.size() == 2);
return Perms.size() == 2		return Perms.size() == 2
? DAG.getNode(ISD::OR, SL, MVT::i32, Perms[0], Perms[1])		? DAG.getNode(ISD::OR, SL, MVT::i32, Perms[0], Perms[1])
: Perms[0];		: Perms[0];
}		}

static void fixMasks(SmallVectorImpl<std::pair<SDValue, unsigned>> &Srcs,		static void fixMasks(SmallVectorImpl<DotSrc> &Srcs, unsigned ChainLength) {
unsigned ChainLength) {		for (auto &[EntryVal, EntryMask, EntryOffset] : Srcs) {
for (auto &[EntryVal, EntryMask] : Srcs) {
EntryMask = EntryMask >> ((4 - ChainLength) * 8);		EntryMask = EntryMask >> ((4 - ChainLength) * 8);
auto ZeroMask = ChainLength == 2 ? 0x0c0c0000 : 0x0c000000;		auto ZeroMask = ChainLength == 2 ? 0x0c0c0000 : 0x0c000000;
EntryMask += ZeroMask;		EntryMask += ZeroMask;
}		}
}		}

static bool isMul(const SDValue Op) {		static bool isMul(const SDValue Op) {
auto Opcode = Op.getOpcode();		auto Opcode = Op.getOpcode();
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::performAddCombine(SDNode *N,
if (SDValue V = reassociateScalarOps(N, DAG)) {		if (SDValue V = reassociateScalarOps(N, DAG)) {
return V;		return V;
}		}

if ((isMul(LHS) \|\| isMul(RHS)) && Subtarget->hasDot7Insts() &&		if ((isMul(LHS) \|\| isMul(RHS)) && Subtarget->hasDot7Insts() &&
(Subtarget->hasDot1Insts() \|\| Subtarget->hasDot8Insts())) {		(Subtarget->hasDot1Insts() \|\| Subtarget->hasDot8Insts())) {
SDValue TempNode(N, 0);		SDValue TempNode(N, 0);
std::optional<bool> IsSigned;		std::optional<bool> IsSigned;
SmallVector<std::pair<SDValue, unsigned>, 4> Src0s;		SmallVector<DotSrc, 4> Src0s;
SmallVector<std::pair<SDValue, unsigned>, 4> Src1s;		SmallVector<DotSrc, 4> Src1s;
SmallVector<SDValue, 4> Src2s;		SmallVector<SDValue, 4> Src2s;

// Match the v_dot4 tree, while collecting src nodes.		// Match the v_dot4 tree, while collecting src nodes.
int ChainLength = 0;		int ChainLength = 0;
for (int I = 0; I < 4; I++) {		for (int I = 0; I < 4; I++) {
auto MulIdx = isMul(LHS) ? 0 : isMul(RHS) ? 1 : -1;		auto MulIdx = isMul(LHS) ? 0 : isMul(RHS) ? 1 : -1;
if (MulIdx == -1)		if (MulIdx == -1)
break;		break;
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	if ((isMul(LHS) \|\| isMul(RHS)) && Subtarget->hasDot7Insts() &&

SDValue Src0, Src1;		SDValue Src0, Src1;

// If we are just using a single source for both, and have permuted the		// If we are just using a single source for both, and have permuted the
// bytes consistently, we can just use the sources without permuting		// bytes consistently, we can just use the sources without permuting
// (commutation).		// (commutation).
bool UseOriginalSrc = false;		bool UseOriginalSrc = false;
if (ChainLength == 4 && Src0s.size() == 1 && Src1s.size() == 1 &&		if (ChainLength == 4 && Src0s.size() == 1 && Src1s.size() == 1 &&
Src0s.begin()->second == Src1s.begin()->second &&		Src0s.begin()->PermMask == Src1s.begin()->PermMask &&
Src0s.begin()->first.getValueSizeInBits() == 32 &&		Src0s.begin()->SrcOp.getValueSizeInBits() >= 32 &&
Src1s.begin()->first.getValueSizeInBits() == 32) {		Src1s.begin()->SrcOp.getValueSizeInBits() >= 32) {
SmallVector<unsigned, 4> SrcBytes;		SmallVector<unsigned, 4> SrcBytes;
auto Src0Mask = Src0s.begin()->second;		auto Src0Mask = Src0s.begin()->PermMask;
SrcBytes.push_back(Src0Mask & 0xFF000000);		SrcBytes.push_back(Src0Mask & 0xFF000000);
bool UniqueEntries = true;		bool UniqueEntries = true;
for (auto I = 1; I < 4; I++) {		for (auto I = 1; I < 4; I++) {
auto NextByte = Src0Mask & (0xFF << ((3 - I) * 8));		auto NextByte = Src0Mask & (0xFF << ((3 - I) * 8));

if (is_contained(SrcBytes, NextByte)) {		if (is_contained(SrcBytes, NextByte)) {
UniqueEntries = false;		UniqueEntries = false;
break;		break;
}		}
SrcBytes.push_back(NextByte);		SrcBytes.push_back(NextByte);
}		}

if (UniqueEntries) {		if (UniqueEntries) {
UseOriginalSrc = true;		UseOriginalSrc = true;
// Must be 32 bits to enter above conditional.
assert(Src0s.begin()->first.getValueSizeInBits() == 32);		auto FirstElt = Src0s.begin();
assert(Src1s.begin()->first.getValueSizeInBits() == 32);		auto FirstEltOp =
Src0 = DAG.getBitcast(MVT::getIntegerVT(32), Src0s.begin()->first);		getDWordFromOffset(DAG, SL, FirstElt->SrcOp, FirstElt->DWordOffset);
Src1 = DAG.getBitcast(MVT::getIntegerVT(32), Src1s.begin()->first);
		auto SecondElt = Src1s.begin();
		auto SecondEltOp = getDWordFromOffset(DAG, SL, SecondElt->SrcOp,
		SecondElt->DWordOffset);

		Src0 = DAG.getBitcastedAnyExtOrTrunc(FirstEltOp, SL,
		MVT::getIntegerVT(32));
		Src1 = DAG.getBitcastedAnyExtOrTrunc(SecondEltOp, SL,
		MVT::getIntegerVT(32));
}		}
}		}

if (!UseOriginalSrc) {		if (!UseOriginalSrc) {
Src0 = resolveSources(DAG, SL, Src0s, false, true);		Src0 = resolveSources(DAG, SL, Src0s, false, true);
Src1 = resolveSources(DAG, SL, Src1s, false, true);		Src1 = resolveSources(DAG, SL, Src1s, false, true);
}		}

▲ Show 20 Lines • Show All 2,336 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

Show First 20 Lines • Show All 4,616 Lines • ▼ Show 20 Lines	entry:
%mad22 = add i32 %mad12, %mul4		%mad22 = add i32 %mad12, %mul4
%mad32 = add i32 %mad22, %mul6		%mad32 = add i32 %mad22, %mul6
%mad42 = add i32 %mad32, %mul8		%mad42 = add i32 %mad32, %mul8

store i32 %mad42, ptr addrspace(1) %dst, align 4		store i32 %mad42, ptr addrspace(1) %dst, align 4
ret void		ret void
}		}

		define amdgpu_kernel void @idot4_acc32_hilo(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_hilo:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[4:7], 0 addr64 offset:4
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX7-NEXT: v_mul_u32_u24_e32 v4, v4, v5
		; GFX7-NEXT: v_bfe_u32 v6, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, v4
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v6, v7, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_hilo:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v2, vcc, s4, v0
		; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v1, vcc
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v0
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v4
		; GFX8-NEXT: v_bfe_u32 v5, v4, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v6, 0xff, v2
		; GFX8-NEXT: v_mul_u32_u24_sdwa v7, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX8-NEXT: v_bfe_u32 v8, v2, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v3, v6, v3, v7
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v4
		; GFX8-NEXT: v_mad_u32_u24 v3, v8, v5, v3
		; GFX8-NEXT: v_mad_u32_u24 v2, v2, v4, v3
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_hilo:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5] offset:4
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_hilo:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5] offset:4
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_hilo:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[4:5] offset:4
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX10-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v1, v1, v2, 0
		; GFX10-DL-NEXT: global_store_dword v0, v1, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_hilo:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[4:5] offset:4
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <8 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <8 x i8> %vec1, i64 4
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <8 x i8> %vec1, i64 5
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <8 x i8> %vec1, i64 6
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <8 x i8> %vec1, i64 7
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 3
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_lohi(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_lohi:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64 offset:4
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v6, v0, 16, 8
		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
		; GFX7-NEXT: v_mul_u32_u24_e32 v3, v3, v6
		; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
		; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_lohi:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: v_mov_b32_e32 v3, s7
		; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2
		; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v4
		; GFX8-NEXT: v_bfe_u32 v5, v4, 16, 8
		; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v4
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v2
		; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_2
		; GFX8-NEXT: v_bfe_u32 v8, v2, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v3, v3, v7, v4
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v2
		; GFX8-NEXT: v_mad_u32_u24 v3, v5, v8, v3
		; GFX8-NEXT: v_mad_u32_u24 v2, v6, v2, v3
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_lohi:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7] offset:4
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v4, 24, v2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_lohi:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x10302
		; GFX9-DL-NEXT: s_mov_b32 s1, 0x3020001
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7] offset:4
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_lohi:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7] offset:4
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5]
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0x10302
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0x3020001
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_lohi:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7] offset:4
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0x10302
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0x3020001
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <8 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <8 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 7
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <8 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 6
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <8 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 5
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <8 x i8> %vec1, i64 3
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 4
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_hihi(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_hihi:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64 offset:4
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64 offset:4
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v3, v2, 16, 8
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v5, v0, 16, 8
		; GFX7-NEXT: v_mul_u32_u24_e32 v3, v3, v6
		; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_hihi:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s5
		; GFX8-NEXT: v_add_u32_e32 v2, vcc, s4, v0
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: v_mov_b32_e32 v3, s7
		; GFX8-NEXT: v_add_u32_e32 v4, vcc, s6, v0
		; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v2
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v4
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dword v3, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX8-NEXT: v_bfe_u32 v7, v2, 8, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_bfe_u32 v5, v3, 16, 8
		; GFX8-NEXT: v_mul_u32_u24_sdwa v6, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
		; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v3
		; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, v6
		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
		; GFX8-NEXT: v_bfe_u32 v3, v3, 8, 8
		; GFX8-NEXT: v_mad_u32_u24 v4, v7, v8, v4
		; GFX8-NEXT: v_mad_u32_u24 v2, v2, v3, v4
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_hihi:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5] offset:4
		; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7] offset:4
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_bfe_u32 v4, v2, 16, 8
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_hihi:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x1030200
		; GFX9-DL-NEXT: s_mov_b32 s1, 0x3010002
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v1, v0, s[6:7] offset:4
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[4:5] offset:4
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v1, v1, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v2, v2, s1
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_hihi:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: s_clause 0x1
		; GFX10-DL-NEXT: global_load_dword v1, v0, s[6:7] offset:4
		; GFX10-DL-NEXT: global_load_dword v2, v0, s[4:5] offset:4
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v1, v1, 0x1030200
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v2, v2, 0x3010002
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_hihi:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: s_clause 0x1
		; GFX11-DL-NEXT: global_load_b32 v1, v0, s[6:7] offset:4
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5] offset:4
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0x1030200
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0x3010002
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <8 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <8 x i8> %vec1, i64 4
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 6
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <8 x i8> %vec1, i64 6
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 4
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <8 x i8> %vec1, i64 5
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 7
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <8 x i8> %vec1, i64 7
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 5
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_v8i8(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_v8i8:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s6, 0
		; GFX7-NEXT: s_mov_b32 s7, s3
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v1, 0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v4, v0, 8, 8
		; GFX7-NEXT: v_bfe_u32 v5, v1, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX7-NEXT: v_mul_u32_u24_e32 v4, v4, v5
		; GFX7-NEXT: v_bfe_u32 v6, v0, 16, 8
		; GFX7-NEXT: v_bfe_u32 v7, v1, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v2, v2, v3, v4
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX7-NEXT: v_mad_u32_u24 v2, v6, v7, v2
		; GFX7-NEXT: v_mad_u32_u24 v0, v0, v1, v2
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_v8i8:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX8-NEXT: v_mul_u32_u24_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX8-NEXT: v_bfe_u32 v5, v0, 16, 8
		; GFX8-NEXT: v_bfe_u32 v6, v1, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v2, v2, v3, v4
		; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX8-NEXT: v_mad_u32_u24 v2, v5, v6, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, v0, v1, v2
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_v8i8:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-NODL-NEXT: v_mov_b32_e32 v2, 0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dwordx2 v[0:1], v0, s[2:3]
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v0
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v3, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v0, v1, v6, v0
		; GFX9-NODL-NEXT: global_store_dword v2, v0, s[4:5]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_v8i8:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dwordx2 v[0:1], v0, s[2:3]
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX9-DL-NEXT: global_store_dword v2, v0, s[4:5]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_v8i8:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: global_load_dwordx2 v[0:1], v0, s[2:3]
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_v8i8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b64 s[2:3], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: global_load_b64 v[0:1], v0, s[2:3]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <8 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <8 x i8>, ptr addrspace(1) %gep1


		%v1e0 = extractelement <8 x i8> %vec1, i64 0
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec1, i64 4
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <8 x i8> %vec1, i64 1
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec1, i64 5
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <8 x i8> %vec1, i64 2
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec1, i64 6
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <8 x i8> %vec1, i64 3
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec1, i64 7
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_v16i8(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_v16i8:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v0
		; GFX7-NEXT: v_mov_b32_e32 v2, 0
		; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]
		; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v5, v2
		; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[1:2], s[8:11], 0 addr64
		; GFX7-NEXT: buffer_load_dword v0, v[4:5], s[4:7], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
		; GFX7-NEXT: v_mul_u32_u24_e32 v2, v2, v5
		; GFX7-NEXT: v_bfe_u32 v6, v3, 8, 8
		; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v1, v1, v4, v2
		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
		; GFX7-NEXT: v_mad_u32_u24 v1, v6, v7, v1
		; GFX7-NEXT: v_mad_u32_u24 v0, v3, v0, v1
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_v16i8:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 4, v0
		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v2, s5
		; GFX8-NEXT: v_add_u32_e32 v1, vcc, s4, v1
		; GFX8-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
		; GFX8-NEXT: v_mov_b32_e32 v3, s7
		; GFX8-NEXT: v_add_u32_e32 v4, vcc, s6, v0
		; GFX8-NEXT: v_addc_u32_e32 v5, vcc, 0, v3, vcc
		; GFX8-NEXT: flat_load_dwordx4 v[0:3], v[1:2]
		; GFX8-NEXT: flat_load_dword v4, v[4:5]
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: v_and_b32_e32 v5, 0xff, v2
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_and_b32_e32 v6, 0xff, v4
		; GFX8-NEXT: v_mul_u32_u24_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_1
		; GFX8-NEXT: v_bfe_u32 v7, v3, 8, 8
		; GFX8-NEXT: v_bfe_u32 v8, v4, 16, 8
		; GFX8-NEXT: v_mad_u32_u24 v2, v5, v6, v2
		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v4
		; GFX8-NEXT: v_mad_u32_u24 v2, v7, v8, v2
		; GFX8-NEXT: v_mad_u32_u24 v2, v3, v4, v2
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_v16i8:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v4, 4, v0
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v5, 3, v0
		; GFX9-NODL-NEXT: ; kill: killed $vgpr5
		; GFX9-NODL-NEXT: ; kill: killed $vgpr4
		; GFX9-NODL-NEXT: ; kill: killed $sgpr4_sgpr5_sgpr6 killed $sgpr7
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dwordx4 v[0:3], v4, s[4:5]
		; GFX9-NODL-NEXT: global_load_dword v0, v5, s[6:7]
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v5, 0xff, v0
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v2, v4, v5, v2
		; GFX9-NODL-NEXT: v_add3_u32 v0, v2, v6, v0
		; GFX9-NODL-NEXT: global_store_dword v1, v0, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_v16i8:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v4, 4, v0
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v5, 3, v0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x7050002
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dwordx4 v[0:3], v4, s[4:5]
		; GFX9-DL-NEXT: global_load_dword v0, v5, s[6:7]
		; GFX9-DL-NEXT: s_mov_b32 s1, 0x3020001
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-DL-NEXT: ; kill: killed $vgpr5
		; GFX9-DL-NEXT: ; kill: killed $vgpr4
		; GFX9-DL-NEXT: ; kill: killed $sgpr4_sgpr5_sgpr6 killed $sgpr7
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v2, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v0, v0, v0, s1
		; GFX9-DL-NEXT: v_dot4_u32_u8 v0, v2, v0, 0
		; GFX9-DL-NEXT: global_store_dword v1, v0, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_v16i8:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v4, 4, v0
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v5, 3, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: ; kill: killed $vgpr5
		; GFX10-DL-NEXT: ; kill: killed $vgpr4
		; GFX10-DL-NEXT: ; kill: killed $sgpr4_sgpr5_sgpr6 killed $sgpr7
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: global_load_dwordx4 v[0:3], v4, s[4:5]
		; GFX10-DL-NEXT: global_load_dword v0, v5, s[6:7]
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v2, 0x7050002
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v0, v0, v0, 0x3020001
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_v16i8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v1, 4, v0
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v4, 3, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: global_load_b128 v[0:3], v1, s[4:5]
		; GFX11-DL-NEXT: global_load_b32 v0, v4, s[6:7]
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v3, v2, 0x7050002
		; GFX11-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0x3020001
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <16 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <16 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <16 x i8> %vec1, i64 8
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <16 x i8> %vec1, i64 10
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <16 x i8> %vec1, i64 13
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <16 x i8> %vec1, i64 15
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 3
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

		define amdgpu_kernel void @idot4_acc32_v256i8(ptr addrspace(1) %src1,
		; GFX7-LABEL: idot4_acc32_v256i8:
		; GFX7: ; %bb.0: ; %entry
		; GFX7-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
		; GFX7-NEXT: s_mov_b32 s3, 0xf000
		; GFX7-NEXT: s_mov_b32 s10, 0
		; GFX7-NEXT: s_mov_b32 s11, s3
		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v0
		; GFX7-NEXT: v_mov_b32_e32 v2, 0
		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
		; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
		; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v0
		; GFX7-NEXT: v_mov_b32_e32 v4, v2
		; GFX7-NEXT: buffer_load_dword v0, v[1:2], s[4:7], 0 addr64 offset:252
		; GFX7-NEXT: buffer_load_dword v1, v[3:4], s[8:11], 0 addr64
		; GFX7-NEXT: s_mov_b32 s2, -1
		; GFX7-NEXT: s_waitcnt vmcnt(1)
		; GFX7-NEXT: v_bfe_u32 v4, v0, 16, 8
		; GFX7-NEXT: s_waitcnt vmcnt(0)
		; GFX7-NEXT: v_bfe_u32 v5, v1, 8, 8
		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v1
		; GFX7-NEXT: v_mul_u32_u24_e32 v4, v4, v5
		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v7, v1, 16, 8
		; GFX7-NEXT: v_mad_u32_u24 v2, v2, v3, v4
		; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8
		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v1
		; GFX7-NEXT: v_mad_u32_u24 v2, v6, v7, v2
		; GFX7-NEXT: v_mad_u32_u24 v0, v0, v1, v2
		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
		; GFX7-NEXT: s_endpgm
		;
		; GFX8-LABEL: idot4_acc32_v256i8:
		; GFX8: ; %bb.0: ; %entry
		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 8, v0
		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX8-NEXT: s_movk_i32 s2, 0xfc
		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
		; GFX8-NEXT: v_mov_b32_e32 v2, s5
		; GFX8-NEXT: v_add_u32_e32 v3, vcc, s4, v1
		; GFX8-NEXT: v_addc_u32_e32 v2, vcc, 0, v2, vcc
		; GFX8-NEXT: v_mov_b32_e32 v1, s7
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v0
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
		; GFX8-NEXT: flat_load_dword v4, v[0:1]
		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v3
		; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
		; GFX8-NEXT: flat_load_dword v2, v[0:1]
		; GFX8-NEXT: v_mov_b32_e32 v0, s0
		; GFX8-NEXT: v_mov_b32_e32 v1, s1
		; GFX8-NEXT: s_waitcnt vmcnt(1)
		; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v4
		; GFX8-NEXT: v_bfe_u32 v5, v4, 16, 8
		; GFX8-NEXT: s_waitcnt vmcnt(0)
		; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v2
		; GFX8-NEXT: v_mul_u32_u24_sdwa v7, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_1
		; GFX8-NEXT: v_and_b32_e32 v8, 0xff, v2
		; GFX8-NEXT: v_mad_u32_u24 v3, v6, v3, v7
		; GFX8-NEXT: v_bfe_u32 v2, v2, 8, 8
		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 24, v4
		; GFX8-NEXT: v_mad_u32_u24 v3, v8, v5, v3
		; GFX8-NEXT: v_mad_u32_u24 v2, v2, v4, v3
		; GFX8-NEXT: flat_store_dword v[0:1], v2
		; GFX8-NEXT: s_endpgm
		;
		; GFX9-NODL-LABEL: idot4_acc32_v256i8:
		; GFX9-NODL: ; %bb.0: ; %entry
		; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v1, 8, v0
		; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-NODL-NEXT: global_load_dword v2, v1, s[4:5] offset:252
		; GFX9-NODL-NEXT: global_load_dword v3, v0, s[6:7]
		; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v2
		; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v3
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_1
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_2
		; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_3
		; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v1, v4, v5
		; GFX9-NODL-NEXT: v_add3_u32 v1, v1, v6, v2
		; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-NODL-NEXT: s_endpgm
		;
		; GFX9-DL-LABEL: idot4_acc32_v256i8:
		; GFX9-DL: ; %bb.0: ; %entry
		; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v1, 8, v0
		; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 3, v0
		; GFX9-DL-NEXT: s_mov_b32 s0, 0x3020001
		; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
		; GFX9-DL-NEXT: global_load_dword v3, v1, s[4:5] offset:252
		; GFX9-DL-NEXT: s_mov_b32 s1, 0x1000302
		; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX9-DL-NEXT: v_perm_b32 v1, v2, v2, s0
		; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX9-DL-NEXT: v_perm_b32 v2, v3, v3, s1
		; GFX9-DL-NEXT: v_dot4_u32_u8 v1, v2, v1, 0
		; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
		; GFX9-DL-NEXT: s_endpgm
		;
		; GFX10-DL-LABEL: idot4_acc32_v256i8:
		; GFX10-DL: ; %bb.0: ; %entry
		; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v1, 3, v0
		; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 8, v0
		; GFX10-DL-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
		; GFX10-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX10-DL-NEXT: global_load_dword v2, v1, s[6:7]
		; GFX10-DL-NEXT: global_load_dword v3, v0, s[4:5] offset:252
		; GFX10-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX10-DL-NEXT: v_perm_b32 v0, v2, v2, 0x3020001
		; GFX10-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX10-DL-NEXT: v_perm_b32 v1, v3, v3, 0x1000302
		; GFX10-DL-NEXT: v_mov_b32_e32 v2, 0
		; GFX10-DL-NEXT: v_dot4_u32_u8 v0, v1, v0, 0
		; GFX10-DL-NEXT: global_store_dword v2, v0, s[0:1]
		; GFX10-DL-NEXT: s_endpgm
		;
		; GFX11-DL-LABEL: idot4_acc32_v256i8:
		; GFX11-DL: ; %bb.0: ; %entry
		; GFX11-DL-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
		; GFX11-DL-NEXT: v_dual_mov_b32 v2, 0 :: v_dual_lshlrev_b32 v1, 3, v0
		; GFX11-DL-NEXT: v_lshlrev_b32_e32 v0, 8, v0
		; GFX11-DL-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
		; GFX11-DL-NEXT: s_waitcnt lgkmcnt(0)
		; GFX11-DL-NEXT: global_load_b32 v1, v1, s[6:7]
		; GFX11-DL-NEXT: global_load_b32 v0, v0, s[4:5] offset:252
		; GFX11-DL-NEXT: s_waitcnt vmcnt(1)
		; GFX11-DL-NEXT: v_perm_b32 v1, v1, v1, 0x3020001
		; GFX11-DL-NEXT: s_waitcnt vmcnt(0)
		; GFX11-DL-NEXT: v_perm_b32 v0, v0, v0, 0x1000302
		; GFX11-DL-NEXT: s_delay_alu instid0(VALU_DEP_1)
		; GFX11-DL-NEXT: v_dot4_u32_u8 v0, v0, v1, 0
		; GFX11-DL-NEXT: global_store_b32 v2, v0, s[0:1]
		; GFX11-DL-NEXT: s_nop 0
		; GFX11-DL-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
		; GFX11-DL-NEXT: s_endpgm
		ptr addrspace(1) %src2,
		ptr addrspace(1) nocapture %dst) {
		entry:
		%idx = call i32 @llvm.amdgcn.workitem.id.x()
		%gep1 = getelementptr <256 x i8>, ptr addrspace(1) %src1, i32 %idx
		%vec1 = load <256 x i8>, ptr addrspace(1) %gep1
		%gep2 = getelementptr <8 x i8>, ptr addrspace(1) %src2, i32 %idx
		%vec2 = load <8 x i8>, ptr addrspace(1) %gep2

		%v1e0 = extractelement <256 x i8> %vec1, i64 255
		%cv1e0 = zext i8 %v1e0 to i32
		%v2e0 = extractelement <8 x i8> %vec2, i64 0
		%cv2e0 = zext i8 %v2e0 to i32
		%mul1 = mul nuw nsw i32 %cv1e0, %cv2e0

		%v1e1 = extractelement <256 x i8> %vec1, i64 254
		%cv1e1 = zext i8 %v1e1 to i32
		%v2e1 = extractelement <8 x i8> %vec2, i64 1
		%cv2e1 = zext i8 %v2e1 to i32
		%mul2 = mul nuw nsw i32 %cv1e1, %cv2e1

		%v1e2 = extractelement <256 x i8> %vec1, i64 252
		%cv1e2 = zext i8 %v1e2 to i32
		%v2e2 = extractelement <8 x i8> %vec2, i64 2
		%cv2e2 = zext i8 %v2e2 to i32
		%mul3 = mul nuw nsw i32 %cv1e2, %cv2e2

		%v1e3 = extractelement <256 x i8> %vec1, i64 253
		%cv1e3 = zext i8 %v1e3 to i32
		%v2e3 = extractelement <8 x i8> %vec2, i64 3
		%cv2e3 = zext i8 %v2e3 to i32
		%mul4 = mul nuw nsw i32 %cv1e3, %cv2e3

		%add1 = add i32 %mul1, 0
		%add2 = add i32 %add1, %mul2
		%add3 = add i32 %add2, %mul3
		%add4 = add i32 %add3, %mul4
		store i32 %add4, ptr addrspace(1) %dst, align 4
		ret void
		}

declare i32 @llvm.amdgcn.workitem.id.x()		declare i32 @llvm.amdgcn.workitem.id.x()

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

	Show First 20 Lines • Show All 2,220 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: s_load_dword s4, s[4:5], 0x10			; VI-NEXT: s_load_dword s4, s[4:5], 0x10
	; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0			; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: s_lshl_b32 s1, s4, 16
	; VI-NEXT: s_mov_b32 s2, 0xffff
	; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4
	; VI-NEXT: v_mov_b32_e32 v6, s1			; VI-NEXT: s_lshl_b32 s0, s4, 16
				; VI-NEXT: v_mov_b32_e32 v5, s1
				; VI-NEXT: v_mov_b32_e32 v6, s0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v3, s2, v3, v3
	; VI-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: v_or_b32_sdwa v1, v1, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v8f16_3:			; CI-LABEL: v_insertelement_v8f16_3:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: s_load_dword s4, s[4:5], 0x10			; VI-NEXT: s_load_dword s4, s[4:5], 0x10
	; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0			; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v4			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v4
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: s_mov_b32 s2, 0xffff
	; VI-NEXT: v_mov_b32_e32 v5, s1			; VI-NEXT: v_mov_b32_e32 v5, s1
	; VI-NEXT: v_mov_b32_e32 v6, s4
	; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, s0, v4
				; VI-NEXT: s_mov_b32 s0, 0xffff
				; VI-NEXT: v_mov_b32_e32 v6, s4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_bfi_b32 v3, s2, v6, v3			; VI-NEXT: v_bfi_b32 v3, s0, v6, v3
	; VI-NEXT: v_bfi_b32 v1, s2, v1, v1
	; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; VI-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: v_insertelement_v8i16_6:			; CI-LABEL: v_insertelement_v8i16_6:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; CI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; CI-NEXT: s_load_dword s4, s[4:5], 0x4			; CI-NEXT: s_load_dword s4, s[4:5], 0x4
	; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v0			; CI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
	▲ Show 20 Lines • Show All 875 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-hi16.ll

	Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX906-NEXT: v_perm_b32 v0, v0, v1, s4
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_local_hi_v2i16_reglo:			; GFX803-LABEL: load_local_hi_v2i16_reglo:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v0, v0			; GFX803-NEXT: ds_read_u16 v0, v0
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_reglo:			; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_reglo:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: ds_read_u16_d16_hi v1, v0			; GFX900-FLATSCR-NEXT: ds_read_u16_d16_hi v1, v0
	; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v0, v1			; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v0, v1
	Show All 26 Lines
	; GFX906-NEXT: s_waitcnt vmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0)
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg:			; GFX803-LABEL: load_local_hi_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v0, v0			; GFX803-NEXT: ds_read_u16 v0, v0
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v1, v0, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX803-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_reglo_vreg:			; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_reglo_vreg:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: ds_read_u16_d16_hi v1, v0			; GFX900-FLATSCR-NEXT: ds_read_u16_d16_hi v1, v0
	▲ Show 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg:			; GFX803-LABEL: load_global_hi_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX803-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_global_hi_v2i16_reglo_vreg:			; GFX900-FLATSCR-LABEL: load_global_hi_v2i16_reglo_vreg:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:-4094			; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:-4094
	▲ Show 20 Lines • Show All 291 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: global_store_dword v[0:1], v0, off			; GFX906-NEXT: global_store_dword v[0:1], v0, off
	; GFX906-NEXT: s_waitcnt vmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0)
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg:			; GFX803-LABEL: load_flat_hi_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX803-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_flat_hi_v2i16_reglo_vreg:			; GFX900-FLATSCR-LABEL: load_flat_hi_v2i16_reglo_vreg:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: flat_load_short_d16_hi v2, v[0:1]			; GFX900-FLATSCR-NEXT: flat_load_short_d16_hi v2, v[0:1]
	▲ Show 20 Lines • Show All 275 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: global_store_dword v[0:1], v0, off			; GFX906-NEXT: global_store_dword v[0:1], v0, off
	; GFX906-NEXT: s_waitcnt vmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0)
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg:			; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4094
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg:			; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: scratch_load_short_d16_hi v0, off, s32 offset:4094			; GFX900-FLATSCR-NEXT: scratch_load_short_d16_hi v0, off, s32 offset:4094
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: s_waitcnt vmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0)
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:			; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], 0 offset:4094 glc
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:			; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg_nooff:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: s_movk_i32 s0, 0xffe			; GFX900-FLATSCR-NEXT: s_movk_i32 s0, 0xffe
	▲ Show 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_constant_hi_v2i16_reglo_vreg:			; GFX803-LABEL: load_constant_hi_v2i16_reglo_vreg:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0			; GFX803-NEXT: v_add_u32_e32 v0, vcc, 0xfffff002, v0
	; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc			; GFX803-NEXT: v_addc_u32_e32 v1, vcc, -1, v1, vcc
	; GFX803-NEXT: flat_load_ushort v0, v[0:1]			; GFX803-NEXT: flat_load_ushort v0, v[0:1]
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v2, v0, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX803-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_constant_hi_v2i16_reglo_vreg:			; GFX900-FLATSCR-LABEL: load_constant_hi_v2i16_reglo_vreg:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:-4094			; GFX900-FLATSCR-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:-4094
	▲ Show 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	;			;
	; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:			; GFX803-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b			; GFX803-NEXT: v_mov_b32_e32 v2, 0x7b
	; GFX803-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen			; GFX803-NEXT: buffer_store_dword v2, v1, s[0:3], 0 offen
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4058			; GFX803-NEXT: buffer_load_ushort v1, off, s[0:3], s32 offset:4058
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: v_perm_b32 v0, v0, v1, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX803-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: flat_store_dword v[0:1], v0			; GFX803-NEXT: flat_store_dword v[0:1], v0
	; GFX803-NEXT: s_waitcnt vmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:			; GFX900-FLATSCR-LABEL: load_private_hi_v2i16_reglo_vreg_to_offset:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, 0x7b			; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, 0x7b
	▲ Show 20 Lines • Show All 590 Lines • ▼ Show 20 Lines
	; GFX906-NEXT: s_waitcnt lgkmcnt(0)			; GFX906-NEXT: s_waitcnt lgkmcnt(0)
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX803-LABEL: load_local_hi_v2i16_store_local_lo:			; GFX803-LABEL: load_local_hi_v2i16_store_local_lo:
	; GFX803: ; %bb.0: ; %entry			; GFX803: ; %bb.0: ; %entry
	; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX803-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX803-NEXT: s_mov_b32 m0, -1			; GFX803-NEXT: s_mov_b32 m0, -1
	; GFX803-NEXT: ds_read_u16 v2, v1			; GFX803-NEXT: ds_read_u16 v2, v1
	; GFX803-NEXT: s_mov_b32 s4, 0x1000504
	; GFX803-NEXT: ds_write_b16 v1, v0			; GFX803-NEXT: ds_write_b16 v1, v0
	; GFX803-NEXT: s_waitcnt lgkmcnt(1)			; GFX803-NEXT: s_waitcnt lgkmcnt(1)
	; GFX803-NEXT: v_perm_b32 v2, v0, v2, s4			; GFX803-NEXT: v_lshlrev_b32_e32 v2, 16, v2
				; GFX803-NEXT: v_or_b32_sdwa v2, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX803-NEXT: v_mov_b32_e32 v0, v2			; GFX803-NEXT: v_mov_b32_e32 v0, v2
	; GFX803-NEXT: s_waitcnt lgkmcnt(0)			; GFX803-NEXT: s_waitcnt lgkmcnt(0)
	; GFX803-NEXT: s_setpc_b64 s[30:31]			; GFX803-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_store_local_lo:			; GFX900-FLATSCR-LABEL: load_local_hi_v2i16_store_local_lo:
	; GFX900-FLATSCR: ; %bb.0: ; %entry			; GFX900-FLATSCR: ; %bb.0: ; %entry
	; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX900-FLATSCR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, v0			; GFX900-FLATSCR-NEXT: v_mov_b32_e32 v2, v0
	Show All 15 Lines

llvm/test/CodeGen/AMDGPU/permute.ll

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	bb:
%tmp = load i32, ptr addrspace(1) %gep, align 4		%tmp = load i32, ptr addrspace(1) %gep, align 4
%tmp2 = and i32 %tmp, -16711936		%tmp2 = and i32 %tmp, -16711936
%tmp3 = and i32 %arg1, 16711935		%tmp3 = and i32 %arg1, 16711935
%tmp4 = or i32 %tmp2, %tmp3		%tmp4 = or i32 %tmp2, %tmp3
store i32 %tmp4, ptr addrspace(1) %gep, align 4		store i32 %tmp4, ptr addrspace(1) %gep, align 4
ret void		ret void
}		}

		; FIXME: produce v_alignbit_b32 v2, v2, s0, 24 instead of v_perm
define amdgpu_kernel void @lsh8_or_lsr24(ptr addrspace(1) nocapture %arg, i32 %arg1) {		define amdgpu_kernel void @lsh8_or_lsr24(ptr addrspace(1) nocapture %arg, i32 %arg1) {
; GCN-LABEL: lsh8_or_lsr24:		; GCN-LABEL: lsh8_or_lsr24:
; GCN: ; %bb.0: ; %bb		; GCN: ; %bb.0: ; %bb
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GCN-NEXT: s_load_dword s0, s[0:1], 0x2c		; GCN-NEXT: s_load_dword s0, s[0:1], 0x2c
; GCN-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GCN-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GCN-NEXT: v_mov_b32_e32 v3, 0x2010007
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v1, s3		; GCN-NEXT: v_mov_b32_e32 v1, s3
; GCN-NEXT: v_add_u32_e32 v0, vcc, s2, v0		; GCN-NEXT: v_add_u32_e32 v0, vcc, s2, v0
; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc		; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
; GCN-NEXT: flat_load_dword v2, v[0:1]		; GCN-NEXT: flat_load_dword v2, v[0:1]
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_alignbit_b32 v2, v2, s0, 24		; GCN-NEXT: v_perm_b32 v2, s0, v2, v3
; GCN-NEXT: flat_store_dword v[0:1], v2		; GCN-NEXT: flat_store_dword v[0:1], v2
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
bb:		bb:
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr i32, ptr addrspace(1) %arg, i32 %id		%gep = getelementptr i32, ptr addrspace(1) %arg, i32 %id
%tmp = load i32, ptr addrspace(1) %gep, align 4		%tmp = load i32, ptr addrspace(1) %gep, align 4
%tmp2 = shl i32 %tmp, 8		%tmp2 = shl i32 %tmp, 8
%tmp3 = lshr i32 %arg1, 24		%tmp3 = lshr i32 %arg1, 24
▲ Show 20 Lines • Show All 261 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/permute_i8.ll

Show First 20 Lines • Show All 3,398 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%byte3 = shl i32 %zv2b3, 24		%byte3 = shl i32 %zv2b3, 24

%tmp0 = or i32 %zv1b, %byte1		%tmp0 = or i32 %zv1b, %byte1
%tmp1 = or i32 %tmp0, %byte2		%tmp1 = or i32 %tmp0, %byte2
%res = or i32 %tmp1, %byte3		%res = or i32 %tmp1, %byte3
store i32 %res, ptr addrspace(1) %out0, align 4		store i32 %res, ptr addrspace(1) %out0, align 4
ret void		ret void
}		}

		define hidden void @extract_hilo(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_hilo:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX10-NEXT: global_load_dword v7, v[2:3], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v6, v7, 0x3060505
		; GFX10-NEXT: global_store_dword v[4:5], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_hilo:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX9-NEXT: global_load_dword v7, v[2:3], off
		; GFX9-NEXT: s_mov_b32 s4, 0x3060505
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v6, v7, s4
		; GFX9-NEXT: global_store_dword v[4:5], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <8 x i8>, ptr addrspace(1) %in0, align 4
		%vec2 = load <8 x i8>, ptr addrspace(1) %in1, align 4
		%v1e5 = extractelement <8 x i8> %vec1, i64 5
		%zv1e5 = zext i8 %v1e5 to i32
		%byte1 = shl i32 %zv1e5, 8

		%v1e6 = extractelement <8 x i8> %vec1, i64 6
		%zv1e6 = zext i8 %v1e6 to i32
		%byte2 = shl i32 %zv1e6, 16
		%v2e3 = extractelement <8 x i8> %vec2, i64 3
		%zv2e3 = zext i8 %v2e3 to i32
		%byte3 = shl i32 %zv2e3, 24

		%tmp0 = or i32 %zv1e5, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}

		define hidden void @extract_lohi(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_lohi:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dword v6, v[0:1], off
		; GFX10-NEXT: global_load_dword v7, v[2:3], off offset:4
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v6, v7, 0x70404
		; GFX10-NEXT: global_store_dword v[4:5], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_lohi:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v6, v[0:1], off
		; GFX9-NEXT: global_load_dword v7, v[2:3], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x70404
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v6, v7, s4
		; GFX9-NEXT: global_store_dword v[4:5], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <8 x i8>, ptr addrspace(1) %in0, align 4
		%vec2 = load <8 x i8>, ptr addrspace(1) %in1, align 4
		%v1e0 = extractelement <8 x i8> %vec1, i64 0
		%zv1e0 = zext i8 %v1e0 to i32
		%byte1 = shl i32 %zv1e0, 8

		%v1e3 = extractelement <8 x i8> %vec1, i64 3
		%zv1e3 = zext i8 %v1e3 to i32
		%byte2 = shl i32 %zv1e3, 16
		%v2e4 = extractelement <8 x i8> %vec2, i64 4
		%zv2e4 = zext i8 %v2e4 to i32
		%byte3 = shl i32 %zv2e4, 24

		%tmp0 = or i32 %zv1e0, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}

		define hidden void @extract_hihi(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_hihi:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX10-NEXT: global_load_dword v7, v[2:3], off offset:4
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v6, v7, 0x2070505
		; GFX10-NEXT: global_store_dword v[4:5], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_hihi:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v6, v[0:1], off offset:4
		; GFX9-NEXT: global_load_dword v7, v[2:3], off offset:4
		; GFX9-NEXT: s_mov_b32 s4, 0x2070505
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v6, v7, s4
		; GFX9-NEXT: global_store_dword v[4:5], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <8 x i8>, ptr addrspace(1) %in0, align 4
		%vec2 = load <8 x i8>, ptr addrspace(1) %in1, align 4
		%v1e5 = extractelement <8 x i8> %vec1, i64 5
		%zv1e5 = zext i8 %v1e5 to i32
		%byte1 = shl i32 %zv1e5, 8

		%v1e7 = extractelement <8 x i8> %vec1, i64 7
		%zv1e7 = zext i8 %v1e7 to i32
		%byte2 = shl i32 %zv1e7, 16
		%v2e6 = extractelement <8 x i8> %vec2, i64 6
		%zv2e6 = zext i8 %v2e6 to i32
		%byte3 = shl i32 %zv2e6, 24

		%tmp0 = or i32 %zv1e5, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}

		define hidden void @extract_v8i8(ptr addrspace(1) %in0, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_v8i8:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v1, v0, 0x1070404
		; GFX10-NEXT: global_store_dword v[2:3], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_v8i8:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
		; GFX9-NEXT: s_mov_b32 s4, 0x1070404
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v1, v0, s4
		; GFX9-NEXT: global_store_dword v[2:3], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <8 x i8>, ptr addrspace(1) %in0, align 4
		%v1e4 = extractelement <8 x i8> %vec1, i64 4
		%zv1e4 = zext i8 %v1e4 to i32
		%byte1 = shl i32 %zv1e4, 8

		%v1e7 = extractelement <8 x i8> %vec1, i64 7
		%zv1e7 = zext i8 %v1e7 to i32
		%byte2 = shl i32 %zv1e7, 16
		%v2e1 = extractelement <8 x i8> %vec1, i64 1
		%zv2e1 = zext i8 %v2e1 to i32
		%byte3 = shl i32 %zv2e1, 24

		%tmp0 = or i32 %zv1e4, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}

		define hidden void @extract_v256i8(ptr addrspace(1) %in0, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_v256i8:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dword v0, v[0:1], off offset:252
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_perm_b32 v0, v0, v0, 0x6050707
		; GFX10-NEXT: global_store_dword v[2:3], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_v256i8:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dword v0, v[0:1], off offset:252
		; GFX9-NEXT: s_mov_b32 s4, 0x6050707
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_perm_b32 v0, v0, v0, s4
		; GFX9-NEXT: global_store_dword v[2:3], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <256 x i8>, ptr addrspace(1) %in0, align 4
		%v1e4 = extractelement <256 x i8> %vec1, i64 255
		%zv1e4 = zext i8 %v1e4 to i32
		%byte1 = shl i32 %zv1e4, 8

		%v1e7 = extractelement <256 x i8> %vec1, i64 253
		%zv1e7 = zext i8 %v1e7 to i32
		%byte2 = shl i32 %zv1e7, 16
		%v2e1 = extractelement <256 x i8> %vec1, i64 254
		%zv2e1 = zext i8 %v2e1 to i32
		%byte3 = shl i32 %zv2e1, 24

		%tmp0 = or i32 %zv1e4, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}

		; TODO : support this pattern
		define hidden void @extract_3src(ptr addrspace(1) %in0, ptr addrspace(1) %in1, ptr addrspace(1) %out0) {
		; GFX10-LABEL: extract_3src:
		; GFX10: ; %bb.0:
		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX10-NEXT: global_load_dwordx2 v[6:7], v[0:1], off
		; GFX10-NEXT: global_load_dword v8, v[2:3], off offset:4
		; GFX10-NEXT: s_waitcnt vmcnt(1)
		; GFX10-NEXT: v_lshlrev_b32_e32 v0, 8, v7
		; GFX10-NEXT: s_waitcnt vmcnt(0)
		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 8, v8
		; GFX10-NEXT: v_and_b32_e32 v2, 0xff, v6
		; GFX10-NEXT: v_and_b32_e32 v0, 0xff0000, v0
		; GFX10-NEXT: v_and_b32_e32 v1, 0xff000000, v1
		; GFX10-NEXT: v_lshl_or_b32 v2, v2, 8, v2
		; GFX10-NEXT: v_or3_b32 v0, v2, v0, v1
		; GFX10-NEXT: global_store_dword v[4:5], v0, off
		; GFX10-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX9-LABEL: extract_3src:
		; GFX9: ; %bb.0:
		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX9-NEXT: global_load_dwordx2 v[6:7], v[0:1], off
		; GFX9-NEXT: global_load_dword v8, v[2:3], off offset:4
		; GFX9-NEXT: s_waitcnt vmcnt(1)
		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v6
		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 8, v7
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v8
		; GFX9-NEXT: v_and_b32_e32 v1, 0xff0000, v1
		; GFX9-NEXT: v_and_b32_e32 v2, 0xff000000, v2
		; GFX9-NEXT: v_lshl_or_b32 v0, v0, 8, v0
		; GFX9-NEXT: v_or3_b32 v0, v0, v1, v2
		; GFX9-NEXT: global_store_dword v[4:5], v0, off
		; GFX9-NEXT: s_waitcnt vmcnt(0)
		; GFX9-NEXT: s_setpc_b64 s[30:31]
		%vec1 = load <8 x i8>, ptr addrspace(1) %in0, align 4
		%vec2 = load <8 x i8>, ptr addrspace(1) %in1, align 4
		%v1e0 = extractelement <8 x i8> %vec1, i64 0
		%zv1e0 = zext i8 %v1e0 to i32
		%byte1 = shl i32 %zv1e0, 8

		%v1e5 = extractelement <8 x i8> %vec1, i64 5
		%zv1e5 = zext i8 %v1e5 to i32
		%byte2 = shl i32 %zv1e5, 16
		%v2e6 = extractelement <8 x i8> %vec2, i64 6
		%zv2e6 = zext i8 %v2e6 to i32
		%byte3 = shl i32 %zv2e6, 24

		%tmp0 = or i32 %zv1e0, %byte1
		%tmp1 = or i32 %tmp0, %byte2
		%res = or i32 %tmp1, %byte3
		store i32 %res, ptr addrspace(1) %out0, align 4
		ret void
		}