This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add s_nop WaitStates between neighboring mfma
ClosedPublic

Authored by kerbowa on Mar 10 2022, 6:48 PM.

Download Raw Diff

Details

Reviewers

rampitec
arsenm
foad

Commits

rG1e15adba62a9: [AMDGPU] Add s_nop WaitStates between neighboring mfma

Summary

In some cases padding bubbles between sequential MFMA instructions may
lead to increased inter-wave performance. Add option to request to pad
some portion of these stall cycles with s_nops.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

kerbowa created this revision.Mar 10 2022, 6:48 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 10 2022, 6:48 PM

Herald added subscribers: hiraditya, t-tye, tpr and 5 others. · View Herald Transcript

kerbowa requested review of this revision.Mar 10 2022, 6:48 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 10 2022, 6:48 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Harbormaster completed remote builds in B153696: Diff 414554.Mar 10 2022, 7:19 PM

arsenm added inline comments.Mar 10 2022, 7:21 PM

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp
44	I'm not sure what a percentage means here
270–271	Why does this need to parse a name?

Add early exit.

Harbormaster completed remote builds in B153714: Diff 414578.Mar 10 2022, 10:56 PM

rampitec added inline comments.Mar 11 2022, 10:19 AM

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp
44	Yep, it shall have a text this is percentage of the mfma latency.
270	If you must compare string it is better to find this MCProcResourceDesc once and then compare the pointer.

Remove gfx90a for now.
Don't parse HWXDL proc resource since all gfx908 MFMA use HWXDL.
Add more detailed comments.

rampitec added inline comments.Mar 21 2022, 11:03 AM

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp
1397	Longest MAI is 64 cycles. You may want to move your code to the top as it can bring longest nop sequence.

Harbormaster completed remote builds in B155440: Diff 417013.Mar 21 2022, 11:36 AM

kerbowa added inline comments.Mar 23 2022, 11:41 AM

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp
1397	Isn't MFMA32x32WritesAGPRAccVgprReadWaitStates longer than 64 cycles? Max wait for padding should be 16 wait states versus 18.

LGTM

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp
1397	Right, I forgot it is divided by 4.

This revision is now accepted and ready to land.Mar 23 2022, 11:48 AM

Closed by commit rG1e15adba62a9: [AMDGPU] Add s_nop WaitStates between neighboring mfma (authored by kerbowa). · Explain WhyMar 23 2022, 1:57 PM

This revision was automatically updated to reflect the committed changes.

kerbowa added a commit: rG1e15adba62a9: [AMDGPU] Add s_nop WaitStates between neighboring mfma.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

GCNHazardRecognizer.h

20 lines

GCNHazardRecognizer.cpp

71 lines

test/

CodeGen/

AMDGPU/

neighboring-mfma-padding.mir

479 lines

Diff 417735

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.h

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	private:

void resetClause() {		void resetClause() {
ClauseUses.reset();		ClauseUses.reset();
ClauseDefs.reset();		ClauseDefs.reset();
}		}

void addClauseInst(const MachineInstr &MI);		void addClauseInst(const MachineInstr &MI);

		/// \returns the number of wait states before another MFMA instruction can be
		/// issued after \p MI.
		unsigned getMFMAPipelineWaitStates(const MachineInstr &MI) const;

// Advance over a MachineInstr bundle. Look for hazards in the bundled		// Advance over a MachineInstr bundle. Look for hazards in the bundled
// instructions.		// instructions.
void processBundle();		void processBundle();

int getWaitStatesSince(IsHazardFn IsHazard, int Limit);		int getWaitStatesSince(IsHazardFn IsHazard, int Limit);
int getWaitStatesSinceDef(unsigned Reg, IsHazardFn IsHazardDef, int Limit);		int getWaitStatesSinceDef(unsigned Reg, IsHazardFn IsHazardDef, int Limit);
int getWaitStatesSinceSetReg(IsHazardFn IsHazard, int Limit);		int getWaitStatesSinceSetReg(IsHazardFn IsHazard, int Limit);

Show All 18 Lines	private:
bool fixVMEMtoScalarWriteHazards(MachineInstr *MI);		bool fixVMEMtoScalarWriteHazards(MachineInstr *MI);
bool fixSMEMtoVectorWriteHazards(MachineInstr *MI);		bool fixSMEMtoVectorWriteHazards(MachineInstr *MI);
bool fixVcmpxExecWARHazard(MachineInstr *MI);		bool fixVcmpxExecWARHazard(MachineInstr *MI);
bool fixLdsBranchVmemWARHazard(MachineInstr *MI);		bool fixLdsBranchVmemWARHazard(MachineInstr *MI);

int checkMAIHazards(MachineInstr *MI);		int checkMAIHazards(MachineInstr *MI);
int checkMAIHazards908(MachineInstr *MI);		int checkMAIHazards908(MachineInstr *MI);
int checkMAIHazards90A(MachineInstr *MI);		int checkMAIHazards90A(MachineInstr *MI);
		/// Pad the latency between neighboring MFMA instructions with s_nops. The
		/// percentage of wait states to fill with s_nops is specified by the command
		/// line option '-amdgpu-mfma-padding-ratio'.
		///
		/// For example, with '-amdgpu-mfma-padding-ratio=100':
		///
		/// 2 pass MFMA instructions have a latency of 2 wait states. Therefore, a
		/// 'S_NOP 1' will be added between sequential MFMA instructions.
		///
		/// V_MFMA_F32_4X4X1F32
		/// V_MFMA_F32_4X4X1F32
		///-->
		/// V_MFMA_F32_4X4X1F32
		/// S_NOP 1
		/// V_MFMA_F32_4X4X1F32
		int checkMFMAPadding(MachineInstr *MI);
int checkMAIVALUHazards(MachineInstr *MI);		int checkMAIVALUHazards(MachineInstr *MI);
int checkMAILdStHazards(MachineInstr *MI);		int checkMAILdStHazards(MachineInstr *MI);

public:		public:
GCNHazardRecognizer(const MachineFunction &MF);		GCNHazardRecognizer(const MachineFunction &MF);
// We can only issue one instruction per cycle.		// We can only issue one instruction per cycle.
bool atIssueLimit() const override { return true; }		bool atIssueLimit() const override { return true; }
void EmitInstruction(SUnit *SU) override;		void EmitInstruction(SUnit *SU) override;
Show All 14 Lines

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp

//===-- GCNHazardRecognizers.cpp - GCN Hazard Recognizer Impls ------------===//		//===-- GCNHazardRecognizers.cpp - GCN Hazard Recognizer Impls ------------===//
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
// This file implements hazard recognizers for scheduling on GCN processors.		// This file implements hazard recognizers for scheduling on GCN processors.
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

#include "GCNHazardRecognizer.h"		#include "GCNHazardRecognizer.h"
#include "GCNSubtarget.h"		#include "GCNSubtarget.h"
#include "MCTargetDesc/AMDGPUMCTargetDesc.h"		#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
		#include "SIMachineFunctionInfo.h"
#include "llvm/CodeGen/MachineFunction.h"		#include "llvm/CodeGen/MachineFunction.h"
#include "llvm/CodeGen/ScheduleDAG.h"		#include "llvm/CodeGen/ScheduleDAG.h"
#include "llvm/Support/TargetParser.h"		#include "llvm/Support/TargetParser.h"

using namespace llvm;		using namespace llvm;

		namespace {

		struct MFMAPaddingRatioParser : public cl::parser<unsigned> {
		MFMAPaddingRatioParser(cl::Option &O) : cl::parser<unsigned>(O) {}

		bool parse(cl::Option &O, StringRef ArgName, StringRef Arg, unsigned &Value) {
		if (Arg.getAsInteger(0, Value))
		return O.error("'" + Arg + "' value invalid for uint argument!");

		if (Value > 100)
		return O.error("'" + Arg + "' value must be in the range [0, 100]!");

		return false;
		}
		};

		} // end anonymous namespace

		static cl::opt<unsigned, false, MFMAPaddingRatioParser>
		MFMAPaddingRatio("amdgpu-mfma-padding-ratio", cl::init(0), cl::Hidden,
		cl::desc("Fill a percentage of the latency between "
		"neighboring MFMA with s_nops."));
		arsenmUnsubmitted Not Done Reply Inline Actions I'm not sure what a percentage means here arsenm: I'm not sure what a percentage means here
		rampitecUnsubmitted Not Done Reply Inline Actions Yep, it shall have a text this is percentage of the mfma latency. rampitec: Yep, it shall have a text this is percentage of the mfma latency.

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Hazard Recognizer Implementation		// Hazard Recognizer Implementation
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

static bool shouldRunLdsBranchVmemWARHazardFixup(const MachineFunction &MF,		static bool shouldRunLdsBranchVmemWARHazardFixup(const MachineFunction &MF,
const GCNSubtarget &ST);		const GCNSubtarget &ST);

GCNHazardRecognizer::GCNHazardRecognizer(const MachineFunction &MF) :		GCNHazardRecognizer::GCNHazardRecognizer(const MachineFunction &MF) :
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines	static void insertNoopsInBundle(MachineInstr *MI, const SIInstrInfo &TII,
while (Quantity > 0) {		while (Quantity > 0) {
unsigned Arg = std::min(Quantity, 8u);		unsigned Arg = std::min(Quantity, 8u);
Quantity -= Arg;		Quantity -= Arg;
BuildMI(*MI->getParent(), MI, MI->getDebugLoc(), TII.get(AMDGPU::S_NOP))		BuildMI(*MI->getParent(), MI, MI->getDebugLoc(), TII.get(AMDGPU::S_NOP))
.addImm(Arg - 1);		.addImm(Arg - 1);
}		}
}		}

		unsigned
		GCNHazardRecognizer::getMFMAPipelineWaitStates(const MachineInstr &MI) const {
		const MCSchedClassDesc *SC = TSchedModel.resolveSchedClass(&MI);
		assert(TSchedModel.getWriteProcResBegin(SC) !=
		TSchedModel.getWriteProcResEnd(SC));
		return TSchedModel.getWriteProcResBegin(SC)->Cycles;
		}
		rampitecUnsubmitted Not Done Reply Inline Actions If you must compare string it is better to find this MCProcResourceDesc once and then compare the pointer. rampitec: If you must compare string it is better to find this MCProcResourceDesc once and then compare…

		arsenmUnsubmitted Not Done Reply Inline Actions Why does this need to parse a name? arsenm: Why does this need to parse a name?
void GCNHazardRecognizer::processBundle() {		void GCNHazardRecognizer::processBundle() {
MachineBasicBlock::instr_iterator MI = std::next(CurrCycleInstr->getIterator());		MachineBasicBlock::instr_iterator MI = std::next(CurrCycleInstr->getIterator());
MachineBasicBlock::instr_iterator E = CurrCycleInstr->getParent()->instr_end();		MachineBasicBlock::instr_iterator E = CurrCycleInstr->getParent()->instr_end();
// Check bundled MachineInstr's for hazards.		// Check bundled MachineInstr's for hazards.
for (; MI != E && MI->isInsideBundle(); ++MI) {		for (; MI != E && MI->isInsideBundle(); ++MI) {
CurrCycleInstr = &*MI;		CurrCycleInstr = &*MI;
unsigned WaitStates = PreEmitNoopsCommon(CurrCycleInstr);		unsigned WaitStates = PreEmitNoopsCommon(CurrCycleInstr);

▲ Show 20 Lines • Show All 970 Lines • ▼ Show 20 Lines
}		}

int GCNHazardRecognizer::checkMAIHazards(MachineInstr *MI) {		int GCNHazardRecognizer::checkMAIHazards(MachineInstr *MI) {
assert(SIInstrInfo::isMAI(*MI));		assert(SIInstrInfo::isMAI(*MI));

return ST.hasGFX90AInsts() ? checkMAIHazards90A(MI) : checkMAIHazards908(MI);		return ST.hasGFX90AInsts() ? checkMAIHazards90A(MI) : checkMAIHazards908(MI);
}		}

		int GCNHazardRecognizer::checkMFMAPadding(MachineInstr *MI) {
		// Early exit if no padding is requested.
		if (MFMAPaddingRatio == 0)
		return 0;

		auto IsMFMAFn = [](const MachineInstr &MI) {
		return SIInstrInfo::isMAI(MI) &&
		MI.getOpcode() != AMDGPU::V_ACCVGPR_WRITE_B32_e64 &&
		MI.getOpcode() != AMDGPU::V_ACCVGPR_READ_B32_e64;
		};

		const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
		if (!IsMFMAFn(*MI) \|\| MFI->getOccupancy() < 2)
		return 0;

		int NeighborMFMALatency = 0;
		auto IsNeighboringMFMA = [&IsMFMAFn, &NeighborMFMALatency,
		this](const MachineInstr &MI) {
		if (!IsMFMAFn(MI))
		return false;

		NeighborMFMALatency = this->getMFMAPipelineWaitStates(MI);
		return true;
		};

		const int MaxMFMAPipelineWaitStates = 16;
		int WaitStatesSinceNeighborMFMA =
		getWaitStatesSince(IsNeighboringMFMA, MaxMFMAPipelineWaitStates);

		int NeighborMFMAPaddingNeeded =
		(NeighborMFMALatency * MFMAPaddingRatio / 100) -
		WaitStatesSinceNeighborMFMA;

		return std::max(0, NeighborMFMAPaddingNeeded);
		}

int GCNHazardRecognizer::checkMAIHazards908(MachineInstr *MI) {		int GCNHazardRecognizer::checkMAIHazards908(MachineInstr *MI) {
int WaitStatesNeeded = 0;		int WaitStatesNeeded = 0;
unsigned Opc = MI->getOpcode();		unsigned Opc = MI->getOpcode();

auto IsVALUFn = [](const MachineInstr &MI) {		auto IsVALUFn = [](const MachineInstr &MI) {
return SIInstrInfo::isVALU(MI);		return SIInstrInfo::isVALU(MI);
};		};

▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	if (OpNo == SrcCIdx) {
default: NeedWaitStates = MFMA32x32WritesAGPRAccVgprWriteWaitStates;		default: NeedWaitStates = MFMA32x32WritesAGPRAccVgprWriteWaitStates;
break;		break;
}		}
}		}

int WaitStatesNeededForUse = NeedWaitStates - WaitStatesSinceDef;		int WaitStatesNeededForUse = NeedWaitStates - WaitStatesSinceDef;
WaitStatesNeeded = std::max(WaitStatesNeeded, WaitStatesNeededForUse);		WaitStatesNeeded = std::max(WaitStatesNeeded, WaitStatesNeededForUse);

if (WaitStatesNeeded == MaxWaitStates)		if (WaitStatesNeeded == MaxWaitStates)
		rampitecUnsubmitted Not Done Reply Inline Actions Longest MAI is 64 cycles. You may want to move your code to the top as it can bring longest nop sequence. rampitec: Longest MAI is 64 cycles. You may want to move your code to the top as it can bring longest nop…
		kerbowaAuthorUnsubmitted Not Done Reply Inline Actions Isn't MFMA32x32WritesAGPRAccVgprReadWaitStates longer than 64 cycles? Max wait for padding should be 16 wait states versus 18. kerbowa: Isn't MFMA32x32WritesAGPRAccVgprReadWaitStates longer than 64 cycles? Max wait for padding…
		rampitecUnsubmitted Not Done Reply Inline Actions Right, I forgot it is divided by 4. rampitec: Right, I forgot it is divided by 4.
return WaitStatesNeeded; // Early exit.		return WaitStatesNeeded; // Early exit.

auto IsAccVgprWriteFn = [Reg, this](const MachineInstr &MI) {		auto IsAccVgprWriteFn = [Reg, this](const MachineInstr &MI) {
if (MI.getOpcode() != AMDGPU::V_ACCVGPR_WRITE_B32_e64)		if (MI.getOpcode() != AMDGPU::V_ACCVGPR_WRITE_B32_e64)
return false;		return false;
Register DstReg = MI.getOperand(0).getReg();		Register DstReg = MI.getOperand(0).getReg();
return TRI.regsOverlap(Reg, DstReg);		return TRI.regsOverlap(Reg, DstReg);
};		};
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	if (Opc == AMDGPU::V_ACCVGPR_WRITE_B32_e64) {
default: NeedWaitStates = MFMA32x32ReadSrcCAccVgprWriteWaitStates;		default: NeedWaitStates = MFMA32x32ReadSrcCAccVgprWriteWaitStates;
break;		break;
}		}

int WaitStatesNeededForUse = NeedWaitStates - WaitStatesSince;		int WaitStatesNeededForUse = NeedWaitStates - WaitStatesSince;
WaitStatesNeeded = std::max(WaitStatesNeeded, WaitStatesNeededForUse);		WaitStatesNeeded = std::max(WaitStatesNeeded, WaitStatesNeededForUse);
}		}

		// Pad neighboring MFMA with noops for better inter-wave performance.
		WaitStatesNeeded = std::max(WaitStatesNeeded, checkMFMAPadding(MI));

return WaitStatesNeeded;		return WaitStatesNeeded;
}		}

int GCNHazardRecognizer::checkMAIHazards90A(MachineInstr *MI) {		int GCNHazardRecognizer::checkMAIHazards90A(MachineInstr *MI) {
int WaitStatesNeeded = 0;		int WaitStatesNeeded = 0;
unsigned Opc = MI->getOpcode();		unsigned Opc = MI->getOpcode();

auto IsMFMAFn = [](const MachineInstr &MI) {		auto IsMFMAFn = [](const MachineInstr &MI) {
▲ Show 20 Lines • Show All 450 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/neighboring-mfma-padding.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -mcpu=gfx908 -verify-machineinstrs -run-pass post-RA-hazard-rec %s -o - \| FileCheck -check-prefix=gfx908-DEFAULT %s
				# RUN: llc -march=amdgcn -mcpu=gfx908 -amdgpu-mfma-padding-ratio=25 -verify-machineinstrs -run-pass post-RA-hazard-rec %s -o - \| FileCheck -check-prefix=gfx908-PAD25 %s
				# RUN: llc -march=amdgcn -mcpu=gfx908 -amdgpu-mfma-padding-ratio=50 -verify-machineinstrs -run-pass post-RA-hazard-rec %s -o - \| FileCheck -check-prefix=gfx908-PAD50 %s
				# RUN: llc -march=amdgcn -mcpu=gfx908 -amdgpu-mfma-padding-ratio=75 -verify-machineinstrs -run-pass post-RA-hazard-rec %s -o - \| FileCheck -check-prefix=gfx908-PAD75 %s
				# RUN: llc -march=amdgcn -mcpu=gfx908 -amdgpu-mfma-padding-ratio=100 -verify-machineinstrs -run-pass post-RA-hazard-rec %s -o - \| FileCheck -check-prefix=gfx908-PAD100 %s

				---
				name: mfma_padding_2_pass
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_2_pass
				; gfx908-DEFAULT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_2_pass
				; gfx908-PAD25: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_2_pass
				; gfx908-PAD50: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 0
				; gfx908-PAD50-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_2_pass
				; gfx908-PAD75: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 0
				; gfx908-PAD75-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_2_pass
				; gfx908-PAD100: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 1
				; gfx908-PAD100-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_2_pass_1_intervening_valu
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_2_pass_1_intervening_valu
				; gfx908-DEFAULT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_2_pass_1_intervening_valu
				; gfx908-PAD25: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_2_pass_1_intervening_valu
				; gfx908-PAD50: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_2_pass_1_intervening_valu
				; gfx908-PAD75: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_2_pass_1_intervening_valu
				; gfx908-PAD100: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 0
				; gfx908-PAD100-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				$vgpr2 = V_MOV_B32_e32 1, implicit $exec
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_2_pass_dbg
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_2_pass_dbg
				; gfx908-DEFAULT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: DBG_VALUE
				; gfx908-DEFAULT-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_2_pass_dbg
				; gfx908-PAD25: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: DBG_VALUE
				; gfx908-PAD25-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_2_pass_dbg
				; gfx908-PAD50: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: DBG_VALUE
				; gfx908-PAD50-NEXT: S_NOP 0
				; gfx908-PAD50-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_2_pass_dbg
				; gfx908-PAD75: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: DBG_VALUE
				; gfx908-PAD75-NEXT: S_NOP 0
				; gfx908-PAD75-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_2_pass_dbg
				; gfx908-PAD100: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: DBG_VALUE
				; gfx908-PAD100-NEXT: S_NOP 1
				; gfx908-PAD100-NEXT: $agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				DBG_VALUE
				$agpr0_agpr1_agpr2_agpr3 = V_MFMA_F32_4X4X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_8_pass
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_8_pass
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_8_pass
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: S_NOP 1
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_8_pass
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 3
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_8_pass
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 5
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_8_pass
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 7
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_8_pass_2_intervening_valu
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_8_pass_2_intervening_valu
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_8_pass_2_intervening_valu
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_8_pass_2_intervening_valu
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 1
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_8_pass_2_intervening_valu
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 3
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_8_pass_2_intervening_valu
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 5
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$vgpr2 = V_MOV_B32_e32 1, implicit $exec
				$vgpr3 = V_MOV_B32_e32 1, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_16X16X1F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_16_pass
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_16_pass
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_16_pass
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: S_NOP 3
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_16_pass
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 7
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_16_pass
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 7
				; gfx908-PAD75-NEXT: S_NOP 3
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_16_pass
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 7
				; gfx908-PAD100-NEXT: S_NOP 7
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_16_pass_4_intervening_valu
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_16_pass_4_intervening_valu
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_16_pass_4_intervening_valu
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_16_pass_4_intervening_valu
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 3
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_16_pass_4_intervening_valu
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 7
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_16_pass_4_intervening_valu
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 7
				; gfx908-PAD100-NEXT: S_NOP 3
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$vgpr2 = V_MOV_B32_e32 1, implicit $exec
				$vgpr3 = V_MOV_B32_e32 1, implicit $exec
				$vgpr4 = V_MOV_B32_e32 1, implicit $exec
				$vgpr5 = V_MOV_B32_e32 1, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_16_pass_16_intervening_valu
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_16_pass_16_intervening_valu
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr6 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr7 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr8 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr9 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr10 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr11 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr12 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr13 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr14 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr15 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr16 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: $vgpr17 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_16_pass_16_intervening_valu
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr6 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr7 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr8 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr9 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr10 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr11 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr12 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr13 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr14 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr15 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr16 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: $vgpr17 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_16_pass_16_intervening_valu
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr6 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr7 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr8 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr9 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr10 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr11 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr12 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr13 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr14 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr15 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr16 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: $vgpr17 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_16_pass_16_intervening_valu
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr6 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr7 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr8 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr9 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr10 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr11 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr12 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr13 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr14 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr15 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr16 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: $vgpr17 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_16_pass_16_intervening_valu
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr4 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr5 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr6 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr7 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr8 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr9 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr10 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr11 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr12 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr13 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr14 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr15 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr16 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: $vgpr17 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$vgpr2 = V_MOV_B32_e32 1, implicit $exec
				$vgpr3 = V_MOV_B32_e32 1, implicit $exec
				$vgpr4 = V_MOV_B32_e32 1, implicit $exec
				$vgpr5 = V_MOV_B32_e32 1, implicit $exec
				$vgpr6 = V_MOV_B32_e32 1, implicit $exec
				$vgpr7 = V_MOV_B32_e32 1, implicit $exec
				$vgpr8 = V_MOV_B32_e32 1, implicit $exec
				$vgpr9 = V_MOV_B32_e32 1, implicit $exec
				$vgpr10 = V_MOV_B32_e32 1, implicit $exec
				$vgpr11 = V_MOV_B32_e32 1, implicit $exec
				$vgpr12 = V_MOV_B32_e32 1, implicit $exec
				$vgpr13 = V_MOV_B32_e32 1, implicit $exec
				$vgpr14 = V_MOV_B32_e32 1, implicit $exec
				$vgpr15 = V_MOV_B32_e32 1, implicit $exec
				$vgpr16 = V_MOV_B32_e32 1, implicit $exec
				$vgpr17 = V_MOV_B32_e32 1, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_16_pass_occ_1
				machineFunctionInfo:
				occupancy: 1
				body: \|
				bb.0:
				; gfx908-DEFAULT-LABEL: name: mfma_padding_16_pass_occ_1
				; gfx908-DEFAULT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_16_pass_occ_1
				; gfx908-PAD25: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_16_pass_occ_1
				; gfx908-PAD50: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_16_pass_occ_1
				; gfx908-PAD75: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_16_pass_occ_1
				; gfx908-PAD100: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...

				---
				name: mfma_padding_16_pass_2_preds
				body: \|
				; gfx908-DEFAULT-LABEL: name: mfma_padding_16_pass_2_preds
				; gfx908-DEFAULT: bb.0:
				; gfx908-DEFAULT-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; gfx908-DEFAULT-NEXT: {{ $}}
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-DEFAULT-NEXT: S_CBRANCH_VCCZ %bb.2, implicit undef $vcc
				; gfx908-DEFAULT-NEXT: {{ $}}
				; gfx908-DEFAULT-NEXT: bb.1:
				; gfx908-DEFAULT-NEXT: successors: %bb.2(0x80000000)
				; gfx908-DEFAULT-NEXT: {{ $}}
				; gfx908-DEFAULT-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: {{ $}}
				; gfx908-DEFAULT-NEXT: bb.2:
				; gfx908-DEFAULT-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-DEFAULT-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-LABEL: name: mfma_padding_16_pass_2_preds
				; gfx908-PAD25: bb.0:
				; gfx908-PAD25-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; gfx908-PAD25-NEXT: {{ $}}
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD25-NEXT: S_CBRANCH_VCCZ %bb.2, implicit undef $vcc
				; gfx908-PAD25-NEXT: {{ $}}
				; gfx908-PAD25-NEXT: bb.1:
				; gfx908-PAD25-NEXT: successors: %bb.2(0x80000000)
				; gfx908-PAD25-NEXT: {{ $}}
				; gfx908-PAD25-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: {{ $}}
				; gfx908-PAD25-NEXT: bb.2:
				; gfx908-PAD25-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD25-NEXT: S_NOP 1
				; gfx908-PAD25-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-LABEL: name: mfma_padding_16_pass_2_preds
				; gfx908-PAD50: bb.0:
				; gfx908-PAD50-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; gfx908-PAD50-NEXT: {{ $}}
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD50-NEXT: S_CBRANCH_VCCZ %bb.2, implicit undef $vcc
				; gfx908-PAD50-NEXT: {{ $}}
				; gfx908-PAD50-NEXT: bb.1:
				; gfx908-PAD50-NEXT: successors: %bb.2(0x80000000)
				; gfx908-PAD50-NEXT: {{ $}}
				; gfx908-PAD50-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: {{ $}}
				; gfx908-PAD50-NEXT: bb.2:
				; gfx908-PAD50-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD50-NEXT: S_NOP 5
				; gfx908-PAD50-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-LABEL: name: mfma_padding_16_pass_2_preds
				; gfx908-PAD75: bb.0:
				; gfx908-PAD75-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; gfx908-PAD75-NEXT: {{ $}}
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD75-NEXT: S_CBRANCH_VCCZ %bb.2, implicit undef $vcc
				; gfx908-PAD75-NEXT: {{ $}}
				; gfx908-PAD75-NEXT: bb.1:
				; gfx908-PAD75-NEXT: successors: %bb.2(0x80000000)
				; gfx908-PAD75-NEXT: {{ $}}
				; gfx908-PAD75-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: {{ $}}
				; gfx908-PAD75-NEXT: bb.2:
				; gfx908-PAD75-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD75-NEXT: S_NOP 7
				; gfx908-PAD75-NEXT: S_NOP 1
				; gfx908-PAD75-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-LABEL: name: mfma_padding_16_pass_2_preds
				; gfx908-PAD100: bb.0:
				; gfx908-PAD100-NEXT: successors: %bb.2(0x40000000), %bb.1(0x40000000)
				; gfx908-PAD100-NEXT: {{ $}}
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				; gfx908-PAD100-NEXT: S_CBRANCH_VCCZ %bb.2, implicit undef $vcc
				; gfx908-PAD100-NEXT: {{ $}}
				; gfx908-PAD100-NEXT: bb.1:
				; gfx908-PAD100-NEXT: successors: %bb.2(0x80000000)
				; gfx908-PAD100-NEXT: {{ $}}
				; gfx908-PAD100-NEXT: $vgpr2 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: {{ $}}
				; gfx908-PAD100-NEXT: bb.2:
				; gfx908-PAD100-NEXT: $vgpr3 = V_MOV_B32_e32 1, implicit $exec
				; gfx908-PAD100-NEXT: S_NOP 7
				; gfx908-PAD100-NEXT: S_NOP 5
				; gfx908-PAD100-NEXT: early-clobber $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				bb.0:
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				S_CBRANCH_VCCZ %bb.2, implicit undef $vcc

				bb.1:
				$vgpr2 = V_MOV_B32_e32 1, implicit $exec

				bb.2:
				$vgpr3 = V_MOV_B32_e32 1, implicit $exec
				$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15 = V_MFMA_F32_32X32X2F32_e64 $vgpr1, $vgpr0, $agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15, 0, 0, 0, implicit $mode, implicit $exec
				...