This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/AMDGPU/
-
Target/
-
AMDGPU/
32/37
SIFixSGPRCopies.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
add3.ll
-
agpr-copy-no-free-registers.ll
-
amdgpu-codegenprepare-idiv.ll
-
cf-loop-on-constant.ll
-
idiv-licm.ll
-
multilevel-break.ll
-
s_add_co_pseudo_lowering.mir
-
saddo.ll
-
scalar_to_vector.ll
-
sdiv.ll
-
sdiv64.ll
-
sdwa-peephole.ll
-
shl.ll
-
sra.ll
-
srem64.ll
-
srl.ll
-
sub.ll
-
udiv.ll
-
udiv64.ll
-
udivrem.ll
-
unstructured-cfg-def-use-issue.ll
-
urem.ll
-
urem64.ll
-
usubo.ll
-
vgpr-liverange-ir.ll
-
wave32.ll

Differential D128252

[AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable.
ClosedPublic

Authored by alex-t on Jun 21 2022, 2:11 AM.

Download Raw Diff

Details

Reviewers

vpykhtin
rampitec
foad

Commits

rG2e29b0138ca2: [AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable.

Summary

Since the divergence-driven instruction selection has been enabled for AMDGPU,
all the uniform instructions are expected to be selected to SALU form, except those not having one.
VGPR to SGPR copies appear in MIR to connect values producers and consumers. This change implements an algorithm
that evolves a reasonable tradeoff between the profit achieved from keeping the uniform instructions in SALU form
and overhead introduced by the data transfer between the VGPRs and SGPRs.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

alex-t created this revision.Jun 21 2022, 2:11 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 21 2022, 2:11 AM

Herald added subscribers: kosarev, jsilvanus, foad and 10 others. · View Herald Transcript

alex-t requested review of this revision.Jun 21 2022, 2:11 AM

Herald added subscribers: llvm-commits, wdng. · View Herald TranscriptJun 21 2022, 2:11 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 21 2022, 2:11 AM

debug output fixed

Harbormaster completed remote builds in B171012: Diff 438602.Jun 21 2022, 3:23 AM

vpykhtin added inline comments.Jun 23 2022, 5:29 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
943	a bit misleading name, maybe "ShouldGoToVALU"?
972	ditto
984	Copies.count(J) and Copies[J] lookups J twice
1023	if (LowerSpecialCase ,,, ) continue to reduce nesting
1064	replace Inst->getParent()->end() with E
1072	why isSGPRReg is in the loop? It isn't being changed in the loop
1097	Copies[CurID] and Copies.count(CurID) lookups for CurID twice
1101	ditto for S

LIT tests changed. Description updated.

Herald added subscribers: asbirlea, MatzeB. · View Herald TranscriptJun 24 2022, 3:33 AM

alex-t marked 8 inline comments as done.Jun 24 2022, 3:35 AM

alex-t added reviewers: rampitec, foad.

Harbormaster completed remote builds in B171819: Diff 439694.Jun 24 2022, 4:24 AM

LIT tests updated

Harbormaster completed remote builds in B172479: Diff 440619.Jun 28 2022, 8:42 AM

arsenm added inline comments.Jun 29 2022, 12:08 PM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
581	What's the advantage of splitting this into a separate loop?

alex-t added inline comments.Jun 29 2022, 1:49 PM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
581	We, basically, have 3 phases - analysis that collect information related to the particular copy, a decision that is made based on the information collected, and lowering that lowers the copy according to the decision made. If processed into the main loop now, the info collected is changed by the REG_SEQUENCE & Co lowering and appears not actual at the moment when copies are lowered. The simplest example is the copy that has a SALU chain long enough to be v_readfirstlane_b32 but the nearest user is REG_SEQUENCE with one VGPR input. We collect information that suggests we convert the copy into the v_readfirstlane_b32 but REG_SEQUENCE will be passed to moveToVALU because of the VGPR operand. The only advantage is the possibility to split the change into one, analyzing and lowering just the copies, and another one, extending the algorithm to process the REG_SEQUENCE, PHIs & Co. The latter is the next change and is upcoming soon. The plan is to incrementally integrate both and then optimize compile time collecting the information in one loop.

foad added inline comments.Jul 4 2022, 8:16 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
951	Spelling "penalty"
968	Spelling "penalty"
981	Can just be a set, doesn't need to be a SetVector
1036	Can just be a set, doesn't need to be a SetVector

Changes according to the reviewer comments.

alex-t marked 4 inline comments as done.Jul 5 2022, 7:44 AM

Harbormaster completed remote builds in B173708: Diff 442303.Jul 5 2022, 9:29 AM

Fixed bug caused 5 vulkan CTS tests to fail. Also, fixed "sibling" copies counting code.
It now consider subregs of the same register as different sources.

Harbormaster completed remote builds in B174439: Diff 443331.Jul 8 2022, 2:12 PM

ping
does anybody has objections?

[AMDGPU] VGPR to SGPR copies lowering

Needs a better subject line. Previously moving all VGPR uses from SALU to VALU was required for correctness. Now it is not, so this pass is a heuristic that decides whether to move SALU to VALU or to insert a readfirstlane instruction.

In future I would like VGPR-to-SGPR copies to be legal, and always implemented as a readfirstlane, so that this whole pass could be truly optional and we could skip it at -O0.

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
98–105	`&` should be after space, not before. Doesn't clang-format fix this? Please run `git clang-format @^` on the patch anyway.
100	Likewise.
580	I don't understand this comment.
1126	Typo readfirstlane
1130	Should be const. But why is 4 enough? Isn't there some way you can get this programmatically from SIRegisterInfo?
1137	Don't need the "if", you can call getSubRegClass unconditionally.
1142	Don't need the "if", you can use the subreg version in all cases.

rampitec added inline comments.Jul 12 2022, 1:48 PM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
100	camelLowerCase the name. Please also add a comment what special cases does it handle.
935	Second to ask for a clang-format run.
946	Double space after "to".
956	`#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)` around dump().
1040	Capitalize 'Worklist'.
1052	Typo "comtribute".
1070	Why ++I is in parenthesis?
1145	What happens to 16 bit subregs?

clang-formatted.
Changes addressing the reviewers comments.

alex-t marked 4 inline comments as done.Jul 13 2022, 8:22 AM

alex-t added inline comments.Jul 13 2022, 8:27 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
1145	VGPR to SGPR copies are inserted by InstrEmitter to adjust the VALU result to the SALU consumer. The 16bits in VGPR result are packed and adjusted to the consumer by inserting the EXCTRACT_ELEMENT lowered in another place. What kind of adjustment would you recommend if we have a 16bit VGPR source? Zero-extend it to 32bit?

In D128252#3644778, @foad wrote:

[AMDGPU] VGPR to SGPR copies lowering

In future I would like VGPR-to-SGPR copies to be legal, and always implemented as a readfirstlane, so that this whole pass could be truly optional and we could skip it at -O0.

They are already legal. As soon as I integrate part2 that takes care of the REG_SEQUENCE and PHIs we can lower all to v_readfirstlane_b32 at -O0.
Now we cannot because the REG_SEQUENCE and PHIs having VGPR input are converted to VALU unconditionally and we are going to have bugs similar to that just fixed in VK-CTS.

alex-t retitled this revision from [AMDGPU] VGPR to SGPR copies lowering to [AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable..Jul 13 2022, 8:37 AM

alex-t marked an inline comment as done.Jul 13 2022, 8:42 AM

alex-t added inline comments.

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
1130	For now just SIRegisterInfo::getSubRegFromChannel is used. Later I would like to change the SIInstrInfo::readlaneVGPRToSGPR to serve all cases.

Harbormaster completed remote builds in B175122: Diff 444267.Jul 13 2022, 10:07 AM

rampitec added inline comments.Jul 13 2022, 10:46 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
948	You probably need to reset NextID to zero with each run of the pass. Better though make it a normal member of the Pass class itself.
1145	Assume the input like: %0:SGPR_LO16 = COPY %1.lo16:VGPR_32 If I read it right it will produce V_READFIRSTLANE_B32 with a 16 bit destination and source, which does not work. Assume that selection managed to produce such input, which path will it take here?
1150	Run clang-format again?

rampitec added inline comments.Jul 13 2022, 11:05 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp

1145

JBTW, right now it seems to go via moveToVALU:

# RUN: llc -march=amdgcn -mcpu=gfx1100 -run-pass=si-fix-sgpr-copies -verify-machineinstrs -o - %s

---
name:            v16_to_s16
body:             |
  bb.0:
    %0:vgpr_32 = IMPLICIT_DEF
    %1:sgpr_lo16 = COPY %0.lo16:vgpr_32
    %2:vgpr_lo16 = COPY %1
    S_ENDPGM 0, implicit %1, implicit %2
...

Results in:

%0:vgpr_32 = IMPLICIT_DEF
%3:vgpr_lo16 = COPY %0.lo16
%2:vgpr_lo16 = COPY %3
S_ENDPGM 0, implicit %3, implicit %2

Perhaps I'm blind, but I don't see where the heuristic takes into account the number of ALU instructions that would be moved from SALU to VALU.

In D128252#3651612, @nhaehnle wrote:

Perhaps I'm blind, but I don't see where the heuristic takes into account the number of ALU instructions that would be moved from SALU to VALU.

I am not sure that I understand the question.
Currently, we only have VGPR to SGPR copies for the cases where uniform instruction produces VGPR. It's uniform users that are SALU need SGPR.
For each copy we have a choice - convert all its users to VALU or replace the copy with v_readfirstlane_b32. The algorithm computes the tradeoff.
Inserting v_readfirstlane_b32 we add yet one more VALU instruction. If the SALU chain spawned by the copy is 2 instructions long, inserting v_readfirstlane_b32 is an overkill.
We agreed on the heuristic: 1 v_readfirstlane_b32 for at least 3 SALU.
The score is the length of SALU chain minus the number of v_readfirstlane_b32 to insert and minus the number of SGPR to VGPR copies that need to get the result back to VALU.

So, if we decide to move the whole chain to VALU it already means that keeping it SALU (by replacing the copy with v_readfirstlane_b32) is not profitable.
The number of the SALU instructions that are converting VALU, in this case, is the SChain.size()

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
1145	That is what I tried to explain. To reach the place we're talking about the copy should spawn SALU chain long enough to be selected for v_readfirstlane_b32. We have no SALU instructions that accept 16bit operand explicitly. All 16bit SALU really take 32bit SGPR but only use HI/LO half of it. So, we cannot create the MIR for the case you are concerned with.

NextID static member removed

clang-format

alex-t marked 4 inline comments as done.Jul 14 2022, 8:12 AM

rampitec added inline comments.Jul 14 2022, 11:14 AM

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp
87	It is uninitialized.

Harbormaster completed remote builds in B175416: Diff 444670.Jul 14 2022, 11:47 AM

In D128252#3651926, @alex-t wrote:

The number of the SALU instructions that are converting VALU, in this case, is the SChain.size()

Thanks for the explanation, it all makes sense now. I misread what SChain does, sorry about that.

16bit source register case separated for the sake of readability

alex-t marked an inline comment as done.Jul 14 2022, 2:27 PM

LGTM

This revision is now accepted and ready to land.Jul 14 2022, 2:41 PM

This revision was landed with ongoing or failed builds.Jul 14 2022, 3:00 PM

Closed by commit rG2e29b0138ca2: [AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable. (authored by Alexander Timofeev <alexander.timofeev@amd.com>). · Explain Why

This revision was automatically updated to reflect the committed changes.

Alexander Timofeev <alexander.timofeev@amd.com> added a commit: rG2e29b0138ca2: [AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable..

looks like this breaks tests: http://45.33.8.238/linux/81242/step_12.txt

Please take a look and revert for now if it takes a while to fix.

Harbormaster completed remote builds in B175507: Diff 444799.Jul 14 2022, 5:44 PM

In D128252#3653386, @thakis wrote:

looks like this breaks tests: http://45.33.8.238/linux/81242/step_12.txt

Please take a look and revert for now if it takes a while to fix.

Fixed by the 65abc3a869bf67984b4d393afa2fb16b1690e70d

In D128252#3648385, @alex-t wrote:

In D128252#3644778, @foad wrote:

In future I would like VGPR-to-SGPR copies to be legal

They are already legal.

Currently SIInstrInfo::copyPhysReg does this:

if (RI.isSGPRClass(RC)) {
  if (!RI.isSGPRClass(SrcRC)) {
    reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
    return;
  }

That is why I say they are illegal. I would like to change this, so that copyPhysReg will allow them and implement them by emitting readfirstlane.

In D128252#3654433, @foad wrote:
In D128252#3648385, @alex-t wrote:

In D128252#3644778, @foad wrote:

In future I would like VGPR-to-SGPR copies to be legal

They are already legal.

Currently SIInstrInfo::copyPhysReg does this:
if (RI.isSGPRClass(RC)) {
  if (!RI.isSGPRClass(SrcRC)) {
    reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
    return;
  }
That is why I say they are illegal. I would like to change this, so that copyPhysReg will allow them and implement them by emitting readfirstlane.

OK. You already can do this now. I have pointed you to the experimental branch on my github that propagates the DA information to MIR.
In this branch there is an assert if VGPR to SGPR copy defining instruction is uniform. I had to support a list of the exceptions for those instructions that a divergent but require SGPR operand. Not really a long list of them.
I passed through all the AMDGPU LIT tests w/o asserts.
For more information see https://github.com/alex-t/llvm-project/tree/dd_isel_exp: 850646bb02c204da602c7f4e654c7b65e59b6912
The branch is a pure draft for internal use. You may be interested in the DA information propagated to MIR and the exception instruction list.

As for the -O0, the pass may be excluded as soon as I integrate part2 of this change that covers REG_SEQUENCE and PHIs

alex-t mentioned this in D131246: [AMDGPU] SIFixSGPRCopies reworking to use one pass over the MIR for analysis and lowering..Aug 5 2022, 1:09 AM

alex-t mentioned this in rG3f8ae7efa866: [AMDGPU] SIFixSGPRCopies refactoring.Aug 9 2022, 3:52 PM

Alexander Timofeev <alexander.timofeev@amd.com> mentioned this in rG2e8817b90a9a: [AMDGPU] SIFixSGPRCopies reworking to use one pass over the MIR for analysis….Sep 19 2022, 2:32 PM

foad mentioned this in D134423: [AMDGPU] Fix vgpr2sgpr copy analysis to check scalar operands of buffer instructions use scalar registers..Nov 9 2022, 6:45 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIFixSGPRCopies.cpp

323 lines

test/

CodeGen/

AMDGPU/

add3.ll

2 lines

agpr-copy-no-free-registers.ll

336 lines

amdgpu-codegenprepare-idiv.ll

2842 lines

cf-loop-on-constant.ll

314 lines

idiv-licm.ll

552 lines

multilevel-break.ll

18 lines

s_add_co_pseudo_lowering.mir

28 lines

4 lines

38 lines

94 lines

32 lines

5 lines

6 lines

108 lines

65 lines

6 lines

4 lines

154 lines

36 lines

206 lines

unstructured-cfg-def-use-issue.ll

10 lines

4 lines

30 lines

2 lines

60 lines

27 lines

Diff 444807

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp

Show First 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
/// If the PHI's definition class is constrained to <vgpr> then the coalescer		/// If the PHI's definition class is constrained to <vgpr> then the coalescer
/// will be unable to perform the COPY removal from the above example which		/// will be unable to perform the COPY removal from the above example which
/// ultimately led to the creation of an illegal COPY.		/// ultimately led to the creation of an illegal COPY.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

#include "AMDGPU.h"		#include "AMDGPU.h"
#include "GCNSubtarget.h"		#include "GCNSubtarget.h"
#include "MCTargetDesc/AMDGPUMCTargetDesc.h"		#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
		#include "llvm/ADT/SetOperations.h"
#include "llvm/CodeGen/MachineDominators.h"		#include "llvm/CodeGen/MachineDominators.h"
#include "llvm/InitializePasses.h"		#include "llvm/InitializePasses.h"
#include "llvm/Target/TargetMachine.h"		#include "llvm/Target/TargetMachine.h"

using namespace llvm;		using namespace llvm;

#define DEBUG_TYPE "si-fix-sgpr-copies"		#define DEBUG_TYPE "si-fix-sgpr-copies"

static cl::opt<bool> EnableM0Merge(		static cl::opt<bool> EnableM0Merge(
"amdgpu-enable-merge-m0",		"amdgpu-enable-merge-m0",
cl::desc("Merge and hoist M0 initializations"),		cl::desc("Merge and hoist M0 initializations"),
cl::init(true));		cl::init(true));

namespace {		namespace {

class SIFixSGPRCopies : public MachineFunctionPass {		class SIFixSGPRCopies : public MachineFunctionPass {
MachineDominatorTree *MDT;		MachineDominatorTree *MDT;
		unsigned NextVGPRToSGPRCopyID;
		rampitecUnsubmitted Done Reply Inline Actions It is uninitialized. rampitec: It is uninitialized.

public:		public:
static char ID;		static char ID;

MachineRegisterInfo *MRI;		MachineRegisterInfo *MRI;
const SIRegisterInfo *TRI;		const SIRegisterInfo *TRI;
const SIInstrInfo *TII;		const SIInstrInfo *TII;

SIFixSGPRCopies() : MachineFunctionPass(ID) {}		SIFixSGPRCopies() : MachineFunctionPass(ID), NextVGPRToSGPRCopyID(0) {}

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;
		unsigned getNextVGPRToSGPRCopyId() { return ++NextVGPRToSGPRCopyID; }
		void lowerVGPR2SGPRCopies(MachineFunction &MF);
		foadUnsubmitted Done Reply Inline Actions Likewise. foad: Likewise.
		rampitecUnsubmitted Done Reply Inline Actions camelLowerCase the name. Please also add a comment what special cases does it handle. rampitec: camelLowerCase the name. Please also add a comment what special cases does it handle.
		// Handles copies which source register is:
		// 1. Physical register
		// 2. AGPR
		// 3. Defined by the instruction the merely moves the immediate
		bool lowerSpecialCase(MachineInstr &MI);
		foadUnsubmitted Done Reply Inline Actions `&` should be after space, not before. Doesn't clang-format fix this? Please run `git clang-format @^` on the patch anyway. foad: `&` should be after space, not before. Doesn't clang-format fix this? Please run `git clang…

MachineBasicBlock *processPHINode(MachineInstr &MI);		MachineBasicBlock *processPHINode(MachineInstr &MI);

StringRef getPassName() const override { return "SI Fix SGPR copies"; }		StringRef getPassName() const override { return "SI Fix SGPR copies"; }

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
AU.addRequired<MachineDominatorTree>();		AU.addRequired<MachineDominatorTree>();
AU.addPreserved<MachineDominatorTree>();		AU.addPreserved<MachineDominatorTree>();
▲ Show 20 Lines • Show All 458 Lines • ▼ Show 20 Lines	if (MF.getProperties().hasProperty(
return false;		return false;

const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();		const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
MRI = &MF.getRegInfo();		MRI = &MF.getRegInfo();
TRI = ST.getRegisterInfo();		TRI = ST.getRegisterInfo();
TII = ST.getInstrInfo();		TII = ST.getInstrInfo();
MDT = &getAnalysis<MachineDominatorTree>();		MDT = &getAnalysis<MachineDominatorTree>();

		// We have to lower VGPR to SGPR copies before the main loop
		foadUnsubmitted Not Done Reply Inline Actions I don't understand this comment. foad: I don't understand this comment.
		// because the REG_SEQUENCE and PHI lowering in main loop
		arsenmUnsubmitted Not Done Reply Inline Actions What's the advantage of splitting this into a separate loop? arsenm: What's the advantage of splitting this into a separate loop?
		alex-tAuthorUnsubmitted Done Reply Inline Actions We, basically, have 3 phases - analysis that collect information related to the particular copy, a decision that is made based on the information collected, and lowering that lowers the copy according to the decision made. If processed into the main loop now, the info collected is changed by the REG_SEQUENCE & Co lowering and appears not actual at the moment when copies are lowered. The simplest example is the copy that has a SALU chain long enough to be v_readfirstlane_b32 but the nearest user is REG_SEQUENCE with one VGPR input. We collect information that suggests we convert the copy into the v_readfirstlane_b32 but REG_SEQUENCE will be passed to moveToVALU because of the VGPR operand. The only advantage is the possibility to split the change into one, analyzing and lowering just the copies, and another one, extending the algorithm to process the REG_SEQUENCE, PHIs & Co. The latter is the next change and is upcoming soon. The plan is to incrementally integrate both and then optimize compile time collecting the information in one loop. alex-t: We, basically, have 3 phases - analysis that collect information related to the particular copy…
		// convert the def-use chains to VALU and close the opportunities
		// for keeping them scalar.
		// TODO: REG_SEQENCE and PHIs are semantically copies. The next patch
		// addresses their lowering and unify the processing in one main loop.
		lowerVGPR2SGPRCopies(MF);

for (MachineFunction::iterator BI = MF.begin(), BE = MF.end();		for (MachineFunction::iterator BI = MF.begin(), BE = MF.end();
BI != BE; ++BI) {		BI != BE; ++BI) {
MachineBasicBlock MBB = &BI;		MachineBasicBlock MBB = &BI;
for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;		for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;
++I) {		++I) {
MachineInstr &MI = *I;		MachineInstr &MI = *I;

switch (MI.getOpcode()) {		switch (MI.getOpcode()) {
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;
TII->get(AMDGPU::V_READFIRSTLANE_B32), TmpReg)		TII->get(AMDGPU::V_READFIRSTLANE_B32), TmpReg)
.add(MI.getOperand(1));		.add(MI.getOperand(1));
MI.getOperand(1).setReg(TmpReg);		MI.getOperand(1).setReg(TmpReg);
}		}

continue;		continue;
}		}

if (isVGPRToSGPRCopy(SrcRC, DstRC, *TRI)) {		if (isSGPRToVGPRCopy(SrcRC, DstRC, *TRI)) {
Register SrcReg = MI.getOperand(1).getReg();
if (!SrcReg.isVirtual()) {
MachineBasicBlock *NewBB = TII->moveToVALU(MI, MDT);
if (NewBB && NewBB != MBB) {
MBB = NewBB;
E = MBB->end();
BI = MachineFunction::iterator(MBB);
BE = MF.end();
}
assert((!NewBB \|\| NewBB == I->getParent()) &&
"moveToVALU did not return the right basic block");
break;
}

MachineInstr *DefMI = MRI->getVRegDef(SrcReg);
unsigned SMovOp;
int64_t Imm;
// If we are just copying an immediate, we can replace the copy with
// s_mov_b32.
if (isSafeToFoldImmIntoCopy(&MI, DefMI, TII, SMovOp, Imm)) {
MI.getOperand(1).ChangeToImmediate(Imm);
MI.addImplicitDefUseOperands(MF);
MI.setDesc(TII->get(SMovOp));
break;
}
MachineBasicBlock *NewBB = TII->moveToVALU(MI, MDT);
if (NewBB && NewBB != MBB) {
MBB = NewBB;
E = MBB->end();
BI = MachineFunction::iterator(MBB);
BE = MF.end();
}
assert((!NewBB \|\| NewBB == I->getParent()) &&
"moveToVALU did not return the right basic block");
} else if (isSGPRToVGPRCopy(SrcRC, DstRC, *TRI)) {
tryChangeVGPRtoSGPRinCopy(MI, TRI, TII);		tryChangeVGPRtoSGPRinCopy(MI, TRI, TII);
}		}

break;		break;
}		}
case AMDGPU::PHI: {		case AMDGPU::PHI: {
MachineBasicBlock *NewBB = processPHINode(MI);		MachineBasicBlock *NewBB = processPHINode(MI);
if (NewBB && NewBB != MBB) {		if (NewBB && NewBB != MBB) {
▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines	MachineBasicBlock *SIFixSGPRCopies::processPHINode(MachineInstr &MI) {
}		}

// Propagate register class back to PHI operands which are PHI themselves.		// Propagate register class back to PHI operands which are PHI themselves.
while (!PHIOperands.empty()) {		while (!PHIOperands.empty()) {
processPHINode(*PHIOperands.pop_back_val());		processPHINode(*PHIOperands.pop_back_val());
}		}
return CreatedBB;		return CreatedBB;
}		}

		bool SIFixSGPRCopies::lowerSpecialCase(MachineInstr &MI) {
		MachineBasicBlock *MBB = MI.getParent();
		const TargetRegisterClass SrcRC, DstRC;
		std::tie(SrcRC, DstRC) = getCopyRegClasses(MI, TRI, MRI);

		// We return true to indicate that no further processing needed
		if (!isVGPRToSGPRCopy(SrcRC, DstRC, *TRI))
		return true;

		Register SrcReg = MI.getOperand(1).getReg();
		if (!SrcReg.isVirtual() \|\| TRI->isAGPR(*MRI, SrcReg)) {
		TII->moveToVALU(MI, MDT);
		return true;
		}

		unsigned SMovOp;
		int64_t Imm;
		// If we are just copying an immediate, we can replace the copy with
		// s_mov_b32.
		if (isSafeToFoldImmIntoCopy(&MI, MRI->getVRegDef(SrcReg), TII, SMovOp, Imm)) {
		MI.getOperand(1).ChangeToImmediate(Imm);
		MI.addImplicitDefUseOperands(*MBB->getParent());
		MI.setDesc(TII->get(SMovOp));
		return true;
		}
		return false;
		}

		class V2SCopyInfo {
		public:
		// VGPR to SGPR copy being processed
		MachineInstr *Copy;
		// All SALU instructions reachable from this copy in SSA graph
		DenseSet<MachineInstr *> SChain;
		// Number of SGPR to VGPR copies that are used to put the SALU computation
		rampitecUnsubmitted Done Reply Inline Actions Second to ask for a clang-format run. rampitec: Second to ask for a clang-format run.
		// results back to VALU.
		unsigned NumSVCopies;

		unsigned Score;
		// Actual count of v_readfirstlane_b32
		// which need to be inserted to keep SChain SALU
		unsigned NumReadfirstlanes;
		// Current score state. To speedup selection V2SCopyInfos for processing
		vpykhtinUnsubmitted Done Reply Inline Actions a bit misleading name, maybe "ShouldGoToVALU"? vpykhtin: a bit misleading name, maybe "ShouldGoToVALU"?
		bool NeedToBeConvertedToVALU = false;
		// Unique ID. Used as a key for mapping to keep permanent order.
		unsigned ID;
		rampitecUnsubmitted Done Reply Inline Actions Double space after "to". rampitec: Double space after "to".

		// Count of another VGPR to SGPR copies that contribute to the
		rampitecUnsubmitted Done Reply Inline Actions You probably need to reset NextID to zero with each run of the pass. Better though make it a normal member of the Pass class itself. rampitec: You probably need to reset NextID to zero with each run of the pass. Better though make it a…
		// current copy SChain
		unsigned SiblingPenalty = 0;
		SetVector<unsigned> Siblings;
		foadUnsubmitted Done Reply Inline Actions Spelling "penalty" foad: Spelling "penalty"
		V2SCopyInfo() : Copy(nullptr), ID(0){};
		V2SCopyInfo(unsigned Id, MachineInstr *C, unsigned Width)
		: Copy(C), NumSVCopies(0), NumReadfirstlanes(Width / 32), ID(Id){};
		#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)
		void dump() {
		rampitecUnsubmitted Not Done Reply Inline Actions `#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)` around dump(). rampitec: `#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)` around dump().
		dbgs() << ID << " : " << *Copy << "\n\tS:" << SChain.size()
		<< "\n\tSV:" << NumSVCopies << "\n\tSP: " << SiblingPenalty
		<< "\nScore: " << Score << "\n";
		}
		#endif
		};

		void SIFixSGPRCopies::lowerVGPR2SGPRCopies(MachineFunction &MF) {

		DenseMap<unsigned, V2SCopyInfo> Copies;
		DenseMap<MachineInstr *, SetVector<unsigned>> SiblingPenalty;

		foadUnsubmitted Done Reply Inline Actions Spelling "penalty" foad: Spelling "penalty"
		// The main function that computes the VGPR to SGPR copy score
		// and determines copy further lowering way: v_readfirstlane_b32 or moveToVALU
		auto needToBeConvertedToVALU = [&](V2SCopyInfo *I) -> bool {
		if (I->SChain.empty())
		vpykhtinUnsubmitted Done Reply Inline Actions ditto vpykhtin: ditto
		return true;
		I->Siblings = SiblingPenalty[*std::max_element(
		I->SChain.begin(), I->SChain.end(),
		[&](MachineInstr A, MachineInstr B) -> bool {
		return SiblingPenalty[A].size() < SiblingPenalty[B].size();
		})];
		I->Siblings.remove_if([&](unsigned ID) { return ID == I->ID; });
		// The loop below computes the number of another VGPR to SGPR copies
		// which contribute to the current copy SALU chain. We assume that all the
		foadUnsubmitted Done Reply Inline Actions Can just be a set, doesn't need to be a SetVector foad: Can just be a set, doesn't need to be a SetVector
		// copies with the same source virtual register will be squashed to one by
		// regalloc. Also we take careof the copies of the differnt subregs of the
		// same register.
		vpykhtinUnsubmitted Done Reply Inline Actions Copies.count(J) and Copies[J] lookups J twice vpykhtin: Copies.count(J) and Copies[J] lookups J twice
		SmallSet<std::pair<Register, unsigned>, 4> SrcRegs;
		for (auto J : I->Siblings) {
		auto InfoIt = Copies.find(J);
		if (InfoIt != Copies.end()) {
		MachineInstr *SiblingCopy = InfoIt->getSecond().Copy;
		if (SiblingCopy->isImplicitDef())
		// the COPY has already been MoveToVALUed
		continue;

		SrcRegs.insert(std::make_pair(SiblingCopy->getOperand(1).getReg(),
		SiblingCopy->getOperand(1).getSubReg()));
		}
		}
		I->SiblingPenalty = SrcRegs.size();

		unsigned Penalty =
		I->NumSVCopies + I->SiblingPenalty + I->NumReadfirstlanes;
		unsigned Profit = I->SChain.size();
		I->Score = Penalty > Profit ? 0 : Profit - Penalty;
		I->NeedToBeConvertedToVALU = I->Score < 3;
		return I->NeedToBeConvertedToVALU;
		};

		auto needProcessing = [](MachineInstr &MI) -> bool {
		switch (MI.getOpcode()) {
		case AMDGPU::COPY:
		case AMDGPU::WQM:
		case AMDGPU::STRICT_WQM:
		case AMDGPU::SOFT_WQM:
		case AMDGPU::STRICT_WWM:
		return true;
		default:
		return false;
		}
		};

		for (MachineFunction::iterator BI = MF.begin(), BE = MF.end(); BI != BE;
		++BI) {
		MachineBasicBlock MBB = &BI;
		vpykhtinUnsubmitted Done Reply Inline Actions if (LowerSpecialCase ,,, ) continue to reduce nesting vpykhtin: if (LowerSpecialCase ,,, ) continue to reduce nesting
		for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;
		++I) {
		MachineInstr &MI = *I;
		if (!needProcessing(MI))
		continue;
		if (lowerSpecialCase(MI))
		continue;

		// Compute the COPY width to pass it to V2SCopyInfo Ctor
		Register DstReg = MI.getOperand(0).getReg();

		const TargetRegisterClass DstRC = TRI->getRegClassForReg(MRI, DstReg);

		foadUnsubmitted Done Reply Inline Actions Can just be a set, doesn't need to be a SetVector foad: Can just be a set, doesn't need to be a SetVector
		V2SCopyInfo In(getNextVGPRToSGPRCopyId(), &MI,
		TRI->getRegSizeInBits(*DstRC));

		SmallVector<MachineInstr *, 8> AnalysisWorklist;
		rampitecUnsubmitted Done Reply Inline Actions Capitalize 'Worklist'. rampitec: Capitalize 'Worklist'.
		// Needed because the SSA is not a tree but a graph and may have
		// forks and joins. We should not then go same way twice.
		DenseSet<MachineInstr *> Visited;
		AnalysisWorklist.push_back(&MI);
		while (!AnalysisWorklist.empty()) {

		MachineInstr *Inst = AnalysisWorklist.pop_back_val();

		if (!Visited.insert(Inst).second)
		continue;

		// Copies and REG_SEQUENCE do not contribute to the final assembly
		rampitecUnsubmitted Not Done Reply Inline Actions Typo "comtribute". rampitec: Typo "comtribute".
		// So, skip them but take care of the SGPR to VGPR copies bookkeeping.
		if (Inst->isCopy() \|\| Inst->isRegSequence()) {
		if (TRI->isVGPR(*MRI, Inst->getOperand(0).getReg())) {
		if (!Inst->isCopy() \|\|
		!tryChangeVGPRtoSGPRinCopy(*Inst, TRI, TII)) {
		In.NumSVCopies++;
		continue;
		}
		}
		}

		SiblingPenalty[Inst].insert(In.ID);
		vpykhtinUnsubmitted Done Reply Inline Actions replace Inst->getParent()->end() with E vpykhtin: replace Inst->getParent()->end() with E

		SmallVector<MachineInstr *, 4> Users;
		if ((TII->isSALU(*Inst) && Inst->isCompare()) \|\|
		(Inst->isCopy() && Inst->getOperand(0).getReg() == AMDGPU::SCC)) {
		auto I = Inst->getIterator();
		auto E = Inst->getParent()->end();
		rampitecUnsubmitted Not Done Reply Inline Actions Why ++I is in parenthesis? rampitec: Why ++I is in parenthesis?
		while (++I != E && !I->findRegisterDefOperand(AMDGPU::SCC)) {
		if (I->readsRegister(AMDGPU::SCC))
		vpykhtinUnsubmitted Done Reply Inline Actions why isSGPRReg is in the loop? It isn't being changed in the loop vpykhtin: why isSGPRReg is in the loop? It isn't being changed in the loop
		Users.push_back(&*I);
		}
		} else if (Inst->getNumExplicitDefs() != 0) {
		Register Reg = Inst->getOperand(0).getReg();
		if (TRI->isSGPRReg(*MRI, Reg))
		for (auto &U : MRI->use_instructions(Reg))
		Users.push_back(&U);
		}
		for (auto U : Users) {
		if (TII->isSALU(*U))
		In.SChain.insert(U);
		AnalysisWorklist.push_back(U);
		}
		}
		Copies[In.ID] = In;
		}
		}

		SmallVector<unsigned, 8> LoweringWorklist;
		for (auto &C : Copies) {
		if (needToBeConvertedToVALU(&C.second))
		LoweringWorklist.push_back(C.second.ID);
		}

		while (!LoweringWorklist.empty()) {
		vpykhtinUnsubmitted Done Reply Inline Actions Copies[CurID] and Copies.count(CurID) lookups for CurID twice vpykhtin: Copies[CurID] and Copies.count(CurID) lookups for CurID twice
		unsigned CurID = LoweringWorklist.pop_back_val();
		auto CurInfoIt = Copies.find(CurID);
		if (CurInfoIt != Copies.end()) {
		V2SCopyInfo C = CurInfoIt->getSecond();
		vpykhtinUnsubmitted Done Reply Inline Actions ditto for S vpykhtin: ditto for S
		LLVM_DEBUG(dbgs() << "Processing ...\n"; C.dump());
		for (auto S : C.Siblings) {
		auto SibInfoIt = Copies.find(S);
		if (SibInfoIt != Copies.end()) {
		V2SCopyInfo &SI = SibInfoIt->getSecond();
		LLVM_DEBUG(dbgs() << "Sibling:\n"; SI.dump());
		if (!SI.NeedToBeConvertedToVALU) {
		set_subtract(SI.SChain, C.SChain);
		if (needToBeConvertedToVALU(&SI))
		LoweringWorklist.push_back(SI.ID);
		}
		SI.Siblings.remove_if([&](unsigned ID) { return ID == C.ID; });
		}
		}
		LLVM_DEBUG(dbgs() << "V2S copy " << *C.Copy
		<< " is being turned to VALU\n");
		Copies.erase(C.ID);
		TII->moveToVALU(*C.Copy, MDT);
		}
		}

		// Now do actual lowering
		for (auto C : Copies) {
		MachineInstr *MI = C.second.Copy;
		MachineBasicBlock *MBB = MI->getParent();
		foadUnsubmitted Done Reply Inline Actions Typo readfirstlane foad: Typo readfirstlane
		// We decide to turn V2S copy to v_readfirstlane_b32
		// remove it from the V2SCopies and remove it from all its siblings
		LLVM_DEBUG(dbgs() << "V2S copy " << *MI
		<< " is being turned to v_readfirstlane_b32"
		foadUnsubmitted Done Reply Inline Actions Should be const. But why is 4 enough? Isn't there some way you can get this programmatically from SIRegisterInfo? foad: Should be const. But why is 4 enough? Isn't there some way you can get this programmatically…
		alex-tAuthorUnsubmitted Done Reply Inline Actions For now just SIRegisterInfo::getSubRegFromChannel is used. Later I would like to change the SIInstrInfo::readlaneVGPRToSGPR to serve all cases. alex-t: For now just SIRegisterInfo::getSubRegFromChannel is used. Later I would like to change the…
		<< " Score: " << C.second.Score << "\n");
		Register DstReg = MI->getOperand(0).getReg();
		Register SrcReg = MI->getOperand(1).getReg();
		unsigned SubReg = MI->getOperand(1).getSubReg();
		const TargetRegisterClass SrcRC = TRI->getRegClassForReg(MRI, SrcReg);
		SrcRC = TRI->getSubRegClass(SrcRC, SubReg);
		size_t SrcSize = TRI->getRegSizeInBits(*SrcRC);
		foadUnsubmitted Done Reply Inline Actions Don't need the "if", you can call getSubRegClass unconditionally. foad: Don't need the "if", you can call getSubRegClass unconditionally.
		if (SrcSize == 16) {
		// HACK to handle possible 16bit VGPR source
		auto MIB = BuildMI(*MBB, MI, MI->getDebugLoc(),
		TII->get(AMDGPU::V_READFIRSTLANE_B32), DstReg);
		MIB.addReg(SrcReg, 0, AMDGPU::NoSubRegister);
		foadUnsubmitted Done Reply Inline Actions Don't need the "if", you can use the subreg version in all cases. foad: Don't need the "if", you can use the subreg version in all cases.
		} else if (SrcSize == 32) {
		auto MIB = BuildMI(*MBB, MI, MI->getDebugLoc(),
		TII->get(AMDGPU::V_READFIRSTLANE_B32), DstReg);
		rampitecUnsubmitted Done Reply Inline Actions What happens to 16 bit subregs? rampitec: What happens to 16 bit subregs?
		alex-tAuthorUnsubmitted Done Reply Inline Actions VGPR to SGPR copies are inserted by InstrEmitter to adjust the VALU result to the SALU consumer. The 16bits in VGPR result are packed and adjusted to the consumer by inserting the EXCTRACT_ELEMENT lowered in another place. What kind of adjustment would you recommend if we have a 16bit VGPR source? Zero-extend it to 32bit? alex-t: VGPR to SGPR copies are inserted by InstrEmitter to adjust the VALU result to the SALU consumer.
		rampitecUnsubmitted Done Reply Inline Actions Assume the input like: %0:SGPR_LO16 = COPY %1.lo16:VGPR_32 If I read it right it will produce V_READFIRSTLANE_B32 with a 16 bit destination and source, which does not work. Assume that selection managed to produce such input, which path will it take here? rampitec: Assume the input like: ``` %0:SGPR_LO16 = COPY %1.lo16:VGPR_32 ``` If I read it right it will…
		rampitecUnsubmitted Done Reply Inline Actions JBTW, right now it seems to go via moveToVALU: # RUN: llc -march=amdgcn -mcpu=gfx1100 -run-pass=si-fix-sgpr-copies -verify-machineinstrs -o - %s --- name: v16_to_s16 body: \| bb.0: %0:vgpr_32 = IMPLICIT_DEF %1:sgpr_lo16 = COPY %0.lo16:vgpr_32 %2:vgpr_lo16 = COPY %1 S_ENDPGM 0, implicit %1, implicit %2 ... Results in: %0:vgpr_32 = IMPLICIT_DEF %3:vgpr_lo16 = COPY %0.lo16 %2:vgpr_lo16 = COPY %3 S_ENDPGM 0, implicit %3, implicit %2 rampitec: JBTW, right now it seems to go via moveToVALU: ``` # RUN: llc -march=amdgcn -mcpu=gfx1100 -run…
		alex-tAuthorUnsubmitted Done Reply Inline Actions That is what I tried to explain. To reach the place we're talking about the copy should spawn SALU chain long enough to be selected for v_readfirstlane_b32. We have no SALU instructions that accept 16bit operand explicitly. All 16bit SALU really take 32bit SGPR but only use HI/LO half of it. So, we cannot create the MIR for the case you are concerned with. alex-t: That is what I tried to explain. To reach the place we're talking about the copy should spawn…
		MIB.addReg(SrcReg, 0, SubReg);
		} else {
		auto Result = BuildMI(*MBB, MI, MI->getDebugLoc(),
		TII->get(AMDGPU::REG_SEQUENCE), DstReg);
		int N = TRI->getRegSizeInBits(*SrcRC) / 32;
		rampitecUnsubmitted Done Reply Inline Actions Run clang-format again? rampitec: Run clang-format again?
		for (int i = 0; i < N; i++) {
		Register PartialSrc = TII->buildExtractSubReg(
		Result, *MRI, MI->getOperand(1), SrcRC,
		TRI->getSubRegFromChannel(i), &AMDGPU::VGPR_32RegClass);
		Register PartialDst =
		MRI->createVirtualRegister(&AMDGPU::SReg_32RegClass);
		BuildMI(MBB, Result, Result->getDebugLoc(),
		TII->get(AMDGPU::V_READFIRSTLANE_B32), PartialDst)
		.addReg(PartialSrc);
		Result.addReg(PartialDst).addImm(TRI->getSubRegFromChannel(i));
		}
		}
		MI->eraseFromParent();
		}
		}

llvm/test/CodeGen/AMDGPU/add3.ll

	Show First 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	define amdgpu_ps float @add3_uniform_vgpr(float inreg %a, float inreg %b, float inreg %c) {			define amdgpu_ps float @add3_uniform_vgpr(float inreg %a, float inreg %b, float inreg %c) {
	; VI-LABEL: add3_uniform_vgpr:			; VI-LABEL: add3_uniform_vgpr:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: v_add_f32_e64 v0, s2, 1.0			; VI-NEXT: v_add_f32_e64 v0, s2, 1.0
	; VI-NEXT: v_add_f32_e64 v1, s3, 2.0			; VI-NEXT: v_add_f32_e64 v1, s3, 2.0
	; VI-NEXT: v_mov_b32_e32 v2, 0x40400000			; VI-NEXT: v_mov_b32_e32 v2, 0x40400000
	; VI-NEXT: v_add_f32_e32 v2, s4, v2			; VI-NEXT: v_add_f32_e32 v2, s4, v2
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; VI-NEXT: v_add_u32_e32 v0, vcc, v2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; VI-NEXT: ; return to shader part epilog			; VI-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: add3_uniform_vgpr:			; GFX9-LABEL: add3_uniform_vgpr:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_add_f32_e64 v0, s2, 1.0			; GFX9-NEXT: v_add_f32_e64 v0, s2, 1.0
	; GFX9-NEXT: v_add_f32_e64 v1, s3, 2.0			; GFX9-NEXT: v_add_f32_e64 v1, s3, 2.0
	; GFX9-NEXT: v_mov_b32_e32 v2, 0x40400000			; GFX9-NEXT: v_mov_b32_e32 v2, 0x40400000
	; GFX9-NEXT: v_add_f32_e32 v2, s4, v2			; GFX9-NEXT: v_add_f32_e32 v2, s4, v2
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

Show First 20 Lines • Show All 515 Lines • ▼ Show 20 Lines	; GFX90A-NEXT: s_setpc_b64 s[30:31]
call void asm sideeffect "; use $0 $1","{a3},{v[0:31]}"(i32 %agpr2, <32 x i32> %vgpr0)		call void asm sideeffect "; use $0 $1","{a3},{v[0:31]}"(i32 %agpr2, <32 x i32> %vgpr0)
call void asm sideeffect "; use $0","${v32}"(i32 %v32)		call void asm sideeffect "; use $0","${v32}"(i32 %v32)
ret void		ret void
}		}

define amdgpu_kernel void @introduced_copy_to_sgpr(i64 %arg, i32 %arg1, i32 %arg2, i64 %arg3, <2 x half> %arg4, <2 x half> %arg5) #3 {		define amdgpu_kernel void @introduced_copy_to_sgpr(i64 %arg, i32 %arg1, i32 %arg2, i64 %arg3, <2 x half> %arg4, <2 x half> %arg5) #3 {
; GFX908-LABEL: introduced_copy_to_sgpr:		; GFX908-LABEL: introduced_copy_to_sgpr:
; GFX908: ; %bb.0: ; %bb		; GFX908: ; %bb.0: ; %bb
; GFX908-NEXT: global_load_ushort v0, v[0:1], off glc		; GFX908-NEXT: global_load_ushort v24, v[0:1], off glc
; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8		; GFX908-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
; GFX908-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x10		; GFX908-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x10
; GFX908-NEXT: s_load_dword s7, s[4:5], 0x18		; GFX908-NEXT: s_load_dword s8, s[4:5], 0x18
; GFX908-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x0		; GFX908-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x0
; GFX908-NEXT: s_mov_b32 s6, 0		; GFX908-NEXT: v_mov_b32_e32 v1, 0
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: v_cvt_f32_u32_e32 v1, s1		; GFX908-NEXT: v_cvt_f32_u32_e32 v0, s1
; GFX908-NEXT: s_sub_i32 s4, 0, s1		; GFX908-NEXT: s_sub_i32 s4, 0, s1
; GFX908-NEXT: s_lshl_b64 s[10:11], s[2:3], 5		; GFX908-NEXT: s_lshr_b32 s11, s8, 16
; GFX908-NEXT: s_or_b32 s10, s10, 28		; GFX908-NEXT: v_cvt_f32_f16_e32 v25, s8
; GFX908-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX908-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX908-NEXT: v_mov_b32_e32 v35, s10		; GFX908-NEXT: s_lshl_b64 s[8:9], s[2:3], 5
; GFX908-NEXT: s_lshr_b32 s12, s7, 16		; GFX908-NEXT: v_cvt_f32_f16_e32 v26, s11
; GFX908-NEXT: v_mov_b32_e32 v10, s11		; GFX908-NEXT: s_or_b32 s8, s8, 28
; GFX908-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX908-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX908-NEXT: v_cvt_u32_f32_e32 v2, v1		; GFX908-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX908-NEXT: v_cvt_f32_f16_e32 v26, s7		; GFX908-NEXT: v_mov_b32_e32 v7, s3
; GFX908-NEXT: v_cvt_f32_f16_e32 v27, s12		; GFX908-NEXT: s_mov_b32 s10, 0
; GFX908-NEXT: v_accvgpr_write_b32 a0, v35		; GFX908-NEXT: v_mov_b32_e32 v6, s2
; GFX908-NEXT: v_mul_lo_u32 v1, s4, v2		; GFX908-NEXT: v_mul_lo_u32 v2, s4, v0
; GFX908-NEXT: v_accvgpr_write_b32 a1, v10		; GFX908-NEXT: s_lshl_b64 s[4:5], s[6:7], 5
; GFX908-NEXT: s_lshl_b64 s[4:5], s[8:9], 5		; GFX908-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX908-NEXT: v_mul_hi_u32 v3, v2, v1		; GFX908-NEXT: v_add_u32_e32 v0, v0, v2
; GFX908-NEXT: v_mov_b32_e32 v1, 0		; GFX908-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX908-NEXT: v_add_u32_e32 v2, v2, v3		; GFX908-NEXT: v_mov_b32_e32 v2, s8
; GFX908-NEXT: v_mul_hi_u32 v4, s0, v2		; GFX908-NEXT: v_mov_b32_e32 v3, s9
; GFX908-NEXT: v_mul_lo_u32 v5, v4, s1		; GFX908-NEXT: v_mul_lo_u32 v4, v0, s1
; GFX908-NEXT: v_add_u32_e32 v6, 1, v4		; GFX908-NEXT: v_add_u32_e32 v5, 1, v0
; GFX908-NEXT: v_sub_u32_e32 v5, s0, v5		; GFX908-NEXT: v_sub_u32_e32 v4, s0, v4
; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5		; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v4
; GFX908-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX908-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
; GFX908-NEXT: v_subrev_u32_e32 v6, s1, v5		; GFX908-NEXT: v_subrev_u32_e32 v5, s1, v4
; GFX908-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc		; GFX908-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; GFX908-NEXT: v_add_u32_e32 v7, 1, v4		; GFX908-NEXT: v_add_u32_e32 v5, 1, v0
; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v5		; GFX908-NEXT: v_cmp_le_u32_e32 vcc, s1, v4
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
; GFX908-NEXT: v_and_b32_e32 v28, 0xffff, v0		; GFX908-NEXT: v_lshlrev_b64 v[4:5], 5, v[0:1]
; GFX908-NEXT: v_cndmask_b32_e32 v0, v4, v7, vcc		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: v_mul_lo_u32 v8, s9, v28		; GFX908-NEXT: v_readfirstlane_b32 s0, v24
; GFX908-NEXT: v_mul_hi_u32 v9, s8, v28		; GFX908-NEXT: s_and_b32 s0, 0xffff, s0
; GFX908-NEXT: v_lshlrev_b64 v[2:3], 5, v[0:1]		; GFX908-NEXT: s_mul_i32 s1, s7, s0
; GFX908-NEXT: v_mul_lo_u32 v6, s8, v28		; GFX908-NEXT: s_mul_hi_u32 s7, s6, s0
; GFX908-NEXT: v_add_u32_e32 v7, v9, v8		; GFX908-NEXT: s_mul_i32 s0, s6, s0
; GFX908-NEXT: v_accvgpr_write_b32 a2, v2		; GFX908-NEXT: s_add_i32 s1, s7, s1
; GFX908-NEXT: v_accvgpr_write_b32 a3, v3		; GFX908-NEXT: s_lshl_b64 s[6:7], s[0:1], 5
; GFX908-NEXT: v_lshlrev_b64 v[6:7], 5, v[6:7]
; GFX908-NEXT: v_mov_b32_e32 v9, s3
; GFX908-NEXT: v_mov_b32_e32 v8, s2
; GFX908-NEXT: s_branch .LBB3_2		; GFX908-NEXT: s_branch .LBB3_2
; GFX908-NEXT: .LBB3_1: ; %bb12		; GFX908-NEXT: .LBB3_1: ; %bb12
; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX908-NEXT: v_add_co_u32_e32 v8, vcc, v8, v0		; GFX908-NEXT: v_add_co_u32_e32 v6, vcc, v6, v0
; GFX908-NEXT: s_nop 0		; GFX908-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v7, vcc
; GFX908-NEXT: v_accvgpr_read_b32 v3, a1
; GFX908-NEXT: v_accvgpr_read_b32 v5, a3
; GFX908-NEXT: v_addc_co_u32_e32 v9, vcc, 0, v9, vcc
; GFX908-NEXT: v_accvgpr_read_b32 v2, a0
; GFX908-NEXT: v_accvgpr_read_b32 v4, a2
; GFX908-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4		; GFX908-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4
; GFX908-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc		; GFX908-NEXT: v_addc_co_u32_e32 v3, vcc, v3, v5, vcc
; GFX908-NEXT: s_nop 0
; GFX908-NEXT: v_accvgpr_write_b32 a0, v2
; GFX908-NEXT: v_accvgpr_write_b32 a1, v3
; GFX908-NEXT: .LBB3_2: ; %bb9		; GFX908-NEXT: .LBB3_2: ; %bb9
; GFX908-NEXT: ; =>This Loop Header: Depth=1		; GFX908-NEXT: ; =>This Loop Header: Depth=1
; GFX908-NEXT: ; Child Loop BB3_5 Depth 2		; GFX908-NEXT: ; Child Loop BB3_5 Depth 2
; GFX908-NEXT: s_cbranch_scc0 .LBB3_1		; GFX908-NEXT: s_cbranch_scc0 .LBB3_1
; GFX908-NEXT: ; %bb.3: ; %bb14		; GFX908-NEXT: ; %bb.3: ; %bb14
; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX908-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX908-NEXT: v_mov_b32_e32 v10, 0		; GFX908-NEXT: v_mov_b32_e32 v8, 0
; GFX908-NEXT: v_mov_b32_e32 v11, 0		; GFX908-NEXT: v_mov_b32_e32 v9, 0
; GFX908-NEXT: global_load_dwordx2 v[10:11], v[10:11], off		; GFX908-NEXT: global_load_dwordx2 v[8:9], v[8:9], off
; GFX908-NEXT: s_mov_b32 s7, s6		; GFX908-NEXT: s_mov_b32 s11, s10
; GFX908-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[8:9]		; GFX908-NEXT: v_mov_b32_e32 v13, s11
; GFX908-NEXT: v_accvgpr_read_b32 v13, a1		; GFX908-NEXT: v_mov_b32_e32 v15, s11
; GFX908-NEXT: v_mov_b32_e32 v15, s7		; GFX908-NEXT: v_mov_b32_e32 v17, s11
; GFX908-NEXT: v_mov_b32_e32 v17, s7		; GFX908-NEXT: v_mov_b32_e32 v12, s10
; GFX908-NEXT: v_accvgpr_read_b32 v12, a0		; GFX908-NEXT: v_mov_b32_e32 v14, s10
; GFX908-NEXT: v_mov_b32_e32 v14, s6		; GFX908-NEXT: v_mov_b32_e32 v16, s10
; GFX908-NEXT: v_mov_b32_e32 v16, s6		; GFX908-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[6:7]
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: v_mov_b32_e32 v11, v3
; GFX908-NEXT: v_add_co_u32_e32 v20, vcc, 1, v10		; GFX908-NEXT: v_mov_b32_e32 v19, v13
; GFX908-NEXT: v_addc_co_u32_e32 v18, vcc, 0, v11, vcc		; GFX908-NEXT: v_mov_b32_e32 v10, v2
; GFX908-NEXT: v_mul_lo_u32 v21, s4, v18		; GFX908-NEXT: v_mov_b32_e32 v18, v12
; GFX908-NEXT: v_mul_hi_u32 v22, s4, v20		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: v_mul_lo_u32 v23, s5, v20		; GFX908-NEXT: v_readfirstlane_b32 s2, v8
; GFX908-NEXT: v_mul_lo_u32 v29, s4, v20		; GFX908-NEXT: v_readfirstlane_b32 s3, v9
; GFX908-NEXT: v_mov_b32_e32 v19, s7		; GFX908-NEXT: s_add_u32 s2, s2, 1
; GFX908-NEXT: v_add_u32_e32 v20, v22, v21		; GFX908-NEXT: s_addc_u32 s3, s3, 0
; GFX908-NEXT: v_add_u32_e32 v30, v20, v23		; GFX908-NEXT: s_mul_hi_u32 s9, s4, s2
; GFX908-NEXT: v_mov_b32_e32 v21, s7		; GFX908-NEXT: s_mul_i32 s11, s5, s2
; GFX908-NEXT: v_mov_b32_e32 v18, s6		; GFX908-NEXT: s_mul_i32 s8, s4, s2
; GFX908-NEXT: v_mov_b32_e32 v20, s6		; GFX908-NEXT: s_mul_i32 s2, s4, s3
		; GFX908-NEXT: s_add_i32 s2, s9, s2
		; GFX908-NEXT: s_add_i32 s9, s2, s11
; GFX908-NEXT: s_branch .LBB3_5		; GFX908-NEXT: s_branch .LBB3_5
; GFX908-NEXT: .LBB3_4: ; %bb58		; GFX908-NEXT: .LBB3_4: ; %bb58
; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX908-NEXT: v_add_co_u32_e32 v10, vcc, v10, v28		; GFX908-NEXT: v_add_co_u32_sdwa v8, vcc, v8, v24 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX908-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v11, vcc		; GFX908-NEXT: v_addc_co_u32_e32 v9, vcc, 0, v9, vcc
; GFX908-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[10:11]		; GFX908-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[8:9]
; GFX908-NEXT: v_add_co_u32_e64 v12, s[2:3], v12, v6		; GFX908-NEXT: v_mov_b32_e32 v20, s7
; GFX908-NEXT: v_addc_co_u32_e64 v13, s[2:3], v13, v7, s[2:3]		; GFX908-NEXT: v_add_co_u32_e64 v10, s[2:3], s6, v10
		; GFX908-NEXT: v_addc_co_u32_e64 v11, s[2:3], v11, v20, s[2:3]
; GFX908-NEXT: s_cbranch_vccz .LBB3_1		; GFX908-NEXT: s_cbranch_vccz .LBB3_1
; GFX908-NEXT: .LBB3_5: ; %bb16		; GFX908-NEXT: .LBB3_5: ; %bb16
; GFX908-NEXT: ; Parent Loop BB3_2 Depth=1		; GFX908-NEXT: ; Parent Loop BB3_2 Depth=1
; GFX908-NEXT: ; => This Inner Loop Header: Depth=2		; GFX908-NEXT: ; => This Inner Loop Header: Depth=2
; GFX908-NEXT: v_add_co_u32_e32 v22, vcc, v12, v29		; GFX908-NEXT: v_mov_b32_e32 v21, s9
; GFX908-NEXT: v_addc_co_u32_e32 v23, vcc, v13, v30, vcc		; GFX908-NEXT: v_add_co_u32_e32 v20, vcc, s8, v10
; GFX908-NEXT: global_load_dword v32, v[22:23], off offset:-12 glc		; GFX908-NEXT: v_addc_co_u32_e32 v21, vcc, v11, v21, vcc
		; GFX908-NEXT: global_load_dword v28, v[20:21], off offset:-12 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v31, v[22:23], off offset:-8 glc		; GFX908-NEXT: global_load_dword v27, v[20:21], off offset:-8 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v24, v[22:23], off offset:-4 glc		; GFX908-NEXT: global_load_dword v22, v[20:21], off offset:-4 glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: global_load_dword v22, v[22:23], off glc		; GFX908-NEXT: global_load_dword v20, v[20:21], off glc
; GFX908-NEXT: s_waitcnt vmcnt(0)		; GFX908-NEXT: s_waitcnt vmcnt(0)
; GFX908-NEXT: ds_read_b64 v[22:23], v1		; GFX908-NEXT: ds_read_b64 v[20:21], v1
; GFX908-NEXT: ds_read_b64 v[24:25], v0		; GFX908-NEXT: ds_read_b64 v[22:23], v0
; GFX908-NEXT: s_and_b64 vcc, exec, s[0:1]		; GFX908-NEXT: s_and_b64 vcc, exec, s[0:1]
; GFX908-NEXT: s_waitcnt lgkmcnt(0)		; GFX908-NEXT: s_waitcnt lgkmcnt(0)
; GFX908-NEXT: s_cbranch_vccnz .LBB3_4		; GFX908-NEXT: s_cbranch_vccnz .LBB3_4
; GFX908-NEXT: ; %bb.6: ; %bb51		; GFX908-NEXT: ; %bb.6: ; %bb51
; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX908-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX908-NEXT: v_cvt_f32_f16_sdwa v33, v32 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX908-NEXT: v_cvt_f32_f16_sdwa v29, v28 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX908-NEXT: v_cvt_f32_f16_e32 v32, v32		; GFX908-NEXT: v_cvt_f32_f16_e32 v28, v28
; GFX908-NEXT: v_cvt_f32_f16_sdwa v34, v31 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX908-NEXT: v_cvt_f32_f16_sdwa v30, v27 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX908-NEXT: v_cvt_f32_f16_e32 v31, v31		; GFX908-NEXT: v_cvt_f32_f16_e32 v27, v27
; GFX908-NEXT: v_add_f32_e32 v4, v26, v22		; GFX908-NEXT: v_add_f32_e32 v31, v25, v20
; GFX908-NEXT: v_add_f32_e32 v5, v27, v23		; GFX908-NEXT: v_add_f32_e32 v32, v26, v21
; GFX908-NEXT: v_add_f32_e32 v2, 0, v22		; GFX908-NEXT: v_add_f32_e32 v33, 0, v20
; GFX908-NEXT: v_add_f32_e32 v3, 0, v23		; GFX908-NEXT: v_add_f32_e32 v34, 0, v21
; GFX908-NEXT: v_add_f32_e32 v25, v33, v25		; GFX908-NEXT: v_add_f32_e32 v23, v29, v23
; GFX908-NEXT: v_add_f32_e32 v24, v32, v24		; GFX908-NEXT: v_add_f32_e32 v22, v28, v22
; GFX908-NEXT: v_add_f32_e32 v23, v34, v23		; GFX908-NEXT: v_add_f32_e32 v21, v30, v21
; GFX908-NEXT: v_add_f32_e32 v22, v31, v22		; GFX908-NEXT: v_add_f32_e32 v20, v27, v20
; GFX908-NEXT: v_add_f32_e32 v15, v15, v5		; GFX908-NEXT: v_add_f32_e32 v13, v13, v32
; GFX908-NEXT: v_add_f32_e32 v14, v14, v4		; GFX908-NEXT: v_add_f32_e32 v12, v12, v31
; GFX908-NEXT: v_add_f32_e32 v17, v17, v3		; GFX908-NEXT: v_add_f32_e32 v15, v15, v34
; GFX908-NEXT: v_add_f32_e32 v16, v16, v2		; GFX908-NEXT: v_add_f32_e32 v14, v14, v33
; GFX908-NEXT: v_add_f32_e32 v18, v18, v24		; GFX908-NEXT: v_add_f32_e32 v16, v16, v22
; GFX908-NEXT: v_add_f32_e32 v19, v19, v25		; GFX908-NEXT: v_add_f32_e32 v17, v17, v23
; GFX908-NEXT: v_add_f32_e32 v20, v20, v22		; GFX908-NEXT: v_add_f32_e32 v18, v18, v20
; GFX908-NEXT: v_add_f32_e32 v21, v21, v23		; GFX908-NEXT: v_add_f32_e32 v19, v19, v21
; GFX908-NEXT: s_branch .LBB3_4		; GFX908-NEXT: s_branch .LBB3_4
;		;
; GFX90A-LABEL: introduced_copy_to_sgpr:		; GFX90A-LABEL: introduced_copy_to_sgpr:
; GFX90A: ; %bb.0: ; %bb		; GFX90A: ; %bb.0: ; %bb
; GFX90A-NEXT: global_load_ushort v10, v[0:1], off glc		; GFX90A-NEXT: global_load_ushort v28, v[0:1], off glc
; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0		; GFX90A-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
; GFX90A-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x8		; GFX90A-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x8
; GFX90A-NEXT: s_load_dwordx2 s[8:9], s[4:5], 0x10		; GFX90A-NEXT: s_load_dwordx2 s[10:11], s[4:5], 0x10
; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x18		; GFX90A-NEXT: s_load_dword s2, s[4:5], 0x18
; GFX90A-NEXT: v_mov_b32_e32 v1, 0		; GFX90A-NEXT: v_mov_b32_e32 v1, 0
; GFX90A-NEXT: s_mov_b32 s4, 0		; GFX90A-NEXT: s_mov_b32 s8, 0
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX90A-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX90A-NEXT: s_sub_i32 s5, 0, s7		; GFX90A-NEXT: s_sub_i32 s9, 0, s7
		; GFX90A-NEXT: s_lshl_b64 s[4:5], s[10:11], 5
		; GFX90A-NEXT: s_or_b32 s4, s4, 28
		; GFX90A-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX90A-NEXT: s_lshr_b32 s12, s2, 16		; GFX90A-NEXT: s_lshr_b32 s12, s2, 16
		; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[4:5], s[4:5] op_sel:[0,1]
; GFX90A-NEXT: v_cvt_f32_f16_e32 v2, s2		; GFX90A-NEXT: v_cvt_f32_f16_e32 v2, s2
; GFX90A-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX90A-NEXT: v_cvt_f32_f16_e32 v3, s12
; GFX90A-NEXT: s_lshl_b64 s[10:11], s[8:9], 5
; GFX90A-NEXT: s_or_b32 s10, s10, 28
; GFX90A-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX90A-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX90A-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX90A-NEXT: v_cvt_u32_f32_e32 v0, v0
		; GFX90A-NEXT: v_cvt_f32_f16_e32 v3, s12
; GFX90A-NEXT: s_lshl_b64 s[2:3], s[0:1], 5		; GFX90A-NEXT: s_lshl_b64 s[2:3], s[0:1], 5
; GFX90A-NEXT: v_pk_mov_b32 v[4:5], s[8:9], s[8:9] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[4:5], s[10:11], s[10:11] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[6:7], s[10:11], s[10:11] op_sel:[0,1]		; GFX90A-NEXT: v_mul_lo_u32 v8, s9, v0
; GFX90A-NEXT: v_mul_lo_u32 v8, s5, v0
; GFX90A-NEXT: v_mul_hi_u32 v8, v0, v8		; GFX90A-NEXT: v_mul_hi_u32 v8, v0, v8
; GFX90A-NEXT: v_add_u32_e32 v0, v0, v8		; GFX90A-NEXT: v_add_u32_e32 v0, v0, v8
; GFX90A-NEXT: v_mul_hi_u32 v0, s6, v0		; GFX90A-NEXT: v_mul_hi_u32 v0, s6, v0
; GFX90A-NEXT: v_mul_lo_u32 v8, v0, s7		; GFX90A-NEXT: v_mul_lo_u32 v8, v0, s7
; GFX90A-NEXT: v_sub_u32_e32 v8, s6, v8		; GFX90A-NEXT: v_sub_u32_e32 v8, s6, v8
; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0		; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8		; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc		; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
; GFX90A-NEXT: v_subrev_u32_e32 v9, s7, v8		; GFX90A-NEXT: v_subrev_u32_e32 v9, s7, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc		; GFX90A-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc
; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0		; GFX90A-NEXT: v_add_u32_e32 v9, 1, v0
; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8		; GFX90A-NEXT: v_cmp_le_u32_e32 vcc, s7, v8
; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc		; GFX90A-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc
; GFX90A-NEXT: v_lshlrev_b64 v[8:9], 5, v[0:1]		; GFX90A-NEXT: v_lshlrev_b64 v[8:9], 5, v[0:1]
		; GFX90A-NEXT: v_pk_mov_b32 v[10:11], 0, 0
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: v_and_b32_e32 v30, 0xffff, v10		; GFX90A-NEXT: v_readfirstlane_b32 s4, v28
; GFX90A-NEXT: v_mul_lo_u32 v11, s1, v30		; GFX90A-NEXT: s_and_b32 s4, 0xffff, s4
; GFX90A-NEXT: v_mul_hi_u32 v12, s0, v30		; GFX90A-NEXT: s_mul_i32 s1, s1, s4
; GFX90A-NEXT: v_mul_lo_u32 v10, s0, v30		; GFX90A-NEXT: s_mul_hi_u32 s5, s0, s4
; GFX90A-NEXT: v_add_u32_e32 v11, v12, v11		; GFX90A-NEXT: s_mul_i32 s0, s0, s4
; GFX90A-NEXT: v_lshlrev_b64 v[10:11], 5, v[10:11]		; GFX90A-NEXT: s_add_i32 s1, s5, s1
; GFX90A-NEXT: v_pk_mov_b32 v[12:13], 0, 0		; GFX90A-NEXT: s_lshl_b64 s[4:5], s[0:1], 5
; GFX90A-NEXT: s_branch .LBB3_2		; GFX90A-NEXT: s_branch .LBB3_2
; GFX90A-NEXT: .LBB3_1: ; %bb12		; GFX90A-NEXT: .LBB3_1: ; %bb12
; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX90A-NEXT: v_add_co_u32_e32 v4, vcc, v4, v0		; GFX90A-NEXT: v_add_co_u32_e32 v4, vcc, v4, v0
; GFX90A-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc		; GFX90A-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
; GFX90A-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8		; GFX90A-NEXT: v_add_co_u32_e32 v6, vcc, v6, v8
; GFX90A-NEXT: v_addc_co_u32_e32 v7, vcc, v7, v9, vcc		; GFX90A-NEXT: v_addc_co_u32_e32 v7, vcc, v7, v9, vcc
; GFX90A-NEXT: .LBB3_2: ; %bb9		; GFX90A-NEXT: .LBB3_2: ; %bb9
; GFX90A-NEXT: ; =>This Loop Header: Depth=1		; GFX90A-NEXT: ; =>This Loop Header: Depth=1
; GFX90A-NEXT: ; Child Loop BB3_5 Depth 2		; GFX90A-NEXT: ; Child Loop BB3_5 Depth 2
; GFX90A-NEXT: s_cbranch_scc0 .LBB3_1		; GFX90A-NEXT: s_cbranch_scc0 .LBB3_1
; GFX90A-NEXT: ; %bb.3: ; %bb14		; GFX90A-NEXT: ; %bb.3: ; %bb14
; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1		; GFX90A-NEXT: ; in Loop: Header=BB3_2 Depth=1
; GFX90A-NEXT: global_load_dwordx2 v[14:15], v[12:13], off		; GFX90A-NEXT: global_load_dwordx2 v[12:13], v[10:11], off
; GFX90A-NEXT: s_mov_b32 s5, s4		; GFX90A-NEXT: s_mov_b32 s9, s8
		; GFX90A-NEXT: v_pk_mov_b32 v[16:17], s[8:9], s[8:9] op_sel:[0,1]
		; GFX90A-NEXT: v_pk_mov_b32 v[18:19], s[8:9], s[8:9] op_sel:[0,1]
		; GFX90A-NEXT: v_pk_mov_b32 v[20:21], s[8:9], s[8:9] op_sel:[0,1]
; GFX90A-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[4:5]		; GFX90A-NEXT: v_cmp_gt_i64_e64 s[0:1], 0, v[4:5]
; GFX90A-NEXT: v_pk_mov_b32 v[16:17], v[6:7], v[6:7] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[14:15], v[6:7], v[6:7] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[18:19], s[4:5], s[4:5] op_sel:[0,1]		; GFX90A-NEXT: v_pk_mov_b32 v[22:23], v[16:17], v[16:17] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[20:21], s[4:5], s[4:5] op_sel:[0,1]
; GFX90A-NEXT: v_pk_mov_b32 v[22:23], s[4:5], s[4:5] op_sel:[0,1]
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: v_add_co_u32_e32 v24, vcc, 1, v14		; GFX90A-NEXT: v_readfirstlane_b32 s6, v12
; GFX90A-NEXT: v_addc_co_u32_e32 v25, vcc, 0, v15, vcc		; GFX90A-NEXT: v_readfirstlane_b32 s7, v13
; GFX90A-NEXT: v_mul_lo_u32 v25, s2, v25		; GFX90A-NEXT: s_add_u32 s6, s6, 1
; GFX90A-NEXT: v_mul_hi_u32 v26, s2, v24		; GFX90A-NEXT: s_addc_u32 s7, s7, 0
; GFX90A-NEXT: v_mul_lo_u32 v27, s3, v24		; GFX90A-NEXT: s_mul_hi_u32 s9, s2, s6
; GFX90A-NEXT: v_mul_lo_u32 v31, s2, v24		; GFX90A-NEXT: s_mul_i32 s7, s2, s7
; GFX90A-NEXT: v_add_u32_e32 v24, v26, v25		; GFX90A-NEXT: s_mul_i32 s10, s3, s6
; GFX90A-NEXT: v_add_u32_e32 v32, v24, v27		; GFX90A-NEXT: s_add_i32 s7, s9, s7
; GFX90A-NEXT: v_pk_mov_b32 v[24:25], s[4:5], s[4:5] op_sel:[0,1]		; GFX90A-NEXT: s_mul_i32 s6, s2, s6
		; GFX90A-NEXT: s_add_i32 s7, s7, s10
; GFX90A-NEXT: s_branch .LBB3_5		; GFX90A-NEXT: s_branch .LBB3_5
; GFX90A-NEXT: .LBB3_4: ; %bb58		; GFX90A-NEXT: .LBB3_4: ; %bb58
; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX90A-NEXT: v_add_co_u32_e32 v14, vcc, v14, v30		; GFX90A-NEXT: v_add_co_u32_sdwa v12, vcc, v12, v28 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX90A-NEXT: v_addc_co_u32_e32 v15, vcc, 0, v15, vcc		; GFX90A-NEXT: v_addc_co_u32_e32 v13, vcc, 0, v13, vcc
; GFX90A-NEXT: v_add_co_u32_e32 v16, vcc, v16, v10		; GFX90A-NEXT: v_mov_b32_e32 v24, s5
; GFX90A-NEXT: v_addc_co_u32_e32 v17, vcc, v17, v11, vcc		; GFX90A-NEXT: v_add_co_u32_e32 v14, vcc, s4, v14
; GFX90A-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[14:15]		; GFX90A-NEXT: v_addc_co_u32_e32 v15, vcc, v15, v24, vcc
		; GFX90A-NEXT: v_cmp_gt_i64_e32 vcc, 0, v[12:13]
; GFX90A-NEXT: s_cbranch_vccz .LBB3_1		; GFX90A-NEXT: s_cbranch_vccz .LBB3_1
; GFX90A-NEXT: .LBB3_5: ; %bb16		; GFX90A-NEXT: .LBB3_5: ; %bb16
; GFX90A-NEXT: ; Parent Loop BB3_2 Depth=1		; GFX90A-NEXT: ; Parent Loop BB3_2 Depth=1
; GFX90A-NEXT: ; => This Inner Loop Header: Depth=2		; GFX90A-NEXT: ; => This Inner Loop Header: Depth=2
; GFX90A-NEXT: v_add_co_u32_e32 v26, vcc, v16, v31		; GFX90A-NEXT: v_mov_b32_e32 v25, s7
; GFX90A-NEXT: v_addc_co_u32_e32 v27, vcc, v17, v32, vcc		; GFX90A-NEXT: v_add_co_u32_e32 v24, vcc, s6, v14
; GFX90A-NEXT: global_load_dword v34, v[26:27], off offset:-12 glc		; GFX90A-NEXT: v_addc_co_u32_e32 v25, vcc, v15, v25, vcc
		; GFX90A-NEXT: global_load_dword v30, v[24:25], off offset:-12 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v33, v[26:27], off offset:-8 glc		; GFX90A-NEXT: global_load_dword v29, v[24:25], off offset:-8 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v28, v[26:27], off offset:-4 glc		; GFX90A-NEXT: global_load_dword v26, v[24:25], off offset:-4 glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: global_load_dword v28, v[26:27], off glc		; GFX90A-NEXT: global_load_dword v26, v[24:25], off glc
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: ; kill: killed $vgpr26 killed $vgpr27		; GFX90A-NEXT: ; kill: killed $vgpr24 killed $vgpr25
; GFX90A-NEXT: ds_read_b64 v[26:27], v1		; GFX90A-NEXT: ds_read_b64 v[24:25], v1
; GFX90A-NEXT: s_waitcnt vmcnt(0)		; GFX90A-NEXT: s_waitcnt vmcnt(0)
; GFX90A-NEXT: ds_read_b64 v[28:29], v0		; GFX90A-NEXT: ds_read_b64 v[26:27], v0
; GFX90A-NEXT: s_and_b64 vcc, exec, s[0:1]		; GFX90A-NEXT: s_and_b64 vcc, exec, s[0:1]
; GFX90A-NEXT: s_waitcnt lgkmcnt(0)		; GFX90A-NEXT: s_waitcnt lgkmcnt(0)
; GFX90A-NEXT: s_cbranch_vccnz .LBB3_4		; GFX90A-NEXT: s_cbranch_vccnz .LBB3_4
; GFX90A-NEXT: ; %bb.6: ; %bb51		; GFX90A-NEXT: ; %bb.6: ; %bb51
; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2		; GFX90A-NEXT: ; in Loop: Header=BB3_5 Depth=2
; GFX90A-NEXT: v_cvt_f32_f16_sdwa v35, v34 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX90A-NEXT: v_cvt_f32_f16_sdwa v31, v30 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX90A-NEXT: v_cvt_f32_f16_e32 v34, v34		; GFX90A-NEXT: v_cvt_f32_f16_e32 v30, v30
; GFX90A-NEXT: v_cvt_f32_f16_sdwa v37, v33 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX90A-NEXT: v_cvt_f32_f16_sdwa v33, v29 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX90A-NEXT: v_cvt_f32_f16_e32 v36, v33		; GFX90A-NEXT: v_cvt_f32_f16_e32 v32, v29
; GFX90A-NEXT: v_pk_add_f32 v[38:39], v[2:3], v[26:27]		; GFX90A-NEXT: v_pk_add_f32 v[34:35], v[2:3], v[24:25]
; GFX90A-NEXT: v_pk_add_f32 v[40:41], v[26:27], 0 op_sel_hi:[1,0]		; GFX90A-NEXT: v_pk_add_f32 v[36:37], v[24:25], 0 op_sel_hi:[1,0]
; GFX90A-NEXT: v_pk_add_f32 v[28:29], v[34:35], v[28:29]		; GFX90A-NEXT: v_pk_add_f32 v[26:27], v[30:31], v[26:27]
; GFX90A-NEXT: v_pk_add_f32 v[26:27], v[36:37], v[26:27]		; GFX90A-NEXT: v_pk_add_f32 v[24:25], v[32:33], v[24:25]
; GFX90A-NEXT: v_pk_add_f32 v[18:19], v[18:19], v[38:39]		; GFX90A-NEXT: v_pk_add_f32 v[16:17], v[16:17], v[34:35]
; GFX90A-NEXT: v_pk_add_f32 v[20:21], v[20:21], v[40:41]		; GFX90A-NEXT: v_pk_add_f32 v[18:19], v[18:19], v[36:37]
; GFX90A-NEXT: v_pk_add_f32 v[22:23], v[22:23], v[28:29]		; GFX90A-NEXT: v_pk_add_f32 v[20:21], v[20:21], v[26:27]
; GFX90A-NEXT: v_pk_add_f32 v[24:25], v[24:25], v[26:27]		; GFX90A-NEXT: v_pk_add_f32 v[22:23], v[22:23], v[24:25]
; GFX90A-NEXT: s_branch .LBB3_4		; GFX90A-NEXT: s_branch .LBB3_4
bb:		bb:
%i = load volatile i16, i16 addrspace(4)* undef, align 2		%i = load volatile i16, i16 addrspace(4)* undef, align 2
%i6 = zext i16 %i to i64		%i6 = zext i16 %i to i64
%i7 = udiv i32 %arg1, %arg2		%i7 = udiv i32 %arg1, %arg2
%i8 = zext i32 %i7 to i64		%i8 = zext i32 %i7 to i64
br label %bb9		br label %bb9

▲ Show 20 Lines • Show All 328 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX6-NEXT: s_sub_i32 s4, 0, s3			; GFX6-NEXT: s_sub_i32 s4, 0, s3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s2, v1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s5			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s5
	; GFX6-NEXT: s_sub_i32 s2, 0, s5			; GFX6-NEXT: s_sub_i32 s2, 0, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s5
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s5, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s5, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s5, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s5, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i32:			; GFX9-LABEL: urem_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v1, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s4, 0, s3			; GFX9-NEXT: s_sub_i32 s4, 0, s3
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s5, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: s_mul_i32 s4, s4, s5
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0			; GFX9-NEXT: s_add_i32 s5, s5, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: s_mul_hi_u32 s4, s2, s5
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: s_mul_i32 s4, s4, s3
	; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0			; GFX9-NEXT: s_sub_i32 s2, s2, s4
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0			; GFX9-NEXT: s_sub_i32 s4, s2, s3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_cselect_b32 s2, s4, s2
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0			; GFX9-NEXT: s_sub_i32 s4, s2, s3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: s_cmp_ge_u32 s2, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_cselect_b32 s2, s4, s2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: global_store_dword v1, v0, s[0:1]			; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem i32 %x, %y			%r = urem i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {			define amdgpu_kernel void @sdiv_i32(i32 addrspace(1)* %out, i32 %x, i32 %y) {
	▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s6, s2, s5			; GFX6-NEXT: s_xor_b32 s6, s2, s5
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i32:			; GFX9-LABEL: srem_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v1, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s4, s3, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s4			; GFX9-NEXT: s_add_i32 s3, s3, s4
	; GFX9-NEXT: s_xor_b32 s3, s3, s4			; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s4, 0, s3			; GFX9-NEXT: s_sub_i32 s5, 0, s3
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_ashr_i32 s4, s2, 31
				; GFX9-NEXT: s_add_i32 s2, s2, s4
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_xor_b32 s2, s2, s4
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: s_ashr_i32 s4, s2, 31			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: s_add_i32 s2, s2, s4			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s5
				; GFX9-NEXT: s_add_i32 s6, s6, s5
				; GFX9-NEXT: s_mul_hi_u32 s5, s2, s6
				; GFX9-NEXT: s_mul_i32 s5, s5, s3
				; GFX9-NEXT: s_sub_i32 s2, s2, s5
				; GFX9-NEXT: s_sub_i32 s5, s2, s3
				; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s2, s5, s2
				; GFX9-NEXT: s_sub_i32 s5, s2, s3
				; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s2, s5, s2
	; GFX9-NEXT: s_xor_b32 s2, s2, s4			; GFX9-NEXT: s_xor_b32 s2, s2, s4
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: s_sub_i32 s2, s2, s4
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3
	; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dword v1, v0, s[0:1]			; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem i32 %x, %y			%r = srem i32 %x, %y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i16(i16 addrspace(1)* %out, i16 %x, i16 %y) {			define amdgpu_kernel void @udiv_i16(i16 addrspace(1)* %out, i16 %x, i16 %y) {
	▲ Show 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v3, s3			; GFX6-NEXT: v_mov_b32_e32 v3, s3
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i16:			; GFX9-LABEL: srem_i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4			; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i8:			; GFX9-LABEL: sdiv_i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s9			; GFX6-NEXT: s_sub_i32 s2, 0, s9
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_sub_i32 s2, 0, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s10
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v5, v1, s9
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v2			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v2
	Show All 9 Lines
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2			; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v3			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GFX6-NEXT: v_mul_hi_u32 v4, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v2, v4
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v1
	; GFX6-NEXT: s_sub_i32 s0, 0, s11			; GFX6-NEXT: s_sub_i32 s0, 0, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4			; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v3, v2, s10
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2
	▲ Show 20 Lines • Show All 279 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX6-NEXT: s_sub_i32 s4, 0, s11			; GFX6-NEXT: s_sub_i32 s4, 0, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10
	Show All 25 Lines
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s2, 0, s8			; GFX9-NEXT: s_sub_i32 s2, 0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s10			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s3, 0, s9
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX9-NEXT: v_mul_lo_u32 v3, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
				; GFX9-NEXT: s_mul_i32 s2, s2, s3
				; GFX9-NEXT: s_mul_hi_u32 s2, s3, s2
				; GFX9-NEXT: s_add_i32 s3, s3, s2
				; GFX9-NEXT: s_mul_hi_u32 s2, s4, s3
				; GFX9-NEXT: s_mul_i32 s2, s2, s8
				; GFX9-NEXT: s_sub_i32 s2, s4, s2
				; GFX9-NEXT: s_sub_i32 s3, s2, s8
				; GFX9-NEXT: s_cmp_ge_u32 s2, s8
				; GFX9-NEXT: s_cselect_b32 s2, s3, s2
				; GFX9-NEXT: s_sub_i32 s3, s2, s8
				; GFX9-NEXT: s_cmp_ge_u32 s2, s8
				; GFX9-NEXT: v_readfirstlane_b32 s12, v1
				; GFX9-NEXT: s_cselect_b32 s2, s3, s2
				; GFX9-NEXT: s_sub_i32 s3, 0, s9
				; GFX9-NEXT: s_mul_i32 s3, s3, s12
				; GFX9-NEXT: s_mul_hi_u32 s3, s12, s3
				; GFX9-NEXT: s_add_i32 s12, s12, s3
				; GFX9-NEXT: s_mul_hi_u32 s3, s5, s12
				; GFX9-NEXT: s_mul_i32 s3, s3, s9
				; GFX9-NEXT: s_sub_i32 s3, s5, s3
				; GFX9-NEXT: s_sub_i32 s4, s3, s9
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v1			; GFX9-NEXT: s_cmp_ge_u32 s3, s9
	; GFX9-NEXT: s_sub_i32 s2, 0, s10			; GFX9-NEXT: s_cselect_b32 s3, s4, s3
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3			; GFX9-NEXT: s_sub_i32 s4, s3, s9
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: s_cmp_ge_u32 s3, s9
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s11
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s11			; GFX9-NEXT: s_cselect_b32 s3, s4, s3
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v5			; GFX9-NEXT: s_sub_i32 s4, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v2			; GFX9-NEXT: v_readfirstlane_b32 s5, v2
	; GFX9-NEXT: s_sub_i32 s2, 0, s11			; GFX9-NEXT: s_mul_i32 s4, s4, s5
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_add_i32 s5, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v5, v2, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_mul_hi_u32 s4, s6, s5
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GFX9-NEXT: s_mul_i32 s4, s4, s10
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: s_sub_i32 s4, s6, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_sub_i32 s5, s4, s10
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX9-NEXT: s_cmp_ge_u32 s4, s10
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: s_sub_i32 s5, s4, s10
	; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0			; GFX9-NEXT: s_cmp_ge_u32 s4, s10
	; GFX9-NEXT: v_mul_hi_u32 v5, v3, v5			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX9-NEXT: s_sub_i32 s5, 0, s11
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s5
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: s_mul_hi_u32 s5, s7, s6
	; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0			; GFX9-NEXT: s_mul_i32 s5, s5, s11
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX9-NEXT: s_sub_i32 s5, s7, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc			; GFX9-NEXT: s_sub_i32 s6, s5, s11
	; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v1			; GFX9-NEXT: s_cmp_ge_u32 s5, s11
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX9-NEXT: s_cselect_b32 s5, s6, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc			; GFX9-NEXT: s_sub_i32 s6, s5, s11
	; GFX9-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX9-NEXT: s_cmp_ge_u32 s5, s11
	; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v1			; GFX9-NEXT: s_cselect_b32 s5, s6, s5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_sub_u32_e32 v2, s6, v2			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc			; GFX9-NEXT: v_mov_b32_e32 v2, s4
	; GFX9-NEXT: v_subrev_u32_e32 v5, s10, v2			; GFX9-NEXT: v_mov_b32_e32 v3, s5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s10, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v2
	; GFX9-NEXT: v_sub_u32_e32 v3, s7, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s11, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s11, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem <4 x i32> %x, %y			%r = urem <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {			define amdgpu_kernel void @sdiv_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {
	▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_xor_b32 s2, s0, s2			; GFX6-NEXT: s_xor_b32 s2, s0, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, s1, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s1, v0
	; GFX6-NEXT: s_add_i32 s1, s4, s0			; GFX6-NEXT: s_add_i32 s1, s4, s0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s0, 0, s9			; GFX6-NEXT: s_sub_i32 s0, 0, s9
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_sub_i32 s0, 0, s5			; GFX6-NEXT: s_sub_i32 s0, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_ashr_i32 s0, s7, 31			; GFX6-NEXT: s_ashr_i32 s0, s7, 31
	; GFX6-NEXT: s_add_i32 s1, s7, s0			; GFX6-NEXT: s_add_i32 s1, s7, s0
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2
	; GFX6-NEXT: s_xor_b32 s2, s0, s2			; GFX6-NEXT: s_xor_b32 s2, s0, s2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GFX6-NEXT: v_mul_hi_u32 v4, s1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, s1, v4
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX6-NEXT: v_xor_b32_e32 v2, s3, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v4, s5			; GFX6-NEXT: v_mul_lo_u32 v3, v4, s5
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v4
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3
	▲ Show 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	;			;
	; GFX9-LABEL: srem_v4i32:			; GFX9-LABEL: srem_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s8, 31			; GFX9-NEXT: s_ashr_i32 s2, s8, 31
	; GFX9-NEXT: s_add_i32 s8, s8, s2			; GFX9-NEXT: s_add_i32 s3, s8, s2
	; GFX9-NEXT: s_xor_b32 s2, s8, s2			; GFX9-NEXT: s_xor_b32 s2, s3, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX9-NEXT: s_ashr_i32 s3, s9, 31			; GFX9-NEXT: s_sub_i32 s8, 0, s2
	; GFX9-NEXT: s_add_i32 s8, s9, s3			; GFX9-NEXT: s_ashr_i32 s3, s4, 31
	; GFX9-NEXT: s_sub_i32 s12, 0, s2			; GFX9-NEXT: s_add_i32 s4, s4, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s3, s8, s3			; GFX9-NEXT: s_xor_b32 s4, s4, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX9-NEXT: s_ashr_i32 s8, s4, 31
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_readfirstlane_b32 s12, v0
	; GFX9-NEXT: s_add_i32 s4, s4, s8			; GFX9-NEXT: s_mul_i32 s8, s8, s12
	; GFX9-NEXT: s_xor_b32 s4, s4, s8			; GFX9-NEXT: s_mul_hi_u32 s8, s12, s8
	; GFX9-NEXT: v_mul_lo_u32 v2, s12, v0			; GFX9-NEXT: s_add_i32 s12, s12, s8
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: s_mul_hi_u32 s8, s4, s12
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: s_mul_i32 s8, s8, s2
	; GFX9-NEXT: s_sub_i32 s12, 0, s3			; GFX9-NEXT: s_sub_i32 s4, s4, s8
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_sub_i32 s8, s4, s2
	; GFX9-NEXT: s_ashr_i32 s9, s5, 31			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
	; GFX9-NEXT: v_mul_lo_u32 v3, s12, v1			; GFX9-NEXT: s_cselect_b32 s4, s8, s4
	; GFX9-NEXT: s_ashr_i32 s12, s10, 31			; GFX9-NEXT: s_sub_i32 s8, s4, s2
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_cselect_b32 s2, s8, s4
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_ashr_i32 s4, s9, 31
	; GFX9-NEXT: s_add_i32 s5, s5, s9			; GFX9-NEXT: s_add_i32 s8, s9, s4
	; GFX9-NEXT: s_xor_b32 s5, s5, s9			; GFX9-NEXT: s_xor_b32 s4, s8, s4
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_ashr_i32 s8, s5, 31
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_xor_b32 s2, s2, s3
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: s_add_i32 s5, s5, s8
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0			; GFX9-NEXT: s_sub_i32 s2, s2, s3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_xor_b32 s3, s5, s8
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0			; GFX9-NEXT: s_sub_i32 s5, 0, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: s_add_i32 s2, s10, s12			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s2, s2, s12			; GFX9-NEXT: v_readfirstlane_b32 s9, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_mul_i32 s5, s5, s9
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s2			; GFX9-NEXT: s_mul_hi_u32 s5, s9, s5
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s3			; GFX9-NEXT: s_add_i32 s9, s9, s5
	; GFX9-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX9-NEXT: s_mul_hi_u32 s5, s3, s9
	; GFX9-NEXT: v_subrev_u32_e32 v0, s8, v0			; GFX9-NEXT: s_mul_i32 s5, s5, s4
				; GFX9-NEXT: s_sub_i32 s3, s3, s5
				; GFX9-NEXT: s_sub_i32 s5, s3, s4
				; GFX9-NEXT: s_cmp_ge_u32 s3, s4
				; GFX9-NEXT: s_cselect_b32 s3, s5, s3
				; GFX9-NEXT: s_sub_i32 s5, s3, s4
				; GFX9-NEXT: s_cmp_ge_u32 s3, s4
				; GFX9-NEXT: s_cselect_b32 s3, s5, s3
				; GFX9-NEXT: s_ashr_i32 s4, s10, 31
				; GFX9-NEXT: s_add_i32 s5, s10, s4
				; GFX9-NEXT: s_xor_b32 s4, s5, s4
				; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4
				; GFX9-NEXT: s_xor_b32 s3, s3, s8
				; GFX9-NEXT: s_sub_i32 s3, s3, s8
				; GFX9-NEXT: s_sub_i32 s8, 0, s4
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_ashr_i32 s5, s6, 31
				; GFX9-NEXT: s_add_i32 s6, s6, s5
				; GFX9-NEXT: s_xor_b32 s6, s6, s5
				; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: v_readfirstlane_b32 s9, v0
				; GFX9-NEXT: s_mul_i32 s8, s8, s9
				; GFX9-NEXT: s_mul_hi_u32 s8, s9, s8
				; GFX9-NEXT: s_add_i32 s9, s9, s8
				; GFX9-NEXT: s_mul_hi_u32 s8, s6, s9
				; GFX9-NEXT: s_mul_i32 s8, s8, s4
				; GFX9-NEXT: s_sub_i32 s6, s6, s8
				; GFX9-NEXT: s_sub_i32 s8, s6, s4
				; GFX9-NEXT: s_cmp_ge_u32 s6, s4
				; GFX9-NEXT: s_cselect_b32 s6, s8, s6
				; GFX9-NEXT: s_sub_i32 s8, s6, s4
				; GFX9-NEXT: s_cmp_ge_u32 s6, s4
				; GFX9-NEXT: s_cselect_b32 s4, s8, s6
				; GFX9-NEXT: s_ashr_i32 s6, s11, 31
				; GFX9-NEXT: s_add_i32 s8, s11, s6
				; GFX9-NEXT: s_xor_b32 s6, s8, s6
				; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s6
				; GFX9-NEXT: v_mov_b32_e32 v0, s2
				; GFX9-NEXT: s_ashr_i32 s2, s7, 31
				; GFX9-NEXT: s_xor_b32 s3, s4, s5
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: s_add_i32 s4, s7, s2
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: s_sub_i32 s3, s3, s5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_sub_i32 s5, 0, s6
	; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_xor_b32 s4, s4, s2
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_readfirstlane_b32 s7, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: s_mul_i32 s5, s5, s7
	; GFX9-NEXT: s_sub_i32 s3, 0, s2			; GFX9-NEXT: s_mul_hi_u32 s5, s7, s5
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_add_i32 s7, s7, s5
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX9-NEXT: s_mul_hi_u32 s5, s4, s7
	; GFX9-NEXT: s_ashr_i32 s3, s11, 31			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: s_add_i32 s4, s11, s3			; GFX9-NEXT: s_sub_i32 s4, s4, s5
	; GFX9-NEXT: s_xor_b32 s3, s4, s3			; GFX9-NEXT: s_sub_i32 s5, s4, s6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s3			; GFX9-NEXT: s_cmp_ge_u32 s4, s6
	; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: s_ashr_i32 s4, s6, 31			; GFX9-NEXT: s_sub_i32 s5, s4, s6
	; GFX9-NEXT: s_add_i32 s5, s6, s4			; GFX9-NEXT: s_cmp_ge_u32 s4, s6
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: s_xor_b32 s4, s4, s2
	; GFX9-NEXT: s_xor_b32 s5, s5, s4			; GFX9-NEXT: s_sub_i32 s2, s4, s2
	; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2			; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v5			; GFX9-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v2, s2
	; GFX9-NEXT: v_xor_b32_e32 v1, s9, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, s6, v3
	; GFX9-NEXT: v_subrev_u32_e32 v1, s9, v1
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
	; GFX9-NEXT: s_ashr_i32 s5, s7, 31
	; GFX9-NEXT: v_mul_hi_u32 v5, v3, v5
	; GFX9-NEXT: s_add_i32 s6, s7, s5
	; GFX9-NEXT: s_xor_b32 s6, s6, s5
	; GFX9-NEXT: v_subrev_u32_e32 v6, s2, v2
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s2, v2
	; GFX9-NEXT: v_mul_lo_u32 v3, v3, s3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: v_xor_b32_e32 v2, s4, v2
	; GFX9-NEXT: v_sub_u32_e32 v3, s6, v3
	; GFX9-NEXT: v_subrev_u32_e32 v5, s3, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s3, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s5, v3
	; GFX9-NEXT: v_subrev_u32_e32 v2, s4, v2
	; GFX9-NEXT: v_subrev_u32_e32 v3, s5, v3
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem <4 x i32> %x, %y			%r = srem <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> %x, <4 x i16> %y) {			define amdgpu_kernel void @udiv_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> %x, <4 x i16> %y) {
	▲ Show 20 Lines • Show All 332 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s6
	; GFX6-NEXT: s_and_b32 s6, s5, 0xffff			; GFX6-NEXT: s_and_b32 s6, s5, 0xffff
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, v4			; GFX6-NEXT: v_mul_lo_u32 v2, v2, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: s_lshr_b32 s4, s7, 16			; GFX6-NEXT: s_lshr_b32 s4, s7, 16
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v1, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v2, v1
	; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4
	; GFX6-NEXT: s_lshr_b32 s6, s5, 16			; GFX6-NEXT: s_lshr_b32 s6, s5, 16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_mad_f32 v4, -v1, v3, v4			; GFX6-NEXT: v_mad_f32 v4, -v1, v3, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6
	; GFX6-NEXT: v_mov_b32_e32 v3, s8			; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s6			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2
	▲ Show 20 Lines • Show All 251 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v3, s8			; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: v_mov_b32_e32 v1, s4			; GFX6-NEXT: v_mov_b32_e32 v1, s4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mov_b32_e32 v2, s6			; GFX6-NEXT: v_mov_b32_e32 v2, s6
	; GFX6-NEXT: v_alignbit_b32 v2, s7, v2, 16			; GFX6-NEXT: v_alignbit_b32 v2, s7, v2, 16
	; GFX6-NEXT: v_bfe_i32 v3, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v2, 0, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, v3			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, v3
	; GFX6-NEXT: v_alignbit_b32 v1, s5, v1, 16			; GFX6-NEXT: v_alignbit_b32 v1, s5, v1, 16
	; GFX6-NEXT: v_bfe_i32 v5, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v5, v1, 0, 16
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v5			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v4
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_xor_b32_e32 v3, v5, v3			; GFX6-NEXT: v_xor_b32_e32 v3, v5, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 30, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 30, v3
	; GFX6-NEXT: v_mul_f32_e32 v5, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v5, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v6, -v5, v4, v6			; GFX6-NEXT: v_mad_f32 v6, -v5, v4, v6
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_or_b32_e32 v3, 1, v3			; GFX6-NEXT: v_or_b32_e32 v3, 1, v3
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v4\|
	; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: s_sext_i32_i16 s4, s7			; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s4
	; GFX6-NEXT: s_sext_i32_i16 s6, s5			; GFX6-NEXT: s_sext_i32_i16 s6, s5
	; GFX6-NEXT: s_xor_b32 s4, s6, s4			; GFX6-NEXT: s_xor_b32 s4, s6, s4
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s6			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v3
	▲ Show 20 Lines • Show All 317 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mov_b32_e32 v3, s4			; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_and_b32_e32 v0, 7, v0			; GFX6-NEXT: v_and_b32_e32 v0, 7, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i3:			; GFX9-LABEL: sdiv_i3:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v3, s2			; GFX6-NEXT: v_mov_b32_e32 v3, s2
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: s_lshr_b32 s3, s4, 8			; GFX6-NEXT: s_lshr_b32 s3, s4, 8
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s3
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_and_b32_e32 v0, 7, v0			; GFX6-NEXT: v_and_b32_e32 v0, 7, v0
	; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6			; GFX6-NEXT: v_cvt_f32_i32_e32 v1, s6
	; GFX6-NEXT: v_mov_b32_e32 v3, s8			; GFX6-NEXT: v_mov_b32_e32 v3, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GFX6-NEXT: s_ashr_i32 s4, s4, 16			; GFX6-NEXT: s_ashr_i32 s4, s4, 16
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s6			; GFX6-NEXT: s_xor_b32 s4, s4, s6
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2			; GFX6-NEXT: v_mad_f32 v2, -v3, v1, v2
	; GFX6-NEXT: v_mov_b32_e32 v4, s4			; GFX6-NEXT: v_mov_b32_e32 v4, s4
	; GFX6-NEXT: s_sext_i32_i16 s4, s7			; GFX6-NEXT: s_sext_i32_i16 s4, s7
	; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v1\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4			; GFX6-NEXT: v_cvt_f32_i32_e32 v2, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, 0, v4, vcc
	; GFX6-NEXT: s_sext_i32_i16 s5, s5			; GFX6-NEXT: s_sext_i32_i16 s5, s5
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s5			; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s5
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; GFX6-NEXT: s_xor_b32 s4, s5, s4			; GFX6-NEXT: s_xor_b32 s4, s5, s4
	; GFX6-NEXT: s_ashr_i32 s4, s4, 30			; GFX6-NEXT: s_ashr_i32 s4, s4, 30
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3
	▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_or_b32 s4, s4, 1			; GFX6-NEXT: s_or_b32 s4, s4, 1
	; GFX6-NEXT: v_mul_f32_e32 v5, v3, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v3, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v3, -v5, v4, v3			; GFX6-NEXT: v_mad_f32 v3, -v5, v4, v3
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_mov_b32_e32 v6, s4			; GFX6-NEXT: v_mov_b32_e32 v6, s4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v4\|
	; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s7			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s7
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v3			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v3
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4			; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 369 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mad_f32 v3, -v3, v4, v7			; GFX6-NEXT: v_mad_f32 v3, -v3, v4, v7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2
	; GFX6-NEXT: s_lshr_b32 s3, s2, 15			; GFX6-NEXT: s_lshr_b32 s3, s2, 15
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v1			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v1
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v6			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s0			; GFX6-NEXT: v_cvt_f32_i32_e32 v3, s0
	; GFX6-NEXT: s_or_b32 s1, s1, 1			; GFX6-NEXT: s_or_b32 s1, s1, 1
	; GFX6-NEXT: v_mov_b32_e32 v5, s1			; GFX6-NEXT: v_mov_b32_e32 v5, s1
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc
	; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f			; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s1			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3
	; GFX6-NEXT: s_xor_b32 s0, s1, s0			; GFX6-NEXT: s_xor_b32 s0, s1, s0
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 15			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 15
	; GFX6-NEXT: s_ashr_i32 s0, s0, 30			; GFX6-NEXT: s_ashr_i32 s0, s0, 30
	; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v4, -v5, v3, v4			; GFX6-NEXT: v_mad_f32 v4, -v5, v3, v4
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v3\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v3\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, v1			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, v1
	; GFX6-NEXT: s_or_b32 s0, s0, 1			; GFX6-NEXT: s_or_b32 s0, s0, 1
	; GFX6-NEXT: v_mov_b32_e32 v6, s0			; GFX6-NEXT: v_mov_b32_e32 v6, s0
	; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, v0			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GFX6-NEXT: v_xor_b32_e32 v0, v0, v1			; GFX6-NEXT: v_xor_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mad_f32 v5, -v1, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v1, v4, v5
	▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f			; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f
	; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v6, v6			; GFX6-NEXT: v_trunc_f32_e32 v6, v6
	; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5
	; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6			; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|
	; GFX6-NEXT: v_cndmask_b32_e32 v4, 0, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, 0, v7, vcc
	; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v2			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v4, s0			; GFX6-NEXT: v_mul_lo_u32 v4, v4, s0
	; GFX6-NEXT: s_bfe_i32 s0, s0, 0xf000f			; GFX6-NEXT: s_bfe_i32 s0, s0, 0xf000f
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s0			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s1			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s1
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s2, v4			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s2, v4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: s_xor_b32 s0, s1, s0			; GFX6-NEXT: s_xor_b32 s0, s1, s0
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15
	; GFX6-NEXT: s_ashr_i32 s0, s0, 30			; GFX6-NEXT: s_ashr_i32 s0, s0, 30
	; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v7, v7			; GFX6-NEXT: v_trunc_f32_e32 v7, v7
	; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6			; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6
	; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7			; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v5\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v5\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2
	; GFX6-NEXT: v_mov_b32_e32 v0, s2			; GFX6-NEXT: v_mov_b32_e32 v0, s2
	; GFX6-NEXT: s_or_b32 s0, s0, 1			; GFX6-NEXT: s_or_b32 s0, s0, 1
	; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30			; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: v_mov_b32_e32 v8, s0			; GFX6-NEXT: v_mov_b32_e32 v8, s0
	; GFX6-NEXT: v_and_b32_e32 v1, 0x7fff, v0			; GFX6-NEXT: v_and_b32_e32 v1, 0x7fff, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v7			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0			; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8			; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7			; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7
	▲ Show 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v0, 0xb2a50881			; GFX6-NEXT: v_mov_b32_e32 v0, 0xb2a50881
	; GFX6-NEXT: s_mov_b32 s2, 0x12d8fb			; GFX6-NEXT: s_mov_b32 s2, 0x12d8fb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 20, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v0, 20, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i32_oddk_denom:			; GFX9-LABEL: urem_i32_oddk_denom:
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_sub_i32 s2, 0, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v2i32_pow2_shl_denom:			; GFX9-LABEL: urem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6
	; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
				; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX9-NEXT: s_sub_i32 s6, 0, s3			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: s_sub_i32 s7, 0, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v0			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1			; GFX9-NEXT: s_mul_i32 s6, s6, s7
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s6, s7, s6
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_add_i32 s7, s7, s6
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s6, s4, s7
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_mul_i32 s6, s6, s3
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_sub_i32 s4, s4, s6
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: s_sub_i32 s6, s4, s3
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: s_cmp_ge_u32 s4, s3
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: s_cselect_b32 s4, s6, s4
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s2			; GFX9-NEXT: s_sub_i32 s6, s4, s3
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: s_cmp_ge_u32 s4, s3
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: v_readfirstlane_b32 s8, v1
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0			; GFX9-NEXT: s_cselect_b32 s3, s6, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: s_sub_i32 s4, 0, s2
	; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v1			; GFX9-NEXT: s_mul_i32 s4, s4, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_mul_hi_u32 s4, s8, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1			; GFX9-NEXT: s_add_i32 s8, s8, s4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s4, s5, s8
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0			; GFX9-NEXT: s_mul_i32 s4, s4, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: s_sub_i32 s4, s5, s4
	; GFX9-NEXT: v_subrev_u32_e32 v4, s2, v1			; GFX9-NEXT: s_sub_i32 s5, s4, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1			; GFX9-NEXT: s_cselect_b32 s4, s5, s4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: s_sub_i32 s5, s4, s2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_cmp_ge_u32 s4, s2
				; GFX9-NEXT: s_cselect_b32 s2, s5, s4
				; GFX9-NEXT: v_mov_b32_e32 v0, s3
				; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = urem <2 x i32> %x, %shl.y			%r = urem <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s4, v0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_ashr_i32 s0, s2, 31			; GFX6-NEXT: s_ashr_i32 s0, s2, 31
	; GFX6-NEXT: s_add_i32 s1, s2, s0			; GFX6-NEXT: s_add_i32 s1, s2, s0
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: s_xor_b32 s2, s0, s8			; GFX6-NEXT: s_xor_b32 s2, s0, s8
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v1, v0, s3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s1, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s1, v1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	▲ Show 20 Lines • Show All 287 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s2, v3			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s2, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
	; GFX6-NEXT: s_ashr_i32 s0, s9, 31			; GFX6-NEXT: s_ashr_i32 s0, s9, 31
	; GFX6-NEXT: s_add_i32 s1, s9, s0			; GFX6-NEXT: s_add_i32 s1, s9, s0
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s10			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX6-NEXT: s_xor_b32 s2, s0, s3			; GFX6-NEXT: s_xor_b32 s2, s0, s3
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[R:%.]] = srem i32 [[X:%.]], 1235195			; CHECK-NEXT: [[R:%.]] = srem i32 [[X:%.]], 1235195
	; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]], align 4			; CHECK-NEXT: store i32 [[R]], i32 addrspace(1)* [[OUT:%.*]], align 4
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_i32_oddk_denom:			; GFX6-LABEL: srem_i32_oddk_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb			; GFX6-NEXT: s_load_dword s4, s[0:1], 0xb
	; GFX6-NEXT: v_mov_b32_e32 v0, 0xd9528441			; GFX6-NEXT: v_mov_b32_e32 v0, 0xd9528441
	; GFX6-NEXT: s_mov_b32 s2, 0x12d8fb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mul_hi_i32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_i32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_readfirstlane_b32 s5, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 31, v0			; GFX6-NEXT: s_add_i32 s5, s5, s4
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 20, v0			; GFX6-NEXT: s_lshr_b32 s6, s5, 31
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: s_ashr_i32 s5, s5, 20
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s2			; GFX6-NEXT: s_add_i32 s5, s5, s6
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mul_i32 s5, s5, 0x12d8fb
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: s_sub_i32 s4, s4, s5
				; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i32_oddk_denom:			; GFX9-LABEL: srem_i32_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s6, s2, s5			; GFX6-NEXT: s_xor_b32 s6, s2, s5
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s4
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s4, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s5, v0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s5, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i32_pow2_shl_denom:			; GFX9-LABEL: srem_i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v1, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s3			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s3
	; GFX9-NEXT: s_ashr_i32 s4, s3, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s4			; GFX9-NEXT: s_add_i32 s3, s3, s4
	; GFX9-NEXT: s_xor_b32 s3, s3, s4			; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_sub_i32 s4, 0, s3			; GFX9-NEXT: s_sub_i32 s5, 0, s3
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_ashr_i32 s4, s2, 31
				; GFX9-NEXT: s_add_i32 s2, s2, s4
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_xor_b32 s2, s2, s4
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v1, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s6, v0
	; GFX9-NEXT: s_ashr_i32 s4, s2, 31			; GFX9-NEXT: s_mul_i32 s5, s5, s6
	; GFX9-NEXT: s_add_i32 s2, s2, s4			; GFX9-NEXT: s_mul_hi_u32 s5, s6, s5
				; GFX9-NEXT: s_add_i32 s6, s6, s5
				; GFX9-NEXT: s_mul_hi_u32 s5, s2, s6
				; GFX9-NEXT: s_mul_i32 s5, s5, s3
				; GFX9-NEXT: s_sub_i32 s2, s2, s5
				; GFX9-NEXT: s_sub_i32 s5, s2, s3
				; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s2, s5, s2
				; GFX9-NEXT: s_sub_i32 s5, s2, s3
				; GFX9-NEXT: s_cmp_ge_u32 s2, s3
				; GFX9-NEXT: s_cselect_b32 s2, s5, s2
	; GFX9-NEXT: s_xor_b32 s2, s2, s4			; GFX9-NEXT: s_xor_b32 s2, s2, s4
	; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX9-NEXT: s_sub_i32 s2, s2, s4
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3
	; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v2, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dword v1, v0, s[0:1]			; GFX9-NEXT: global_store_dword v1, v0, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i32 4096, %y			%shl.y = shl i32 4096, %y
	%r = srem i32 %x, %shl.y			%r = srem i32 %x, %shl.y
	store i32 %r, i32 addrspace(1)* %out			store i32 %r, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s9, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: s_xor_b32 s4, s4, s8			; GFX6-NEXT: s_xor_b32 s4, s4, s8
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: s_sub_i32 s9, 0, s7			; GFX6-NEXT: s_sub_i32 s9, 0, s7
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s9, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s9, v1
	; GFX6-NEXT: s_ashr_i32 s9, s5, 31			; GFX6-NEXT: s_ashr_i32 s9, s5, 31
	; GFX6-NEXT: s_add_i32 s5, s5, s9			; GFX6-NEXT: s_add_i32 s5, s5, s9
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0
	Show All 18 Lines
	; GFX6-NEXT: v_xor_b32_e32 v1, s9, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s9, v1
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v1
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i32_pow2_shl_denom:			; GFX9-LABEL: srem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX9-NEXT: s_ashr_i32 s6, s3, 31			; GFX9-NEXT: s_ashr_i32 s3, s2, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s6			; GFX9-NEXT: s_add_i32 s2, s2, s3
	; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7			; GFX9-NEXT: s_xor_b32 s2, s2, s3
	; GFX9-NEXT: s_xor_b32 s3, s3, s6			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX9-NEXT: s_ashr_i32 s7, s2, 31			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s7
				; GFX9-NEXT: s_sub_i32 s7, 0, s2
				; GFX9-NEXT: s_ashr_i32 s6, s4, 31
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
				; GFX9-NEXT: s_add_i32 s4, s4, s6
				; GFX9-NEXT: s_xor_b32 s4, s4, s6
				; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
				; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
				; GFX9-NEXT: v_readfirstlane_b32 s8, v0
				; GFX9-NEXT: s_mul_i32 s7, s7, s8
				; GFX9-NEXT: s_mul_hi_u32 s7, s8, s7
				; GFX9-NEXT: s_add_i32 s8, s8, s7
				; GFX9-NEXT: s_mul_hi_u32 s7, s4, s8
				; GFX9-NEXT: s_mul_i32 s7, s7, s2
				; GFX9-NEXT: s_sub_i32 s4, s4, s7
				; GFX9-NEXT: s_sub_i32 s7, s4, s2
				; GFX9-NEXT: s_cmp_ge_u32 s4, s2
				; GFX9-NEXT: s_cselect_b32 s4, s7, s4
				; GFX9-NEXT: s_sub_i32 s7, s4, s2
				; GFX9-NEXT: s_cmp_ge_u32 s4, s2
				; GFX9-NEXT: s_cselect_b32 s2, s7, s4
				; GFX9-NEXT: s_ashr_i32 s4, s3, 31
				; GFX9-NEXT: s_add_i32 s3, s3, s4
				; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_add_i32 s2, s2, s7			; GFX9-NEXT: s_xor_b32 s2, s2, s6
	; GFX9-NEXT: s_xor_b32 s2, s2, s7			; GFX9-NEXT: s_sub_i32 s2, s2, s6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_sub_i32 s8, 0, s3			; GFX9-NEXT: s_ashr_i32 s4, s5, 31
	; GFX9-NEXT: s_ashr_i32 s6, s4, 31			; GFX9-NEXT: s_add_i32 s5, s5, s4
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: s_xor_b32 s5, s5, s4
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: s_add_i32 s4, s4, s6			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX9-NEXT: s_mul_i32 s6, s6, s7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: s_mul_hi_u32 s6, s7, s6
	; GFX9-NEXT: v_mul_lo_u32 v2, s8, v0			; GFX9-NEXT: s_add_i32 s7, s7, s6
	; GFX9-NEXT: s_sub_i32 s8, 0, s2			; GFX9-NEXT: s_mul_hi_u32 s6, s5, s7
	; GFX9-NEXT: s_xor_b32 s4, s4, s6			; GFX9-NEXT: s_mul_i32 s6, s6, s3
	; GFX9-NEXT: v_mul_lo_u32 v3, s8, v1			; GFX9-NEXT: s_sub_i32 s5, s5, s6
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: s_sub_i32 s6, s5, s3
	; GFX9-NEXT: s_ashr_i32 s7, s5, 31			; GFX9-NEXT: s_cmp_ge_u32 s5, s3
	; GFX9-NEXT: s_add_i32 s5, s5, s7			; GFX9-NEXT: s_cselect_b32 s5, s6, s5
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: s_sub_i32 s6, s5, s3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: s_cmp_ge_u32 s5, s3
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: s_cselect_b32 s3, s6, s5
	; GFX9-NEXT: s_xor_b32 s5, s5, s7			; GFX9-NEXT: s_xor_b32 s3, s3, s4
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_sub_i32 s3, s3, s4
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s2
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s7, v1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
	; GFX9-NEXT: v_subrev_u32_e32 v1, s7, v1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = srem <2 x i32> %x, %shl.y			%r = srem <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	Show All 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_movk_i32 s8, 0x11f			; GFX6-NEXT: s_movk_i32 s8, 0x11f
	; GFX6-NEXT: s_mov_b32 s9, 0x976a7377			; GFX6-NEXT: s_mov_b32 s9, 0x976a7377
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v5, v0, s5
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_i64_oddk_denom:			; GFX9-LABEL: udiv_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f176a73
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_movk_i32 s2, 0xfee0
	; GFX9-NEXT: s_mov_b32 s3, 0x68958c89
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX9-NEXT: s_mul_i32 s1, s0, 0xfffffee0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s3			; GFX9-NEXT: s_mul_hi_u32 s2, s0, 0x68958c89
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s3			; GFX9-NEXT: s_add_i32 s1, s2, s1
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_mul_i32 s3, s2, 0x68958c89
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_add_i32 s1, s1, s3
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s0, 0x68958c89
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s3, s0, s1
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: s_mul_i32 s8, s0, s1
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s0, s0, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_add_u32 s0, s0, s8
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v6, vcc			; GFX9-NEXT: s_addc_u32 s3, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s10, s2, s9
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: s_mul_i32 s9, s2, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_add_u32 s0, s0, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s2, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc			; GFX9-NEXT: s_addc_u32 s0, s3, s10
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s3, s8, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s1, s2, s1
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s0, s0, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX9-NEXT: s_addc_u32 s0, s2, s1
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s3			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: s_movk_i32 s2, 0x11f			; GFX9-NEXT: s_mul_i32 s3, s2, 0xfffffee0
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s8, s2, 0x68958c89
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_mul_i32 s1, s0, 0x68958c89
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX9-NEXT: s_add_i32 s3, s8, s3
	; GFX9-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX9-NEXT: s_add_i32 s3, s3, s1
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s2, 0x68958c89
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s1, s2, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s8, s2, s3
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: s_mul_hi_u32 s2, s2, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v6, vcc			; GFX9-NEXT: s_add_u32 s2, s2, s8
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v5			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: s_mul_hi_u32 s10, s0, s9
	; GFX9-NEXT: s_mov_b32 s3, 0x976a7377			; GFX9-NEXT: s_mul_i32 s9, s0, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_add_u32 s2, s2, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v4, v5, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc			; GFX9-NEXT: s_addc_u32 s1, s1, s10
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s2, s8, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s3, s0, s3
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s1, s1, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s2, 0, s2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: s_addc_u32 s0, s0, s2
	; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v1			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: s_mul_i32 s2, s6, s0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s8, s6, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s1, s6, s0
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX9-NEXT: s_add_u32 s2, s8, s2
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_mov_b32_e32 v6, 0x11f			; GFX9-NEXT: s_mul_hi_u32 s9, s7, s3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_mul_i32 s3, s7, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_add_u32 s2, s2, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s7, s0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_addc_u32 s1, s1, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_addc_u32 s2, s8, 0
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX9-NEXT: s_mul_i32 s0, s7, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX9-NEXT: s_add_u32 s3, s1, s0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX9-NEXT: s_addc_u32 s2, 0, s2
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: s_mul_i32 s0, s3, 0x11f
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s8, s3, 0x976a7377
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX9-NEXT: s_add_i32 s0, s8, s0
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_mul_i32 s8, s2, 0x976a7377
	; GFX9-NEXT: v_sub_u32_e32 v4, s7, v2			; GFX9-NEXT: s_mul_i32 s9, s3, 0x976a7377
	; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, s6, v3			; GFX9-NEXT: s_add_i32 s8, s0, s8
	; GFX9-NEXT: v_subb_co_u32_e64 v4, s[0:1], v4, v6, vcc			; GFX9-NEXT: v_mov_b32_e32 v0, s9
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s3, v3			; GFX9-NEXT: s_sub_i32 s0, s7, s8
	; GFX9-NEXT: v_subbrev_co_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0
	; GFX9-NEXT: s_movk_i32 s3, 0x11e			; GFX9-NEXT: s_mov_b32 s1, 0x976a7377
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s3, v4			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_mov_b32 s6, 0x976a7376			; GFX9-NEXT: s_subb_u32 s6, s0, 0x11f
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: v_subrev_co_u32_e64 v1, s[0:1], s1, v0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s6, v6			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_subb_u32 s6, s6, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s2, v4			; GFX9-NEXT: s_cmpk_gt_u32 s6, 0x11e
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v7, v6, s[0:1]			; GFX9-NEXT: s_mov_b32 s10, 0x976a7376
	; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 2, v0			; GFX9-NEXT: s_cselect_b32 s9, -1, 0
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s10, v1
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v0			; GFX9-NEXT: s_cmpk_eq_i32 s6, 0x11f
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_mov_b32_e32 v3, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v9, v7, s[0:1]			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: v_mov_b32_e32 v7, s7			; GFX9-NEXT: s_add_u32 s6, s3, 2
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v7, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v1, s[0:1]
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s3, v2			; GFX9-NEXT: s_addc_u32 s0, s2, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: s_add_u32 s9, s3, 1
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v3			; GFX9-NEXT: s_addc_u32 s1, s2, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s2, v2			; GFX9-NEXT: s_subb_u32 s7, s7, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc			; GFX9-NEXT: s_cmpk_gt_u32 s7, 0x11e
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v8, v6, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_cselect_b32 s8, -1, 0
	; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[4:5]			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0
				; GFX9-NEXT: s_cmpk_eq_i32 s7, 0x11f
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v3, v4, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s8
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s2
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v0, s9
				; GFX9-NEXT: v_mov_b32_e32 v3, s6
				; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v3, s3
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
				; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv i64 %x, 1235195949943			%r = udiv i64 %x, 1235195949943
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @udiv_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @udiv_i64_pow2k_denom(			; CHECK-LABEL: @udiv_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshr_b64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_lshr_b64 s[8:9], s[0:1], 12
	; GFX6-NEXT: s_movk_i32 s0, 0xfff			; GFX6-NEXT: s_movk_i32 s0, 0xfff
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s6
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v4, v0, s6
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 241 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s8, s4			; GFX6-NEXT: s_mov_b32 s8, s4
	; GFX6-NEXT: s_movk_i32 s4, 0x11f			; GFX6-NEXT: s_movk_i32 s4, 0x11f
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v5, v0, s3
	; GFX6-NEXT: s_mov_b32 s12, 0x9761f7c9			; GFX6-NEXT: s_mov_b32 s12, 0x9761f7c9
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5
	; GFX6-NEXT: s_mov_b32 s9, s5			; GFX6-NEXT: s_mov_b32 s9, s5
	; GFX6-NEXT: s_movk_i32 s5, 0x11e			; GFX6-NEXT: s_movk_i32 s5, 0x11e
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s3
	; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX6-NEXT: v_mul_lo_u32 v4, v1, s3
	; GFX6-NEXT: s_mov_b32 s11, 0xf000			; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: s_mov_b32 s10, -1			; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	Show All 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s12			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s12
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s12			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s12
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s12			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_mov_b32_e32 v3, 0x11f			; GFX6-NEXT: v_mov_b32_e32 v3, 0x11f
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s6, v0
	; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX6-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GFX6-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
	; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s5, v5			; GFX6-NEXT: v_cmp_lt_u32_e64 s[2:3], s5, v5
	; GFX6-NEXT: s_mov_b32 s6, 0x9761f7c8			; GFX6-NEXT: s_mov_b32 s6, 0x9761f7c8
	Show All 23 Lines
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_i64_oddk_denom:			; GFX9-LABEL: urem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f1761f8
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
	; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0			; GFX9-NEXT: v_madmk_f32 v0, v1, 0x438f8000, v0
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_movk_i32 s2, 0xfee0
	; GFX9-NEXT: s_mov_b32 s3, 0x689e0837
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX9-NEXT: s_mov_b32 s12, 0x9761f7c8
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_movk_i32 s8, 0x11f			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: s_mov_b32 s9, 0x9761f7c9			; GFX9-NEXT: s_mul_i32 s1, s0, 0xfffffee0
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX9-NEXT: s_mul_hi_u32 s2, s0, 0x689e0837
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX9-NEXT: s_add_i32 s1, s2, s1
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, s3			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s3			; GFX9-NEXT: s_mul_i32 s3, s2, 0x689e0837
	; GFX9-NEXT: s_mov_b32 s10, 0x9761f7c8			; GFX9-NEXT: s_add_i32 s1, s1, s3
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s9, s0, 0x689e0837
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_mul_hi_u32 s3, s0, s1
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_mul_i32 s8, s0, s1
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s0, s0, s9
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: s_add_u32 s0, s0, s8
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: s_addc_u32 s3, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s10, s2, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_mul_i32 s9, s2, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v6, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s9
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s8, s2, s1
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: s_addc_u32 s0, s3, s10
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_addc_u32 s3, s8, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc			; GFX9-NEXT: s_mul_i32 s1, s2, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s1, 0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s0, s2, s1
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s3			; GFX9-NEXT: s_mul_i32 s3, s2, 0xfffffee0
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s3			; GFX9-NEXT: s_mul_hi_u32 s8, s2, 0x689e0837
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s3			; GFX9-NEXT: s_mul_i32 s1, s0, 0x689e0837
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_i32 s3, s8, s3
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_add_i32 s3, s3, s1
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s2, 0x689e0837
	; GFX9-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX9-NEXT: s_mul_hi_u32 s1, s2, s3
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s8, s2, s3
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s2, s2, s9
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_add_u32 s2, s2, s8
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v6, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s0, s9
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v5			; GFX9-NEXT: s_mul_i32 s9, s0, s9
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5			; GFX9-NEXT: s_add_u32 s2, s2, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v4, v5, vcc			; GFX9-NEXT: s_addc_u32 s1, s1, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc			; GFX9-NEXT: s_addc_u32 s2, s8, 0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_i32 s3, s0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_add_u32 s1, s1, s3
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_addc_u32 s2, 0, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: s_addc_u32 s0, s0, s2
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v1			; GFX9-NEXT: s_mul_i32 s2, s6, s0
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: s_mul_hi_u32 s8, s6, s3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s1, s6, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_add_u32 s2, s8, s2
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: s_mul_hi_u32 s9, s7, s3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_mul_i32 s3, s7, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_add_u32 s2, s2, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s7, s0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_addc_u32 s1, s1, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_addc_u32 s2, s8, 0
	; GFX9-NEXT: v_mul_lo_u32 v2, v0, s8			; GFX9-NEXT: s_mul_i32 s0, s7, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s9			; GFX9-NEXT: s_add_u32 s0, s1, s0
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX9-NEXT: s_addc_u32 s1, 0, s2
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s9			; GFX9-NEXT: s_mul_i32 s2, s0, 0x11f
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: s_mul_hi_u32 s3, s0, 0x9761f7c9
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_i32 s2, s3, s2
	; GFX9-NEXT: v_add_u32_e32 v1, v2, v1			; GFX9-NEXT: s_mul_i32 s1, s1, 0x9761f7c9
	; GFX9-NEXT: v_sub_u32_e32 v2, s7, v1			; GFX9-NEXT: s_mul_i32 s0, s0, 0x9761f7c9
	; GFX9-NEXT: v_mov_b32_e32 v3, 0x11f			; GFX9-NEXT: s_add_i32 s9, s2, s1
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: s_sub_i32 s1, s7, s9
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0
	; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX9-NEXT: s_mov_b32 s8, 0x9761f7c9
	; GFX9-NEXT: v_subrev_co_u32_e64 v5, s[0:1], s9, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[2:3], 0, v2, s[0:1]			; GFX9-NEXT: s_subb_u32 s6, s1, 0x11f
	; GFX9-NEXT: s_movk_i32 s6, 0x11e			; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s8, v0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s6, v6			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX9-NEXT: s_subb_u32 s10, s6, 0
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s10, v5			; GFX9-NEXT: s_cmpk_gt_u32 s10, 0x11e
	; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX9-NEXT: s_cselect_b32 s11, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: v_cmp_lt_u32_e64 s[2:3], s12, v3
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s8, v6			; GFX9-NEXT: s_cmpk_eq_i32 s10, 0x11f
	; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s9, v5			; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]			; GFX9-NEXT: v_mov_b32_e32 v4, s11
	; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v4, v1, s[2:3]
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: s_subb_u32 s2, s6, 0x11f
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v6, v1, vcc			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v3
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: s_subb_u32 s0, s2, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: s_subb_u32 s2, s7, s9
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s8, v1			; GFX9-NEXT: s_cmpk_gt_u32 s2, 0x11e
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-NEXT: v_mov_b32_e32 v5, s10
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v3, s[0:1]			; GFX9-NEXT: s_cselect_b32 s3, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s12, v0
	; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x11f
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v5, v6, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v6, s3
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
				; GFX9-NEXT: v_mov_b32_e32 v6, s2
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
				; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem i64 %x, 1235195393993			%r = urem i64 %x, 1235195393993
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @urem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @urem_i64_pow2k_denom(			; CHECK-LABEL: @urem_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v4, v0, s5
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]			; GFX6-NEXT: s_xor_b64 s[2:3], s[2:3], s[8:9]
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s5
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s5
	; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb			; GFX6-NEXT: s_mov_b32 s0, 0x12d8fb
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s5
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_add_u32 s2, s2, s12			; GFX6-NEXT: s_add_u32 s2, s2, s12
	; GFX6-NEXT: s_mov_b32 s13, s12			; GFX6-NEXT: s_mov_b32 s13, s12
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0
	; GFX6-NEXT: s_addc_u32 s3, s3, s12			; GFX6-NEXT: s_addc_u32 s3, s3, s12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0
	; GFX6-NEXT: v_mov_b32_e32 v5, s11			; GFX6-NEXT: v_mov_b32_e32 v5, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, s10, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s10, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v2			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s2, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
	Show All 35 Lines
	; GFX9-NEXT: s_lshl_b64 s[4:5], s[2:3], s4			; GFX9-NEXT: s_lshl_b64 s[4:5], s[2:3], s4
	; GFX9-NEXT: s_ashr_i32 s2, s5, 31			; GFX9-NEXT: s_ashr_i32 s2, s5, 31
	; GFX9-NEXT: s_add_u32 s4, s4, s2			; GFX9-NEXT: s_add_u32 s4, s4, s2
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_mov_b32 s3, s2
	; GFX9-NEXT: s_addc_u32 s5, s5, s2			; GFX9-NEXT: s_addc_u32 s5, s5, s2
	; GFX9-NEXT: s_xor_b64 s[8:9], s[4:5], s[2:3]			; GFX9-NEXT: s_xor_b64 s[8:9], s[4:5], s[2:3]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_u32 s10, 0, s8			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_subb_u32 s4, 0, s9			; GFX9-NEXT: s_sub_u32 s0, 0, s8
				; GFX9-NEXT: s_subb_u32 s1, 0, s9
	; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v1, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_trunc_f32_e32 v2, v2
				; GFX9-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2
				; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_readfirstlane_b32 s10, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX9-NEXT: v_readfirstlane_b32 s11, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX9-NEXT: s_mul_i32 s12, s0, s10
	; GFX9-NEXT: v_mul_lo_u32 v5, s4, v0			; GFX9-NEXT: s_mul_hi_u32 s14, s0, s11
	; GFX9-NEXT: v_mul_lo_u32 v4, s10, v0			; GFX9-NEXT: s_mul_i32 s13, s1, s11
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_i32 s12, s14, s12
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_add_i32 s12, s12, s13
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_mul_i32 s15, s0, s11
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s13, s11, s12
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_mul_i32 s14, s11, s12
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s11, s11, s15
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: s_add_u32 s11, s11, s14
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_addc_u32 s13, 0, s13
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_mul_hi_u32 s16, s10, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_i32 s15, s10, s15
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_add_u32 s11, s11, s15
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4			; GFX9-NEXT: s_mul_hi_u32 s14, s10, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc			; GFX9-NEXT: s_addc_u32 s11, s13, s16
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s13, s14, 0
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_mul_i32 s12, s10, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_add_u32 s11, s11, s12
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_addc_u32 s12, 0, s13
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s11, v1
	; GFX9-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX9-NEXT: s_addc_u32 s10, s10, s12
	; GFX9-NEXT: v_mul_lo_u32 v4, s4, v0			; GFX9-NEXT: v_readfirstlane_b32 s12, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, s10, v0			; GFX9-NEXT: s_mul_i32 s11, s0, s10
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_mul_hi_u32 s13, s0, s12
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_i32 s11, s13, s11
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_mul_i32 s1, s1, s12
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_add_i32 s11, s11, s1
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v5			; GFX9-NEXT: s_mul_i32 s0, s0, s12
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s13, s10, s0
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v5			; GFX9-NEXT: s_mul_i32 s14, s10, s0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: s_mul_i32 s16, s12, s11
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_mul_hi_u32 s0, s12, s0
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_mul_hi_u32 s15, s12, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s16
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_addc_u32 s12, 0, s15
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: s_add_u32 s0, s0, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s1, s10, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_addc_u32 s0, s12, s13
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s1, s1, 0
				; GFX9-NEXT: s_mul_i32 s11, s10, s11
				; GFX9-NEXT: s_add_u32 s0, s0, s11
				; GFX9-NEXT: s_addc_u32 s1, 0, s1
				; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s0, v1
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s12, s10, s1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s10, s7, 31			; GFX9-NEXT: s_ashr_i32 s10, s7, 31
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: s_add_u32 s0, s6, s10			; GFX9-NEXT: s_add_u32 s0, s6, s10
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: s_mov_b32 s11, s10			; GFX9-NEXT: s_mov_b32 s11, s10
	; GFX9-NEXT: s_addc_u32 s1, s7, s10			; GFX9-NEXT: s_addc_u32 s1, s7, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]			; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: v_readfirstlane_b32 s13, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: s_mul_i32 s1, s6, s12
	; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX9-NEXT: s_mul_hi_u32 s14, s6, s13
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v1			; GFX9-NEXT: s_mul_hi_u32 s0, s6, s12
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: s_add_u32 s1, s14, s1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s0, 0, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s15, s7, s13
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX9-NEXT: s_mul_i32 s13, s7, s13
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: s_add_u32 s1, s1, s13
	; GFX9-NEXT: v_mov_b32_e32 v6, s9			; GFX9-NEXT: s_mul_hi_u32 s14, s7, s12
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_addc_u32 s0, s0, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_addc_u32 s1, s14, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_i32 s12, s7, s12
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_add_u32 s12, s0, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_addc_u32 s13, 0, s1
	; GFX9-NEXT: v_mul_lo_u32 v2, s8, v1			; GFX9-NEXT: s_mul_i32 s0, s8, s13
	; GFX9-NEXT: v_mul_hi_u32 v3, s8, v0			; GFX9-NEXT: s_mul_hi_u32 s1, s8, s12
	; GFX9-NEXT: v_mul_lo_u32 v4, s9, v0			; GFX9-NEXT: s_add_i32 s0, s1, s0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: s_mul_i32 s1, s9, s12
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_i32 s14, s0, s1
	; GFX9-NEXT: v_mul_lo_u32 v3, s8, v0			; GFX9-NEXT: s_mul_i32 s1, s8, s12
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: v_sub_u32_e32 v4, s7, v2			; GFX9-NEXT: s_sub_i32 s0, s7, s14
	; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, s6, v3			; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s6, v1
	; GFX9-NEXT: v_subb_co_u32_e64 v4, s[0:1], v4, v6, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v3			; GFX9-NEXT: s_subb_u32 s6, s0, s9
	; GFX9-NEXT: v_subbrev_co_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: v_subrev_co_u32_e64 v2, s[0:1], s8, v1
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: s_subb_u32 s6, s6, 0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6			; GFX9-NEXT: s_cmp_ge_u32 s6, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_cselect_b32 s15, -1, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v4			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v7, v6, s[0:1]			; GFX9-NEXT: s_cmp_eq_u32 s6, s9
	; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 2, v0			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[0:1]
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v3, s15
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v0			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v1, s[0:1]			; GFX9-NEXT: s_add_u32 s6, s12, 2
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v4			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v4, v9, v7, s[0:1]			; GFX9-NEXT: s_addc_u32 s0, s13, 0
	; GFX9-NEXT: v_mov_b32_e32 v7, s7			; GFX9-NEXT: s_add_u32 s15, s12, 1
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v7, v2, vcc			; GFX9-NEXT: s_addc_u32 s1, s13, 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: s_subb_u32 s7, s7, s14
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX9-NEXT: s_cmp_ge_u32 s7, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v3, s1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v2			; GFX9-NEXT: v_mov_b32_e32 v4, s0
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v7, v3, vcc			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX9-NEXT: s_cselect_b32 s14, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v8, v6, s[0:1]			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: s_cmp_eq_u32 s7, s9
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v4, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s14
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s13
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v2, vcc
				; GFX9-NEXT: v_mov_b32_e32 v2, s15
				; GFX9-NEXT: v_mov_b32_e32 v3, s6
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v3, s12
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]			; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_xor_b32_e32 v2, s0, v2
	; GFX9-NEXT: v_xor_b32_e32 v0, s0, v0			; GFX9-NEXT: v_xor_b32_e32 v3, s1, v1
	; GFX9-NEXT: v_xor_b32_e32 v1, s1, v1			; GFX9-NEXT: v_mov_b32_e32 v4, s1
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s0, v2
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v3, v4, vcc
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc			; GFX9-NEXT: global_store_dwordx2 v0, v[1:2], s[4:5]
	; GFX9-NEXT: global_store_dwordx2 v5, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	%r = sdiv i64 %x, %shl.y			%r = sdiv i64 %x, %shl.y
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @sdiv_v2i64_pow2k_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x) {			define amdgpu_kernel void @sdiv_v2i64_pow2k_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x) {
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s1, 31			; GFX6-NEXT: s_ashr_i32 s8, s1, 31
	; GFX6-NEXT: s_lshr_b32 s8, s8, 20			; GFX6-NEXT: s_lshr_b32 s8, s8, 20
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v2, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v1, s6
	; GFX6-NEXT: s_add_u32 s0, s0, s8			; GFX6-NEXT: s_add_u32 s0, s0, s8
	; GFX6-NEXT: s_addc_u32 s1, s1, 0			; GFX6-NEXT: s_addc_u32 s1, s1, 0
	; GFX6-NEXT: s_ashr_i64 s[8:9], s[0:1], 12			; GFX6-NEXT: s_ashr_i64 s[8:9], s[0:1], 12
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v4, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: s_ashr_i32 s10, s3, 31			; GFX6-NEXT: s_ashr_i32 s10, s3, 31
	; GFX6-NEXT: s_add_u32 s0, s2, s10			; GFX6-NEXT: s_add_u32 s0, s2, s10
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s6			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s6
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s6			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s6
	; GFX6-NEXT: s_mov_b32 s11, s10			; GFX6-NEXT: s_mov_b32 s11, s10
	; GFX6-NEXT: s_addc_u32 s1, s3, s10			; GFX6-NEXT: s_addc_u32 s1, s3, s10
	; GFX6-NEXT: s_xor_b64 s[0:1], s[0:1], s[10:11]			; GFX6-NEXT: s_xor_b64 s[0:1], s[0:1], s[10:11]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v3
	; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v5, v1, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3			; GFX6-NEXT: v_mul_lo_u32 v3, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v2
	▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_addc_u32 s1, s5, s16			; GFX6-NEXT: s_addc_u32 s1, s5, s16
	; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]			; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s11, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s11, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s10, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s10, v0
	; GFX6-NEXT: s_xor_b64 s[14:15], s[16:17], s[14:15]			; GFX6-NEXT: s_xor_b64 s[14:15], s[16:17], s[14:15]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s12, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s13, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v0
	; GFX6-NEXT: v_mov_b32_e32 v5, s13			; GFX6-NEXT: v_mov_b32_e32 v5, s13
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_mul_lo_u32 v3, s12, v0			; GFX6-NEXT: v_mul_lo_u32 v3, s12, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v2			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s12, v3			; GFX6-NEXT: v_subrev_i32_e64 v5, s[0:1], s12, v3
	; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s13, v4
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v5			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v5
	Show All 34 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_sub_u32 s0, 0, s2			; GFX6-NEXT: s_sub_u32 s0, 0, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_subb_u32 s1, 0, s3			; GFX6-NEXT: s_subb_u32 s1, 0, s3
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3
	; GFX6-NEXT: s_ashr_i32 s12, s7, 31			; GFX6-NEXT: s_ashr_i32 s12, s7, 31
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2			; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5			; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:			; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
				; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10			; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10
	; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8			; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8
	; GFX9-NEXT: s_ashr_i32 s12, s3, 31			; GFX9-NEXT: s_ashr_i32 s8, s3, 31
	; GFX9-NEXT: s_add_u32 s2, s2, s12			; GFX9-NEXT: s_add_u32 s2, s2, s8
	; GFX9-NEXT: s_mov_b32 s13, s12			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_addc_u32 s3, s3, s12			; GFX9-NEXT: s_addc_u32 s3, s3, s8
	; GFX9-NEXT: s_xor_b64 s[8:9], s[2:3], s[12:13]			; GFX9-NEXT: s_xor_b64 s[12:13], s[2:3], s[8:9]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13
	; GFX9-NEXT: s_sub_u32 s2, 0, s8			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_subb_u32 s3, 0, s9			; GFX9-NEXT: s_sub_u32 s0, 0, s12
	; GFX9-NEXT: s_ashr_i32 s14, s5, 31			; GFX9-NEXT: s_subb_u32 s1, 0, s13
	; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s15, s14
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_readfirstlane_b32 s14, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s15, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0			; GFX9-NEXT: s_mul_i32 s16, s0, s14
	; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0			; GFX9-NEXT: s_mul_hi_u32 s18, s0, s15
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s17, s1, s15
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_add_i32 s16, s18, s16
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_add_i32 s16, s16, s17
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: s_mul_i32 s19, s0, s15
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s17, s15, s16
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4			; GFX9-NEXT: s_mul_i32 s18, s15, s16
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s15, s15, s19
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_add_u32 s15, s15, s18
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_addc_u32 s17, 0, s17
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s20, s14, s19
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s19, s14, s19
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4			; GFX9-NEXT: s_add_u32 s15, s15, s19
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc			; GFX9-NEXT: s_mul_hi_u32 s18, s14, s16
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s15, s17, s20
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s17, s18, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s16, s14, s16
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s15, s15, s16
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s16, 0, s17
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s15, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX9-NEXT: s_addc_u32 s14, s14, s16
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s16, v0
	; GFX9-NEXT: s_add_u32 s2, s4, s14			; GFX9-NEXT: s_mul_i32 s15, s0, s14
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s17, s0, s16
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_add_i32 s15, s17, s15
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s1, s1, s16
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v5			; GFX9-NEXT: s_add_i32 s15, s15, s1
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_mul_i32 s0, s0, s16
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v5			; GFX9-NEXT: s_mul_hi_u32 s17, s14, s0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: s_mul_i32 s18, s14, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_mul_i32 s20, s16, s15
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_mul_hi_u32 s0, s16, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s19, s16, s15
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_add_u32 s0, s0, s20
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: s_addc_u32 s16, 0, s19
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s18
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_mul_hi_u32 s1, s14, s15
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s0, s16, s17
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, s1, 0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_mul_i32 s15, s14, s15
	; GFX9-NEXT: s_addc_u32 s3, s5, s14			; GFX9-NEXT: s_add_u32 s0, s0, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: s_xor_b64 s[4:5], s[2:3], s[14:15]			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s4, v1			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_hi_u32 v3, s4, v0			; GFX9-NEXT: s_addc_u32 s16, s14, s1
	; GFX9-NEXT: v_mul_hi_u32 v4, s4, v1			; GFX9-NEXT: s_ashr_i32 s14, s5, 31
	; GFX9-NEXT: v_mul_hi_u32 v5, s5, v1			; GFX9-NEXT: s_add_u32 s0, s4, s14
	; GFX9-NEXT: v_mul_lo_u32 v1, s5, v1			; GFX9-NEXT: s_mov_b32 s15, s14
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s1, s5, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_xor_b64 s[4:5], s[0:1], s[14:15]
	; GFX9-NEXT: v_mul_lo_u32 v4, s5, v0			; GFX9-NEXT: v_readfirstlane_b32 s17, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s5, v0			; GFX9-NEXT: s_mul_i32 s1, s4, s16
	; GFX9-NEXT: v_mov_b32_e32 v6, s9			; GFX9-NEXT: s_mul_hi_u32 s18, s4, s17
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_mul_hi_u32 s0, s4, s16
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_add_u32 s1, s18, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_addc_u32 s0, 0, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_hi_u32 s19, s5, s17
	; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v0, v1			; GFX9-NEXT: s_mul_i32 s17, s5, s17
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v2, vcc			; GFX9-NEXT: s_add_u32 s1, s1, s17
	; GFX9-NEXT: v_mul_lo_u32 v3, s8, v2			; GFX9-NEXT: s_mul_hi_u32 s18, s5, s16
	; GFX9-NEXT: v_mul_hi_u32 v4, s8, v1			; GFX9-NEXT: s_addc_u32 s0, s0, s19
	; GFX9-NEXT: v_mul_lo_u32 v5, s9, v1			; GFX9-NEXT: s_addc_u32 s1, s18, 0
	; GFX9-NEXT: s_xor_b64 s[12:13], s[14:15], s[12:13]			; GFX9-NEXT: s_mul_i32 s16, s5, s16
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: s_add_u32 s16, s0, s16
	; GFX9-NEXT: v_add_u32_e32 v3, v4, v3			; GFX9-NEXT: s_addc_u32 s17, 0, s1
	; GFX9-NEXT: v_mul_lo_u32 v4, s8, v1			; GFX9-NEXT: s_mul_i32 s0, s12, s17
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: s_mul_hi_u32 s1, s12, s16
	; GFX9-NEXT: v_sub_u32_e32 v5, s5, v3			; GFX9-NEXT: s_add_i32 s0, s1, s0
	; GFX9-NEXT: v_sub_co_u32_e32 v4, vcc, s4, v4			; GFX9-NEXT: s_mul_i32 s1, s13, s16
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, vcc			; GFX9-NEXT: s_add_i32 s18, s0, s1
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s8, v4			; GFX9-NEXT: s_mul_i32 s1, s12, s16
	; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v0, s1
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: s_sub_i32 s0, s5, s18
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[0:1]			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v6			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_subb_u32 s4, s0, s13
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s9, v5			; GFX9-NEXT: v_subrev_co_u32_e64 v1, s[0:1], s12, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_add_co_u32_e64 v6, s[0:1], 2, v1			; GFX9-NEXT: s_subb_u32 s4, s4, 0
	; GFX9-NEXT: v_addc_co_u32_e64 v7, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: s_cmp_ge_u32 s4, s13
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 1, v1			; GFX9-NEXT: s_cselect_b32 s19, -1, 0
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s12, v1
				; GFX9-NEXT: s_cmp_eq_u32 s4, s13
				; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v2, s19
				; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9-NEXT: s_add_u32 s4, s16, 2
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v1, s[0:1]
				; GFX9-NEXT: s_addc_u32 s0, s17, 0
				; GFX9-NEXT: s_add_u32 s19, s16, 1
				; GFX9-NEXT: s_addc_u32 s1, s17, 0
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_subb_u32 s5, s5, s18
				; GFX9-NEXT: s_cmp_ge_u32 s5, s13
				; GFX9-NEXT: v_mov_b32_e32 v2, s1
				; GFX9-NEXT: v_mov_b32_e32 v3, s0
				; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v1
				; GFX9-NEXT: s_cselect_b32 s18, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
				; GFX9-NEXT: s_cmp_eq_u32 s5, s13
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v2, v3, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v2, s18
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
				; GFX9-NEXT: v_mov_b32_e32 v2, s17
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v1, s19
				; GFX9-NEXT: v_mov_b32_e32 v2, s4
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
				; GFX9-NEXT: s_xor_b64 s[0:1], s[14:15], s[8:9]
	; GFX9-NEXT: s_ashr_i32 s4, s11, 31			; GFX9-NEXT: s_ashr_i32 s4, s11, 31
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5			; GFX9-NEXT: s_add_u32 s8, s10, s4
	; GFX9-NEXT: s_add_u32 s10, s10, s4
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v9, v7, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v7, s5
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s11, s11, s4			; GFX9-NEXT: s_addc_u32 s9, s11, s4
	; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[4:5]			; GFX9-NEXT: v_mov_b32_e32 v2, s16
	; GFX9-NEXT: v_cvt_f32_u32_e32 v9, s10			; GFX9-NEXT: s_xor_b64 s[8:9], s[8:9], s[4:5]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v10, s11			; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s8
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4			; GFX9-NEXT: v_xor_b32_e32 v5, s1, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s0, v1
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
	; GFX9-NEXT: v_mac_f32_e32 v9, 0x4f800000, v10			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc			; GFX9-NEXT: s_sub_u32 s0, 0, s8
	; GFX9-NEXT: v_rcp_f32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v6, s1
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; GFX9-NEXT: s_subb_u32 s1, 0, s9
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v8, v6, s[0:1]			; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4			; GFX9-NEXT: v_trunc_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v5, v6, vcc
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_readfirstlane_b32 s10, v2
	; GFX9-NEXT: s_sub_u32 s0, 0, s10			; GFX9-NEXT: v_readfirstlane_b32 s13, v3
	; GFX9-NEXT: s_subb_u32 s1, 0, s11			; GFX9-NEXT: s_mul_hi_u32 s12, s0, s10
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4			; GFX9-NEXT: s_mul_i32 s14, s0, s13
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX9-NEXT: s_mul_i32 s11, s1, s10
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX9-NEXT: s_add_i32 s12, s12, s14
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: s_add_i32 s12, s12, s11
	; GFX9-NEXT: v_mul_lo_u32 v3, s0, v4			; GFX9-NEXT: s_mul_i32 s15, s0, s10
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v7			; GFX9-NEXT: s_mul_hi_u32 s11, s10, s12
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v8			; GFX9-NEXT: s_mul_i32 s14, s10, s12
	; GFX9-NEXT: v_mul_lo_u32 v7, v4, v6			; GFX9-NEXT: s_mul_hi_u32 s10, s10, s15
	; GFX9-NEXT: v_mul_hi_u32 v8, v4, v3			; GFX9-NEXT: s_add_u32 s10, s10, s14
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v6			; GFX9-NEXT: s_addc_u32 s11, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v6			; GFX9-NEXT: s_mul_hi_u32 s16, s13, s15
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6			; GFX9-NEXT: s_mul_i32 s15, s13, s15
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7			; GFX9-NEXT: s_add_u32 s10, s10, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc			; GFX9-NEXT: s_mul_hi_u32 s14, s13, s12
	; GFX9-NEXT: v_mul_lo_u32 v9, v5, v3			; GFX9-NEXT: s_addc_u32 s10, s11, s16
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3			; GFX9-NEXT: s_addc_u32 s11, s14, 0
	; GFX9-NEXT: s_ashr_i32 s8, s7, 31			; GFX9-NEXT: s_mul_i32 s12, s13, s12
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_add_u32 s10, s10, s12
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9			; GFX9-NEXT: s_addc_u32 s11, 0, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v3, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s10, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v10, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_addc_u32 s10, s13, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: v_readfirstlane_b32 s12, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3			; GFX9-NEXT: s_mul_i32 s11, s0, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v5, v6, vcc			; GFX9-NEXT: s_mul_hi_u32 s13, s0, s12
	; GFX9-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX9-NEXT: s_add_i32 s11, s13, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3			; GFX9-NEXT: s_mul_i32 s1, s1, s12
	; GFX9-NEXT: v_mul_lo_u32 v7, s1, v3			; GFX9-NEXT: s_add_i32 s11, s11, s1
	; GFX9-NEXT: v_mul_lo_u32 v8, s0, v3			; GFX9-NEXT: s_mul_i32 s0, s0, s12
	; GFX9-NEXT: s_add_u32 s0, s6, s8			; GFX9-NEXT: s_mul_hi_u32 s13, s10, s0
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: s_mul_i32 s14, s10, s0
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v7			; GFX9-NEXT: s_mul_i32 s16, s12, s11
	; GFX9-NEXT: v_mul_lo_u32 v9, v3, v5			; GFX9-NEXT: s_mul_hi_u32 s0, s12, s0
	; GFX9-NEXT: v_mul_hi_u32 v10, v3, v8			; GFX9-NEXT: s_mul_hi_u32 s15, s12, s11
	; GFX9-NEXT: v_mul_hi_u32 v11, v3, v5			; GFX9-NEXT: s_add_u32 s0, s0, s16
	; GFX9-NEXT: v_mul_hi_u32 v7, v4, v8			; GFX9-NEXT: s_addc_u32 s12, 0, s15
	; GFX9-NEXT: v_mul_lo_u32 v8, v4, v8			; GFX9-NEXT: s_add_u32 s0, s0, s14
	; GFX9-NEXT: v_mul_hi_u32 v6, v4, v5			; GFX9-NEXT: s_mul_hi_u32 s1, s10, s11
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9			; GFX9-NEXT: s_addc_u32 s0, s12, s13
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, 0, v11, vcc			; GFX9-NEXT: s_addc_u32 s1, s1, 0
	; GFX9-NEXT: v_mul_lo_u32 v5, v4, v5			; GFX9-NEXT: s_mul_i32 s11, s10, s11
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8			; GFX9-NEXT: s_add_u32 s0, s0, s11
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v7, vcc			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc			; GFX9-NEXT: s_addc_u32 s12, s10, s1
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_ashr_i32 s10, s7, 31
	; GFX9-NEXT: s_addc_u32 s1, s7, s8			; GFX9-NEXT: s_add_u32 s0, s6, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v6, vcc			; GFX9-NEXT: s_mov_b32 s11, s10
	; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[8:9]			; GFX9-NEXT: s_addc_u32 s1, s7, s10
	; GFX9-NEXT: v_mul_lo_u32 v5, s6, v4			; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]
	; GFX9-NEXT: v_mul_hi_u32 v6, s6, v3			; GFX9-NEXT: v_readfirstlane_b32 s13, v2
	; GFX9-NEXT: v_mul_hi_u32 v8, s6, v4			; GFX9-NEXT: s_mul_i32 s1, s6, s12
	; GFX9-NEXT: v_mul_hi_u32 v9, s7, v4			; GFX9-NEXT: s_mul_hi_u32 s14, s6, s13
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v4			; GFX9-NEXT: s_mul_hi_u32 s0, s6, s12
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: s_add_u32 s1, s14, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s0, 0, s0
	; GFX9-NEXT: v_mul_lo_u32 v8, s7, v3			; GFX9-NEXT: s_mul_hi_u32 s15, s7, s13
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX9-NEXT: s_mul_i32 s13, s7, s13
	; GFX9-NEXT: v_xor_b32_e32 v1, s12, v1			; GFX9-NEXT: s_add_u32 s1, s1, s13
	; GFX9-NEXT: v_xor_b32_e32 v2, s13, v2			; GFX9-NEXT: s_mul_hi_u32 s14, s7, s12
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v8			; GFX9-NEXT: s_addc_u32 s0, s0, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, s14, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v9, vcc			; GFX9-NEXT: s_mul_i32 s12, s7, s12
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4			; GFX9-NEXT: s_add_u32 s12, s0, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc			; GFX9-NEXT: s_addc_u32 s13, 0, s1
	; GFX9-NEXT: v_mul_lo_u32 v5, s10, v4			; GFX9-NEXT: s_mul_i32 s0, s8, s13
	; GFX9-NEXT: v_mul_hi_u32 v6, s10, v3			; GFX9-NEXT: s_mul_hi_u32 s1, s8, s12
	; GFX9-NEXT: v_mul_lo_u32 v8, s11, v3			; GFX9-NEXT: s_add_i32 s0, s1, s0
	; GFX9-NEXT: v_mov_b32_e32 v7, s13			; GFX9-NEXT: s_mul_i32 s1, s9, s12
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s12, v1			; GFX9-NEXT: s_add_i32 s14, s0, s1
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5			; GFX9-NEXT: s_mul_i32 s1, s8, s12
	; GFX9-NEXT: v_mul_lo_u32 v6, s10, v3			; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v7, vcc			; GFX9-NEXT: s_sub_i32 s0, s7, s14
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v8			; GFX9-NEXT: v_sub_co_u32_e32 v2, vcc, s6, v2
	; GFX9-NEXT: v_sub_u32_e32 v7, s7, v5			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mov_b32_e32 v8, s11			; GFX9-NEXT: s_subb_u32 s6, s0, s9
	; GFX9-NEXT: v_sub_co_u32_e32 v6, vcc, s6, v6			; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s8, v2
	; GFX9-NEXT: v_subb_co_u32_e64 v7, s[0:1], v7, v8, vcc			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_subrev_co_u32_e64 v8, s[0:1], s10, v6			; GFX9-NEXT: s_subb_u32 s6, s6, 0
	; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[0:1], 0, v7, s[0:1]			; GFX9-NEXT: s_cmp_ge_u32 s6, s9
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v7			; GFX9-NEXT: s_cselect_b32 s15, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[0:1]			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v3
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v8			; GFX9-NEXT: s_cmp_eq_u32 s6, s9
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[0:1]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], s11, v7			; GFX9-NEXT: v_mov_b32_e32 v5, s15
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[0:1]			; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
	; GFX9-NEXT: v_add_co_u32_e64 v8, s[0:1], 2, v3			; GFX9-NEXT: s_add_u32 s6, s12, 2
	; GFX9-NEXT: v_addc_co_u32_e64 v9, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v3, s[0:1]
	; GFX9-NEXT: v_add_co_u32_e64 v10, s[0:1], 1, v3			; GFX9-NEXT: s_addc_u32 s0, s13, 0
	; GFX9-NEXT: v_addc_co_u32_e64 v11, s[0:1], 0, v4, s[0:1]			; GFX9-NEXT: s_add_u32 s15, s12, 1
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: s_addc_u32 s1, s13, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[0:1]			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mov_b32_e32 v9, s7			; GFX9-NEXT: s_subb_u32 s7, s7, s14
	; GFX9-NEXT: v_subb_co_u32_e32 v5, vcc, v9, v5, vcc			; GFX9-NEXT: s_cmp_ge_u32 s7, s9
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v6, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v10, v8, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[8:9], s[4:5]
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v7, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3
	; GFX9-NEXT: v_xor_b32_e32 v4, s1, v4
	; GFX9-NEXT: v_mov_b32_e32 v5, s1			; GFX9-NEXT: v_mov_b32_e32 v5, s1
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s0, v3			; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
				; GFX9-NEXT: s_cselect_b32 s14, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
				; GFX9-NEXT: s_cmp_eq_u32 s7, s9
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v6, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v5, s14
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc
				; GFX9-NEXT: v_mov_b32_e32 v5, s13
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v5, v3, vcc
				; GFX9-NEXT: v_mov_b32_e32 v3, s15
				; GFX9-NEXT: v_mov_b32_e32 v5, s6
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v5, s12
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
				; GFX9-NEXT: s_xor_b64 s[0:1], s[10:11], s[4:5]
				; GFX9-NEXT: v_xor_b32_e32 v3, s0, v3
				; GFX9-NEXT: v_xor_b32_e32 v5, s1, v2
				; GFX9-NEXT: v_mov_b32_e32 v6, s1
				; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s0, v3
				; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v5, v6, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[2:3]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = sdiv <2 x i64> %x, %shl.y			%r = sdiv <2 x i64> %x, %shl.y
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i64_oddk_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @srem_i64_oddk_denom(i64 addrspace(1)* %out, i64 %x) {
	Show All 19 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s4
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, s4
	; GFX6-NEXT: v_mul_lo_u32 v4, v0, s4			; GFX6-NEXT: v_mul_lo_u32 v4, v0, s4
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v2, s8			; GFX6-NEXT: v_mov_b32_e32 v2, s8
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_i64_oddk_denom:			; GFX9-LABEL: srem_i64_oddk_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v0, 0x4f800000			; GFX9-NEXT: v_mov_b32_e32 v0, 0x4996c7d8
	; GFX9-NEXT: v_madak_f32 v0, 0, v0, 0x4996c7d8			; GFX9-NEXT: v_mov_b32_e32 v1, 0x4f800000
				; GFX9-NEXT: v_mac_f32_e32 v0, 0, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s2, 0xffed2705
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_readfirstlane_b32 s0, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: v_readfirstlane_b32 s1, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: s_mul_hi_u32 s2, s1, 0xffed2705
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s3, s0, 0xffed2705
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0			; GFX9-NEXT: s_add_i32 s2, s2, s3
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_sub_i32 s2, s2, s1
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s9, s1, 0xffed2705
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s3, s1, s2
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v4			; GFX9-NEXT: s_mul_i32 s8, s1, s2
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s1, s1, s9
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_add_u32 s1, s1, s8
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: s_addc_u32 s3, 0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s0, s9
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s9, s0, s9
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_add_u32 s1, s1, s9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s8, s0, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s1, s3, s10
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s3, s8, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s2, s0, s2
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s1, s1, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s2, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, s2			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s2			; GFX9-NEXT: s_addc_u32 s0, s0, s2
				; GFX9-NEXT: v_readfirstlane_b32 s2, v0
				; GFX9-NEXT: s_mul_i32 s1, s0, 0xffed2705
				; GFX9-NEXT: s_mul_hi_u32 s3, s2, 0xffed2705
				; GFX9-NEXT: s_add_i32 s3, s3, s1
				; GFX9-NEXT: s_sub_i32 s1, s3, s2
				; GFX9-NEXT: s_mul_i32 s8, s2, 0xffed2705
				; GFX9-NEXT: s_mul_hi_u32 s11, s2, s1
				; GFX9-NEXT: s_mul_i32 s12, s2, s1
				; GFX9-NEXT: s_mul_hi_u32 s2, s2, s8
				; GFX9-NEXT: s_add_u32 s2, s2, s12
				; GFX9-NEXT: s_mul_hi_u32 s9, s0, s8
				; GFX9-NEXT: s_mul_i32 s10, s0, s8
				; GFX9-NEXT: s_addc_u32 s8, 0, s11
				; GFX9-NEXT: s_add_u32 s2, s2, s10
				; GFX9-NEXT: s_mul_hi_u32 s3, s0, s1
				; GFX9-NEXT: s_addc_u32 s2, s8, s9
				; GFX9-NEXT: s_addc_u32 s3, s3, 0
				; GFX9-NEXT: s_mul_i32 s1, s0, s1
				; GFX9-NEXT: s_add_u32 s1, s2, s1
				; GFX9-NEXT: s_addc_u32 s2, 0, s3
				; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s1, v0
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s8, s0, s2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s7, 31			; GFX9-NEXT: s_ashr_i32 s2, s7, 31
	; GFX9-NEXT: s_add_u32 s0, s6, s2			; GFX9-NEXT: s_add_u32 s0, s6, s2
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_sub_u32_e32 v2, v2, v0
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v5, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v6, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v5, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: s_mov_b32 s3, s2
	; GFX9-NEXT: s_addc_u32 s1, s7, s2			; GFX9-NEXT: s_addc_u32 s1, s7, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]			; GFX9-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]
	; GFX9-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX9-NEXT: v_readfirstlane_b32 s7, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, s0, v0			; GFX9-NEXT: s_mul_i32 s6, s0, s8
	; GFX9-NEXT: v_mul_hi_u32 v4, s0, v1			; GFX9-NEXT: s_mul_hi_u32 s9, s0, s7
	; GFX9-NEXT: v_mul_hi_u32 v5, s1, v1			; GFX9-NEXT: s_mul_hi_u32 s3, s0, s8
	; GFX9-NEXT: v_mul_lo_u32 v1, s1, v1			; GFX9-NEXT: s_add_u32 s6, s9, s6
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s3, 0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_hi_u32 s10, s1, s7
	; GFX9-NEXT: v_mul_lo_u32 v4, s1, v0			; GFX9-NEXT: s_mul_i32 s7, s1, s7
	; GFX9-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX9-NEXT: s_add_u32 s6, s6, s7
	; GFX9-NEXT: s_mov_b32 s3, 0x12d8fb			; GFX9-NEXT: s_mul_hi_u32 s9, s1, s8
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_addc_u32 s3, s3, s10
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_addc_u32 s6, s9, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_mul_i32 s7, s1, s8
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_add_u32 s3, s3, s7
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: s_addc_u32 s6, 0, s6
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s3			; GFX9-NEXT: s_mul_hi_u32 s8, s3, 0x12d8fb
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, s3			; GFX9-NEXT: s_mul_i32 s3, s3, 0x12d8fb
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: s_mul_i32 s6, s6, 0x12d8fb
	; GFX9-NEXT: v_mov_b32_e32 v3, 0			; GFX9-NEXT: v_mov_b32_e32 v0, s3
	; GFX9-NEXT: v_add_u32_e32 v1, v2, v1			; GFX9-NEXT: s_add_i32 s8, s8, s6
	; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v1, vcc			; GFX9-NEXT: s_mov_b32 s7, 0x12d8fb
	; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s3, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_subbrev_co_u32_e32 v4, vcc, 0, v1, vcc			; GFX9-NEXT: s_subb_u32 s3, s1, s8
	; GFX9-NEXT: v_subrev_co_u32_e32 v5, vcc, s3, v2			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s7, v0
	; GFX9-NEXT: v_subbrev_co_u32_e32 v6, vcc, 0, v4, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: s_mov_b32 s0, 0x12d8fa			; GFX9-NEXT: s_subb_u32 s0, s3, 0
	; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s0, v2			; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s7, v1
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4			; GFX9-NEXT: s_subb_u32 s1, s0, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v7, -1, v7, vcc			; GFX9-NEXT: s_mov_b32 s6, 0x12d8fa
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7			; GFX9-NEXT: v_cmp_lt_u32_e32 vcc, s6, v1
	; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s0, v0			; GFX9-NEXT: s_cmp_eq_u32 s0, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v1			; GFX9-NEXT: v_cndmask_b32_e32 v4, -1, v4, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v6, -1, v6, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v5, s0
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v6			; GFX9-NEXT: v_mov_b32_e32 v6, s1
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX9-NEXT: v_cmp_lt_u32_e64 s[0:1], s6, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GFX9-NEXT: s_cmp_eq_u32 s3, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v4, v5, v6, vcc
				; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
				; GFX9-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v5, -1, v5, s[0:1]
				; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
				; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
				; GFX9-NEXT: v_mov_b32_e32 v6, s3
				; GFX9-NEXT: v_cndmask_b32_e64 v0, v0, v1, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v4, v6, v4, s[0:1]
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s2, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0			; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s2, v0
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: global_store_dwordx2 v3, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem i64 %x, 1235195			%r = srem i64 %x, 1235195
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {			define amdgpu_kernel void @srem_i64_pow2k_denom(i64 addrspace(1)* %out, i64 %x) {
	; CHECK-LABEL: @srem_i64_pow2k_denom(			; CHECK-LABEL: @srem_i64_pow2k_denom(
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_add_u32 s2, s2, s10			; GFX6-NEXT: s_add_u32 s2, s2, s10
	; GFX6-NEXT: s_mov_b32 s11, s10			; GFX6-NEXT: s_mov_b32 s11, s10
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s5, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s4, v0
	; GFX6-NEXT: s_addc_u32 s3, s3, s10			; GFX6-NEXT: s_addc_u32 s3, s3, s10
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s4			; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s4
	; GFX9-NEXT: s_ashr_i32 s4, s3, 31			; GFX9-NEXT: s_ashr_i32 s4, s3, 31
	; GFX9-NEXT: s_add_u32 s2, s2, s4			; GFX9-NEXT: s_add_u32 s2, s2, s4
	; GFX9-NEXT: s_mov_b32 s5, s4			; GFX9-NEXT: s_mov_b32 s5, s4
	; GFX9-NEXT: s_addc_u32 s3, s3, s4			; GFX9-NEXT: s_addc_u32 s3, s3, s4
	; GFX9-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]			; GFX9-NEXT: s_xor_b64 s[8:9], s[2:3], s[4:5]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_u32 s2, 0, s8
	; GFX9-NEXT: s_subb_u32 s3, 0, s9
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
				; GFX9-NEXT: s_sub_u32 s0, 0, s8
				; GFX9-NEXT: s_subb_u32 s1, 0, s9
	; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v1, v0
				; GFX9-NEXT: v_mov_b32_e32 v0, 0
				; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
				; GFX9-NEXT: v_mul_f32_e32 v2, 0x2f800000, v1
				; GFX9-NEXT: v_trunc_f32_e32 v2, v2
				; GFX9-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2
				; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
				; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
				; GFX9-NEXT: v_readfirstlane_b32 s2, v2
				; GFX9-NEXT: v_readfirstlane_b32 s3, v1
				; GFX9-NEXT: s_mul_i32 s10, s0, s2
				; GFX9-NEXT: s_mul_hi_u32 s12, s0, s3
				; GFX9-NEXT: s_mul_i32 s11, s1, s3
				; GFX9-NEXT: s_add_i32 s10, s12, s10
				; GFX9-NEXT: s_add_i32 s10, s10, s11
				; GFX9-NEXT: s_mul_i32 s13, s0, s3
				; GFX9-NEXT: s_mul_hi_u32 s11, s3, s10
				; GFX9-NEXT: s_mul_i32 s12, s3, s10
				; GFX9-NEXT: s_mul_hi_u32 s3, s3, s13
				; GFX9-NEXT: s_add_u32 s3, s3, s12
				; GFX9-NEXT: s_addc_u32 s11, 0, s11
				; GFX9-NEXT: s_mul_hi_u32 s14, s2, s13
				; GFX9-NEXT: s_mul_i32 s13, s2, s13
				; GFX9-NEXT: s_add_u32 s3, s3, s13
				; GFX9-NEXT: s_mul_hi_u32 s12, s2, s10
				; GFX9-NEXT: s_addc_u32 s3, s11, s14
				; GFX9-NEXT: s_addc_u32 s11, s12, 0
				; GFX9-NEXT: s_mul_i32 s10, s2, s10
				; GFX9-NEXT: s_add_u32 s3, s3, s10
				; GFX9-NEXT: s_addc_u32 s10, 0, s11
				; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s3, v1
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s2, s2, s10
				; GFX9-NEXT: v_readfirstlane_b32 s10, v1
				; GFX9-NEXT: s_mul_i32 s3, s0, s2
				; GFX9-NEXT: s_mul_hi_u32 s11, s0, s10
				; GFX9-NEXT: s_add_i32 s3, s11, s3
				; GFX9-NEXT: s_mul_i32 s1, s1, s10
				; GFX9-NEXT: s_add_i32 s3, s3, s1
				; GFX9-NEXT: s_mul_i32 s0, s0, s10
				; GFX9-NEXT: s_mul_hi_u32 s11, s2, s0
				; GFX9-NEXT: s_mul_i32 s12, s2, s0
				; GFX9-NEXT: s_mul_i32 s14, s10, s3
				; GFX9-NEXT: s_mul_hi_u32 s0, s10, s0
				; GFX9-NEXT: s_mul_hi_u32 s13, s10, s3
				; GFX9-NEXT: s_add_u32 s0, s0, s14
				; GFX9-NEXT: s_addc_u32 s10, 0, s13
				; GFX9-NEXT: s_add_u32 s0, s0, s12
				; GFX9-NEXT: s_mul_hi_u32 s1, s2, s3
				; GFX9-NEXT: s_addc_u32 s0, s10, s11
				; GFX9-NEXT: s_addc_u32 s1, s1, 0
				; GFX9-NEXT: s_mul_i32 s3, s2, s3
				; GFX9-NEXT: s_add_u32 s0, s0, s3
				; GFX9-NEXT: s_addc_u32 s1, 0, s1
				; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, s0, v1
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s2, s2, s1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s10, s7, 31			; GFX9-NEXT: s_ashr_i32 s10, s7, 31
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: s_add_u32 s0, s6, s10			; GFX9-NEXT: s_add_u32 s0, s6, s10
	; GFX9-NEXT: s_mov_b32 s11, s10			; GFX9-NEXT: s_mov_b32 s11, s10
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0
	; GFX9-NEXT: s_addc_u32 s1, s7, s10			; GFX9-NEXT: s_addc_u32 s1, s7, s10
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0
	; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]			; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_readfirstlane_b32 s3, v1
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_mul_i32 s1, s6, s2
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s11, s6, s3
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v5			; GFX9-NEXT: s_mul_hi_u32 s0, s6, s2
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_add_u32 s1, s11, s1
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v5			; GFX9-NEXT: s_addc_u32 s0, 0, s0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: s_mul_hi_u32 s12, s7, s3
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_mul_i32 s3, s7, s3
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_add_u32 s1, s1, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s11, s7, s2
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_addc_u32 s0, s0, s12
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: s_addc_u32 s1, s11, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: s_mul_i32 s2, s7, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s2
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_mul_i32 s1, s8, s1
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s2, s8, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_add_i32 s1, s2, s1
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v1			; GFX9-NEXT: s_mul_i32 s2, s9, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v0			; GFX9-NEXT: s_mul_i32 s0, s8, s0
	; GFX9-NEXT: v_mul_hi_u32 v4, s6, v1			; GFX9-NEXT: s_add_i32 s11, s1, s2
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v1			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_mul_lo_u32 v1, s7, v1			; GFX9-NEXT: s_sub_i32 s1, s7, s11
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s6, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v0			; GFX9-NEXT: s_subb_u32 s6, s1, s9
	; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0			; GFX9-NEXT: v_subrev_co_u32_e64 v2, s[0:1], s8, v1
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_subb_u32 s12, s6, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_cmp_ge_u32 s12, s9
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v1			; GFX9-NEXT: s_cselect_b32 s13, -1, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v2, vcc			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v2
	; GFX9-NEXT: v_mul_lo_u32 v1, s8, v1			; GFX9-NEXT: s_cmp_eq_u32 s12, s9
	; GFX9-NEXT: v_mul_hi_u32 v2, s8, v0			; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[2:3]
	; GFX9-NEXT: v_mul_lo_u32 v3, s9, v0			; GFX9-NEXT: v_mov_b32_e32 v4, s13
	; GFX9-NEXT: v_mul_lo_u32 v0, s8, v0			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_add_u32_e32 v1, v2, v1			; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[2:3]
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: s_subb_u32 s2, s6, s9
	; GFX9-NEXT: v_sub_u32_e32 v2, s7, v1			; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s8, v2
	; GFX9-NEXT: v_mov_b32_e32 v3, s9			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s6, v0			; GFX9-NEXT: s_subb_u32 s0, s2, 0
	; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, vcc			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_subrev_co_u32_e64 v5, s[0:1], s8, v0			; GFX9-NEXT: s_subb_u32 s2, s7, s11
	; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[2:3], 0, v2, s[0:1]			; GFX9-NEXT: s_cmp_ge_u32 s2, s9
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v6			; GFX9-NEXT: v_mov_b32_e32 v5, s12
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v5			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v3
	; GFX9-NEXT: v_subb_co_u32_e64 v2, s[0:1], v2, v3, s[0:1]			; GFX9-NEXT: s_cselect_b32 s3, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v1
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s9, v6			; GFX9-NEXT: s_cmp_eq_u32 s2, s9
	; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s8, v5			; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]			; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX9-NEXT: v_subbrev_co_u32_e64 v2, s[0:1], 0, v2, s[0:1]			; GFX9-NEXT: v_mov_b32_e32 v6, s3
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v6, v2, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
	; GFX9-NEXT: v_mov_b32_e32 v6, s7			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v6, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX9-NEXT: v_mov_b32_e32 v6, s2
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s10, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s10, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, s10			; GFX9-NEXT: v_xor_b32_e32 v2, s10, v3
	; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s10, v0			; GFX9-NEXT: v_mov_b32_e32 v3, s10
	; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v1, v2, vcc			; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s10, v1
	; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v3, vcc
				; GFX9-NEXT: global_store_dwordx2 v0, v[1:2], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl i64 4096, %y			%shl.y = shl i64 4096, %y
	%r = srem i64 %x, %shl.y			%r = srem i64 %x, %shl.y
	store i64 %r, i64 addrspace(1)* %out			store i64 %r, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @srem_v2i64_pow2k_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x) {			define amdgpu_kernel void @srem_v2i64_pow2k_denom(<2 x i64> addrspace(1)* %out, <2 x i64> %x) {
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_addc_u32 s1, s5, s12			; GFX6-NEXT: s_addc_u32 s1, s5, s12
	; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[12:13]			; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[12:13]
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s2, v0
	; GFX6-NEXT: s_mov_b32 s10, -1			; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_sub_u32 s0, 0, s4			; GFX6-NEXT: s_sub_u32 s0, 0, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_subb_u32 s1, 0, s5			; GFX6-NEXT: s_subb_u32 s1, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3
	; GFX6-NEXT: s_ashr_i32 s14, s7, 31			; GFX6-NEXT: s_ashr_i32 s14, s7, 31
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v6, v3, v2
	; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v7, v3, v5
	; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2			; GFX6-NEXT: v_mul_hi_u32 v8, v3, v2
	; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2			; GFX6-NEXT: v_mul_hi_u32 v9, v4, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v4, v2
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GFX6-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5			; GFX6-NEXT: v_mul_lo_u32 v8, v4, v5
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v3
	; GFX6-NEXT: v_mul_hi_u32 v4, s4, v2			; GFX6-NEXT: v_mul_hi_u32 v4, s4, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s5, v2			; GFX6-NEXT: v_mul_lo_u32 v5, s5, v2
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v2, s4, v2
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v1, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s7, v3			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s7, v3
	; GFX6-NEXT: v_mov_b32_e32 v5, s5			; GFX6-NEXT: v_mov_b32_e32 v5, s5
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GFX6-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s4, v2			; GFX6-NEXT: v_subrev_i32_e64 v6, s[0:1], s4, v2
	; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]			; GFX6-NEXT: v_subbrev_u32_e64 v7, s[2:3], 0, v4, s[0:1]
	; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s5, v7			; GFX6-NEXT: v_cmp_le_u32_e64 s[2:3], s5, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]
	Show All 26 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i64_pow2_shl_denom:			; GFX9-LABEL: srem_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
				; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10			; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10
	; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8			; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8
	; GFX9-NEXT: s_ashr_i32 s8, s3, 31			; GFX9-NEXT: s_ashr_i32 s8, s3, 31
	; GFX9-NEXT: s_add_u32 s2, s2, s8			; GFX9-NEXT: s_add_u32 s2, s2, s8
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_addc_u32 s3, s3, s8			; GFX9-NEXT: s_addc_u32 s3, s3, s8
	; GFX9-NEXT: s_xor_b64 s[12:13], s[2:3], s[8:9]			; GFX9-NEXT: s_xor_b64 s[12:13], s[2:3], s[8:9]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13
	; GFX9-NEXT: s_sub_u32 s2, 0, s12			; GFX9-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x24
	; GFX9-NEXT: s_subb_u32 s3, 0, s13			; GFX9-NEXT: s_sub_u32 s0, 0, s12
	; GFX9-NEXT: s_ashr_i32 s8, s5, 31			; GFX9-NEXT: s_subb_u32 s1, 0, s13
	; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0			; GFX9-NEXT: s_mul_i32 s14, s0, s2
	; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0			; GFX9-NEXT: s_mul_hi_u32 s16, s0, s3
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_i32 s15, s1, s3
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: s_add_i32 s14, s16, s14
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: s_add_i32 s14, s14, s15
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: s_mul_i32 s17, s0, s3
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2			; GFX9-NEXT: s_mul_hi_u32 s15, s3, s14
	; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4			; GFX9-NEXT: s_mul_i32 s16, s3, s14
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4			; GFX9-NEXT: s_mul_hi_u32 s3, s3, s17
	; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2			; GFX9-NEXT: s_add_u32 s3, s3, s16
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: s_addc_u32 s15, 0, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc			; GFX9-NEXT: s_mul_hi_u32 s18, s2, s17
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_mul_i32 s17, s2, s17
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4			; GFX9-NEXT: s_add_u32 s3, s3, s17
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc			; GFX9-NEXT: s_mul_hi_u32 s16, s2, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc			; GFX9-NEXT: s_addc_u32 s3, s15, s18
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s15, s16, 0
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_mul_i32 s14, s2, s14
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_add_u32 s3, s3, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s14, 0, s15
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX9-NEXT: s_addc_u32 s2, s2, s14
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s14, v0
	; GFX9-NEXT: s_add_u32 s2, s4, s8			; GFX9-NEXT: s_mul_i32 s3, s0, s2
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_mul_hi_u32 s15, s0, s14
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_add_i32 s3, s15, s3
	; GFX9-NEXT: v_mul_lo_u32 v6, v0, v2			; GFX9-NEXT: s_mul_i32 s1, s1, s14
	; GFX9-NEXT: v_mul_hi_u32 v7, v0, v5			; GFX9-NEXT: s_add_i32 s3, s3, s1
	; GFX9-NEXT: v_mul_hi_u32 v8, v0, v2			; GFX9-NEXT: s_mul_i32 s0, s0, s14
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v5			; GFX9-NEXT: s_mul_hi_u32 s15, s2, s0
	; GFX9-NEXT: v_mul_lo_u32 v5, v1, v5			; GFX9-NEXT: s_mul_i32 s16, s2, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v2			; GFX9-NEXT: s_mul_i32 s18, s14, s3
	; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v7, v6			; GFX9-NEXT: s_mul_hi_u32 s0, s14, s0
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v8, vcc			; GFX9-NEXT: s_mul_hi_u32 s17, s14, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: s_add_u32 s0, s0, s18
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5			; GFX9-NEXT: s_addc_u32 s14, 0, s17
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v7, v4, vcc			; GFX9-NEXT: s_add_u32 s0, s0, s16
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_mul_hi_u32 s1, s2, s3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v4, v2			; GFX9-NEXT: s_addc_u32 s0, s14, s15
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, s1, 0
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: s_mul_i32 s3, s2, s3
	; GFX9-NEXT: s_addc_u32 s3, s5, s8			; GFX9-NEXT: s_add_u32 s0, s0, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: s_xor_b64 s[14:15], s[2:3], s[8:9]			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s14, v1			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_mul_hi_u32 v3, s14, v0			; GFX9-NEXT: s_addc_u32 s2, s2, s1
	; GFX9-NEXT: v_mul_hi_u32 v4, s14, v1			; GFX9-NEXT: s_ashr_i32 s14, s5, 31
	; GFX9-NEXT: v_mul_hi_u32 v5, s15, v1			; GFX9-NEXT: s_add_u32 s0, s4, s14
	; GFX9-NEXT: v_mul_lo_u32 v1, s15, v1			; GFX9-NEXT: s_mov_b32 s15, s14
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: s_addc_u32 s1, s5, s14
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: s_xor_b64 s[4:5], s[0:1], s[14:15]
	; GFX9-NEXT: v_mul_lo_u32 v4, s15, v0			; GFX9-NEXT: v_readfirstlane_b32 s3, v0
	; GFX9-NEXT: v_mul_hi_u32 v0, s15, v0			; GFX9-NEXT: s_mul_i32 s1, s4, s2
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_mul_hi_u32 s15, s4, s3
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v2, v4			; GFX9-NEXT: s_mul_hi_u32 s0, s4, s2
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, v3, v0, vcc			; GFX9-NEXT: s_add_u32 s1, s15, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v2, vcc, 0, v5, vcc			; GFX9-NEXT: s_addc_u32 s0, 0, s0
	; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v0, v1			; GFX9-NEXT: s_mul_hi_u32 s16, s5, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, 0, v2, vcc			; GFX9-NEXT: s_mul_i32 s3, s5, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, s12, v0			; GFX9-NEXT: s_add_u32 s1, s1, s3
	; GFX9-NEXT: v_mul_hi_u32 v3, s12, v1			; GFX9-NEXT: s_mul_hi_u32 s15, s5, s2
	; GFX9-NEXT: v_mul_lo_u32 v4, s13, v1			; GFX9-NEXT: s_addc_u32 s0, s0, s16
	; GFX9-NEXT: v_mul_lo_u32 v1, s12, v1			; GFX9-NEXT: s_addc_u32 s1, s15, 0
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: s_mul_i32 s2, s5, s2
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: s_add_u32 s0, s0, s2
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: s_addc_u32 s1, 0, s1
	; GFX9-NEXT: v_sub_u32_e32 v3, s15, v2			; GFX9-NEXT: s_mul_i32 s1, s12, s1
	; GFX9-NEXT: v_mov_b32_e32 v4, s13			; GFX9-NEXT: s_mul_hi_u32 s2, s12, s0
	; GFX9-NEXT: v_sub_co_u32_e32 v1, vcc, s14, v1			; GFX9-NEXT: s_add_i32 s1, s2, s1
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, vcc			; GFX9-NEXT: s_mul_i32 s2, s13, s0
	; GFX9-NEXT: v_subrev_co_u32_e64 v5, s[0:1], s12, v1			; GFX9-NEXT: s_mul_i32 s0, s12, s0
	; GFX9-NEXT: v_subbrev_co_u32_e64 v6, s[2:3], 0, v3, s[0:1]			; GFX9-NEXT: s_add_i32 s15, s1, s2
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v6			; GFX9-NEXT: v_mov_b32_e32 v0, s0
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[2:3]			; GFX9-NEXT: s_sub_i32 s1, s5, s15
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v5			; GFX9-NEXT: v_sub_co_u32_e32 v0, vcc, s4, v0
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[2:3]			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s13, v6			; GFX9-NEXT: s_subb_u32 s4, s1, s13
	; GFX9-NEXT: v_cndmask_b32_e64 v7, v7, v8, s[2:3]			; GFX9-NEXT: v_subrev_co_u32_e64 v1, s[0:1], s12, v0
	; GFX9-NEXT: s_ashr_i32 s2, s11, 31			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_subb_co_u32_e64 v3, s[0:1], v3, v4, s[0:1]			; GFX9-NEXT: s_subb_u32 s16, s4, 0
	; GFX9-NEXT: s_add_u32 s10, s10, s2			; GFX9-NEXT: s_cmp_ge_u32 s16, s13
	; GFX9-NEXT: v_subrev_co_u32_e64 v4, s[0:1], s12, v5			; GFX9-NEXT: s_cselect_b32 s17, -1, 0
	; GFX9-NEXT: s_mov_b32 s3, s2			; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s12, v1
	; GFX9-NEXT: s_addc_u32 s11, s11, s2			; GFX9-NEXT: s_cmp_eq_u32 s16, s13
	; GFX9-NEXT: v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v2, 0, -1, s[2:3]
	; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[2:3]			; GFX9-NEXT: v_mov_b32_e32 v3, s17
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s10			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s11			; GFX9-NEXT: v_cndmask_b32_e64 v2, v3, v2, s[2:3]
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]			; GFX9-NEXT: s_subb_u32 s2, s4, s13
	; GFX9-NEXT: v_mov_b32_e32 v6, s15			; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s12, v1
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v6, v2, vcc			; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v2			; GFX9-NEXT: s_subb_u32 s0, s2, 0
	; GFX9-NEXT: v_mac_f32_e32 v7, 0x4f800000, v8			; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: s_subb_u32 s2, s5, s15
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v1			; GFX9-NEXT: s_cmp_ge_u32 s2, s13
	; GFX9-NEXT: v_rcp_f32_e32 v7, v7			; GFX9-NEXT: v_mov_b32_e32 v5, s16
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; GFX9-NEXT: v_mov_b32_e32 v6, s0
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc			; GFX9-NEXT: s_cselect_b32 s3, -1, 0
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v0
				; GFX9-NEXT: s_cmp_eq_u32 s2, s13
				; GFX9-NEXT: v_cndmask_b32_e64 v2, v5, v6, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v6, s3
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
				; GFX9-NEXT: s_ashr_i32 s0, s11, 31
				; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
				; GFX9-NEXT: v_mov_b32_e32 v6, s2
				; GFX9-NEXT: s_add_u32 s2, s10, s0
				; GFX9-NEXT: s_mov_b32 s1, s0
				; GFX9-NEXT: s_addc_u32 s3, s11, s0
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
				; GFX9-NEXT: s_xor_b64 s[4:5], s[2:3], s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s4
				; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s5
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
				; GFX9-NEXT: v_xor_b32_e32 v0, s14, v0
				; GFX9-NEXT: v_xor_b32_e32 v2, s14, v2
				; GFX9-NEXT: v_mac_f32_e32 v1, 0x4f800000, v3
				; GFX9-NEXT: v_rcp_f32_e32 v3, v1
				; GFX9-NEXT: v_mov_b32_e32 v5, s14
				; GFX9-NEXT: v_subrev_co_u32_e32 v0, vcc, s14, v0
				; GFX9-NEXT: v_subb_co_u32_e32 v1, vcc, v2, v5, vcc
				; GFX9-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v3
				; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
				; GFX9-NEXT: v_trunc_f32_e32 v3, v3
				; GFX9-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
				; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
				; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
				; GFX9-NEXT: s_sub_u32 s0, 0, s4
				; GFX9-NEXT: s_subb_u32 s1, 0, s5
				; GFX9-NEXT: v_readfirstlane_b32 s2, v2
				; GFX9-NEXT: v_readfirstlane_b32 s11, v3
				; GFX9-NEXT: s_mul_hi_u32 s10, s0, s2
				; GFX9-NEXT: s_mul_i32 s12, s0, s11
				; GFX9-NEXT: s_mul_i32 s3, s1, s2
				; GFX9-NEXT: s_add_i32 s10, s10, s12
				; GFX9-NEXT: s_add_i32 s10, s10, s3
				; GFX9-NEXT: s_mul_i32 s13, s0, s2
				; GFX9-NEXT: s_mul_hi_u32 s3, s2, s10
				; GFX9-NEXT: s_mul_i32 s12, s2, s10
				; GFX9-NEXT: s_mul_hi_u32 s2, s2, s13
				; GFX9-NEXT: s_add_u32 s2, s2, s12
				; GFX9-NEXT: s_addc_u32 s3, 0, s3
				; GFX9-NEXT: s_mul_hi_u32 s14, s11, s13
				; GFX9-NEXT: s_mul_i32 s13, s11, s13
				; GFX9-NEXT: s_add_u32 s2, s2, s13
				; GFX9-NEXT: s_mul_hi_u32 s12, s11, s10
				; GFX9-NEXT: s_addc_u32 s2, s3, s14
				; GFX9-NEXT: s_addc_u32 s3, s12, 0
				; GFX9-NEXT: s_mul_i32 s10, s11, s10
				; GFX9-NEXT: s_add_u32 s2, s2, s10
				; GFX9-NEXT: s_addc_u32 s3, 0, s3
				; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s2, v2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s2, s11, s3
				; GFX9-NEXT: v_readfirstlane_b32 s10, v2
				; GFX9-NEXT: s_mul_i32 s3, s0, s2
				; GFX9-NEXT: s_mul_hi_u32 s11, s0, s10
				; GFX9-NEXT: s_add_i32 s3, s11, s3
				; GFX9-NEXT: s_mul_i32 s1, s1, s10
				; GFX9-NEXT: s_add_i32 s3, s3, s1
				; GFX9-NEXT: s_mul_i32 s0, s0, s10
				; GFX9-NEXT: s_mul_hi_u32 s11, s2, s0
				; GFX9-NEXT: s_mul_i32 s12, s2, s0
				; GFX9-NEXT: s_mul_i32 s14, s10, s3
				; GFX9-NEXT: s_mul_hi_u32 s0, s10, s0
				; GFX9-NEXT: s_mul_hi_u32 s13, s10, s3
				; GFX9-NEXT: s_add_u32 s0, s0, s14
				; GFX9-NEXT: s_addc_u32 s10, 0, s13
				; GFX9-NEXT: s_add_u32 s0, s0, s12
				; GFX9-NEXT: s_mul_hi_u32 s1, s2, s3
				; GFX9-NEXT: s_addc_u32 s0, s10, s11
				; GFX9-NEXT: s_addc_u32 s1, s1, 0
				; GFX9-NEXT: s_mul_i32 s3, s2, s3
				; GFX9-NEXT: s_add_u32 s0, s0, s3
				; GFX9-NEXT: s_addc_u32 s1, 0, s1
				; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, s0, v2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_addc_u32 s2, s2, s1
				; GFX9-NEXT: s_ashr_i32 s10, s7, 31
				; GFX9-NEXT: s_add_u32 s0, s6, s10
				; GFX9-NEXT: s_mov_b32 s11, s10
				; GFX9-NEXT: s_addc_u32 s1, s7, s10
				; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[10:11]
				; GFX9-NEXT: v_readfirstlane_b32 s3, v2
				; GFX9-NEXT: s_mul_i32 s1, s6, s2
				; GFX9-NEXT: s_mul_hi_u32 s11, s6, s3
				; GFX9-NEXT: s_mul_hi_u32 s0, s6, s2
				; GFX9-NEXT: s_add_u32 s1, s11, s1
				; GFX9-NEXT: s_addc_u32 s0, 0, s0
				; GFX9-NEXT: s_mul_hi_u32 s12, s7, s3
				; GFX9-NEXT: s_mul_i32 s3, s7, s3
				; GFX9-NEXT: s_add_u32 s1, s1, s3
				; GFX9-NEXT: s_mul_hi_u32 s11, s7, s2
				; GFX9-NEXT: s_addc_u32 s0, s0, s12
				; GFX9-NEXT: s_addc_u32 s1, s11, 0
				; GFX9-NEXT: s_mul_i32 s2, s7, s2
				; GFX9-NEXT: s_add_u32 s0, s0, s2
				; GFX9-NEXT: s_addc_u32 s1, 0, s1
				; GFX9-NEXT: s_mul_i32 s1, s4, s1
				; GFX9-NEXT: s_mul_hi_u32 s2, s4, s0
				; GFX9-NEXT: s_add_i32 s1, s2, s1
				; GFX9-NEXT: s_mul_i32 s2, s5, s0
				; GFX9-NEXT: s_mul_i32 s0, s4, s0
				; GFX9-NEXT: s_add_i32 s11, s1, s2
				; GFX9-NEXT: v_mov_b32_e32 v2, s0
				; GFX9-NEXT: s_sub_i32 s1, s7, s11
				; GFX9-NEXT: v_sub_co_u32_e32 v2, vcc, s6, v2
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_subb_u32 s6, s1, s5
				; GFX9-NEXT: v_subrev_co_u32_e64 v3, s[0:1], s4, v2
				; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX9-NEXT: s_subb_u32 s12, s6, 0
				; GFX9-NEXT: s_cmp_ge_u32 s12, s5
				; GFX9-NEXT: s_cselect_b32 s13, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s4, v3
				; GFX9-NEXT: s_cmp_eq_u32 s12, s5
				; GFX9-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[2:3]
				; GFX9-NEXT: v_mov_b32_e32 v6, s13
				; GFX9-NEXT: s_cselect_b64 s[2:3], -1, 0
				; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v6, v5, s[2:3]
				; GFX9-NEXT: s_subb_u32 s2, s6, s5
				; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s4, v3
				; GFX9-NEXT: s_cmp_lg_u64 s[0:1], 0
				; GFX9-NEXT: s_subb_u32 s0, s2, 0
				; GFX9-NEXT: s_cmp_lg_u64 vcc, 0
				; GFX9-NEXT: s_subb_u32 s2, s7, s11
				; GFX9-NEXT: s_cmp_ge_u32 s2, s5
				; GFX9-NEXT: v_mov_b32_e32 v7, s12
				; GFX9-NEXT: v_mov_b32_e32 v8, s0
				; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v5
				; GFX9-NEXT: s_cselect_b32 s3, -1, 0
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
				; GFX9-NEXT: s_cmp_eq_u32 s2, s5
				; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v8, s[0:1]
				; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
				; GFX9-NEXT: v_mov_b32_e32 v8, s3
				; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
				; GFX9-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
				; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
				; GFX9-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v8, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v7			; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
	; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4			; GFX9-NEXT: v_xor_b32_e32 v3, s10, v5
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_mov_b32_e32 v5, s10
	; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5			; GFX9-NEXT: v_subrev_co_u32_e32 v2, vcc, s10, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v3, v5, vcc
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: s_sub_u32 s0, 0, s10
	; GFX9-NEXT: s_subb_u32 s1, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, s0, v4
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v7
	; GFX9-NEXT: v_add_u32_e32 v6, v6, v8
	; GFX9-NEXT: v_mul_lo_u32 v7, v4, v6
	; GFX9-NEXT: v_mul_hi_u32 v8, v4, v3
	; GFX9-NEXT: v_mul_hi_u32 v9, v4, v6
	; GFX9-NEXT: v_mul_hi_u32 v10, v5, v6
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v8, v7
	; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
	; GFX9-NEXT: v_mul_lo_u32 v9, v5, v3
	; GFX9-NEXT: v_mul_hi_u32 v3, v5, v3
	; GFX9-NEXT: s_ashr_i32 s12, s7, 31
	; GFX9-NEXT: s_mov_b32 s13, s12
	; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, 0, v10, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v7, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v4, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v5, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v3
	; GFX9-NEXT: v_mul_lo_u32 v7, s1, v3
	; GFX9-NEXT: v_mul_lo_u32 v8, s0, v3
	; GFX9-NEXT: s_add_u32 s0, s6, s12
	; GFX9-NEXT: v_add_u32_e32 v5, v6, v5
	; GFX9-NEXT: v_add_u32_e32 v5, v5, v7
	; GFX9-NEXT: v_mul_lo_u32 v9, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v10, v3, v8
	; GFX9-NEXT: v_mul_hi_u32 v11, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v7, v4, v8
	; GFX9-NEXT: v_mul_lo_u32 v8, v4, v8
	; GFX9-NEXT: v_mul_hi_u32 v6, v4, v5
	; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9
	; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, 0, v11, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v4, v5
	; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v10, v7, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v7, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: s_addc_u32 s1, s7, s12
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, v4, v6, vcc
	; GFX9-NEXT: s_xor_b64 s[6:7], s[0:1], s[12:13]
	; GFX9-NEXT: v_mul_lo_u32 v5, s6, v4
	; GFX9-NEXT: v_mul_hi_u32 v6, s6, v3
	; GFX9-NEXT: v_mul_hi_u32 v8, s6, v4
	; GFX9-NEXT: v_mul_hi_u32 v9, s7, v4
	; GFX9-NEXT: v_mul_lo_u32 v4, s7, v4
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v6, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v8, vcc
	; GFX9-NEXT: v_mul_lo_u32 v8, s7, v3
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX9-NEXT: v_xor_b32_e32 v1, s8, v1
	; GFX9-NEXT: v_xor_b32_e32 v2, s8, v2
	; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v8
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v6, v3, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v9, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
	; GFX9-NEXT: v_mul_lo_u32 v4, s10, v4
	; GFX9-NEXT: v_mul_hi_u32 v5, s10, v3
	; GFX9-NEXT: v_mul_lo_u32 v6, s11, v3
	; GFX9-NEXT: v_mul_lo_u32 v3, s10, v3
	; GFX9-NEXT: v_mov_b32_e32 v7, s8
	; GFX9-NEXT: v_subrev_co_u32_e32 v1, vcc, s8, v1
	; GFX9-NEXT: v_add_u32_e32 v4, v5, v4
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, v4, v6
	; GFX9-NEXT: v_sub_u32_e32 v5, s7, v4
	; GFX9-NEXT: v_mov_b32_e32 v6, s11
	; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, s6, v3
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, vcc
	; GFX9-NEXT: v_subrev_co_u32_e64 v7, s[0:1], s10, v3
	; GFX9-NEXT: v_subbrev_co_u32_e64 v8, s[2:3], 0, v5, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s11, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_le_u32_e64 s[2:3], s10, v7
	; GFX9-NEXT: v_subb_co_u32_e64 v5, s[0:1], v5, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e64 v10, 0, -1, s[2:3]
	; GFX9-NEXT: v_cmp_eq_u32_e64 s[2:3], s11, v8
	; GFX9-NEXT: v_subrev_co_u32_e64 v6, s[0:1], s10, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v9, v9, v10, s[2:3]
	; GFX9-NEXT: v_subbrev_co_u32_e64 v5, s[0:1], 0, v5, s[0:1]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v9
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v8, v5, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v8, s7
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v8, v4, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s11, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v8, v9, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v5, v7, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_xor_b32_e32 v3, s12, v3
	; GFX9-NEXT: v_xor_b32_e32 v4, s12, v4
	; GFX9-NEXT: v_mov_b32_e32 v5, s12
	; GFX9-NEXT: v_subrev_co_u32_e32 v3, vcc, s12, v3
	; GFX9-NEXT: v_subb_co_u32_e32 v4, vcc, v4, v5, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v0, v[1:4], s[4:5]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[8:9]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y			%shl.y = shl <2 x i64> <i64 4096, i64 4096>, %y
	%r = srem <2 x i64> %x, %shl.y			%r = srem <2 x i64> %x, %shl.y
	store <2 x i64> %r, <2 x i64> addrspace(1)* %out			store <2 x i64> %r, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/cf-loop-on-constant.ll

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -verify-machineinstrs -O0 < %s			; RUN: llc -march=amdgcn -verify-machineinstrs -O0 < %s \| FileCheck -check-prefix=GCN_DBG %s

	; GCN-LABEL: {{^}}test_loop:
	; GCN: s_and_b64 s[0:1], exec, -1
	; GCN: [[LABEL:.LBB[0-9]+_[0-9]+]]: ; %for.body{{$}}
	; GCN: ds_read_b32
	; GCN: ds_write_b32
	; GCN: s_cbranch_vccnz [[LABEL]]
	; GCN: s_endpgm
	define amdgpu_kernel void @test_loop(float addrspace(3)* %ptr, i32 %n) nounwind {			define amdgpu_kernel void @test_loop(float addrspace(3)* %ptr, i32 %n) nounwind {
				; GCN-LABEL: test_loop:
				; GCN: ; %bb.0: ; %entry
				; GCN-NEXT: s_load_dword s2, s[0:1], 0xa
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_cmp_eq_u32 s2, -1
				; GCN-NEXT: s_cbranch_scc1 .LBB0_3
				; GCN-NEXT: ; %bb.1: ; %for.body.preheader
				; GCN-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_addk_i32 s0, 0x80
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: s_and_b64 s[0:1], exec, -1
				; GCN-NEXT: s_mov_b32 m0, -1
				; GCN-NEXT: .LBB0_2: ; %for.body
				; GCN-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: ds_read_b32 v1, v0
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_add_f32_e32 v1, 1.0, v1
				; GCN-NEXT: ds_write_b32 v0, v1
				; GCN-NEXT: v_add_i32_e32 v0, vcc, 4, v0
				; GCN-NEXT: s_mov_b64 vcc, s[0:1]
				; GCN-NEXT: s_cbranch_vccnz .LBB0_2
				; GCN-NEXT: .LBB0_3: ; %for.exit
				; GCN-NEXT: s_endpgm
				;
				; GCN_DBG-LABEL: test_loop:
				; GCN_DBG: ; %bb.0: ; %entry
				; GCN_DBG-NEXT: s_load_dword s2, s[0:1], 0x9
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_writelane_b32 v2, s2, 0
				; GCN_DBG-NEXT: s_load_dword s1, s[0:1], 0xa
				; GCN_DBG-NEXT: s_mov_b32 s0, 0
				; GCN_DBG-NEXT: s_mov_b32 s2, -1
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: s_cmp_lg_u32 s1, s2
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_cbranch_scc1 .LBB0_2
				; GCN_DBG-NEXT: ; %bb.1: ; %for.exit
				; GCN_DBG-NEXT: s_endpgm
				; GCN_DBG-NEXT: .LBB0_2: ; %for.body
				; GCN_DBG-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN_DBG-NEXT: v_readlane_b32 s0, v2, 1
				; GCN_DBG-NEXT: v_readlane_b32 s2, v2, 0
				; GCN_DBG-NEXT: s_mov_b32 s1, 2
				; GCN_DBG-NEXT: s_lshl_b32 s1, s0, s1
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 s2, 0x80
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_read_b32 v0, v0
				; GCN_DBG-NEXT: s_mov_b32 s2, 1.0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_add_f32_e64 v1, v0, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_write_b32 v0, v1
				; GCN_DBG-NEXT: s_mov_b32 s1, 1
				; GCN_DBG-NEXT: s_add_i32 s0, s0, s1
				; GCN_DBG-NEXT: s_mov_b64 s[2:3], -1
				; GCN_DBG-NEXT: s_and_b64 vcc, exec, s[2:3]
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_cbranch_vccnz .LBB0_2
				; GCN_DBG-NEXT: ; %bb.3: ; %DummyReturnBlock
				; GCN_DBG-NEXT: s_endpgm
	entry:			entry:
	%cmp = icmp eq i32 %n, -1			%cmp = icmp eq i32 %n, -1
	br i1 %cmp, label %for.exit, label %for.body			br i1 %cmp, label %for.exit, label %for.body

	for.exit:			for.exit:
	ret void			ret void

	for.body:			for.body:
	%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]			%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]
	%tmp = add i32 %indvar, 32			%tmp = add i32 %indvar, 32
	%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp			%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp
	%vecload = load float, float addrspace(3)* %arrayidx, align 4			%vecload = load float, float addrspace(3)* %arrayidx, align 4
	%add = fadd float %vecload, 1.0			%add = fadd float %vecload, 1.0
	store float %add, float addrspace(3)* %arrayidx, align 8			store float %add, float addrspace(3)* %arrayidx, align 8
	%inc = add i32 %indvar, 1			%inc = add i32 %indvar, 1
	br label %for.body			br label %for.body
	}			}

	; GCN-LABEL: @loop_const_true
	; GCN: [[LABEL:.LBB[0-9]+_[0-9]+]]:
	; GCN: ds_read_b32
	; GCN: ds_write_b32
	; GCN: s_branch [[LABEL]]
	define amdgpu_kernel void @loop_const_true(float addrspace(3)* %ptr, i32 %n) nounwind {			define amdgpu_kernel void @loop_const_true(float addrspace(3)* %ptr, i32 %n) nounwind {
				; GCN-LABEL: loop_const_true:
				; GCN: ; %bb.0: ; %entry
				; GCN-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_addk_i32 s0, 0x80
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: s_mov_b32 m0, -1
				; GCN-NEXT: .LBB1_1: ; %for.body
				; GCN-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: ds_read_b32 v1, v0
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_add_f32_e32 v1, 1.0, v1
				; GCN-NEXT: ds_write_b32 v0, v1
				; GCN-NEXT: v_add_i32_e32 v0, vcc, 4, v0
				; GCN-NEXT: s_branch .LBB1_1
				;
				; GCN_DBG-LABEL: loop_const_true:
				; GCN_DBG: ; %bb.0: ; %entry
				; GCN_DBG-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 0
				; GCN_DBG-NEXT: s_mov_b32 s0, 0
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_branch .LBB1_2
				; GCN_DBG-NEXT: .LBB1_1: ; %for.exit
				; GCN_DBG-NEXT: s_endpgm
				; GCN_DBG-NEXT: .LBB1_2: ; %for.body
				; GCN_DBG-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN_DBG-NEXT: v_readlane_b32 s0, v2, 1
				; GCN_DBG-NEXT: v_readlane_b32 s2, v2, 0
				; GCN_DBG-NEXT: s_mov_b32 s1, 2
				; GCN_DBG-NEXT: s_lshl_b32 s1, s0, s1
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 s2, 0x80
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_read_b32 v0, v0
				; GCN_DBG-NEXT: s_mov_b32 s2, 1.0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_add_f32_e64 v1, v0, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_write_b32 v0, v1
				; GCN_DBG-NEXT: s_mov_b32 s1, 1
				; GCN_DBG-NEXT: s_add_i32 s0, s0, s1
				; GCN_DBG-NEXT: s_mov_b64 s[2:3], 0
				; GCN_DBG-NEXT: s_and_b64 vcc, exec, s[2:3]
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_cbranch_vccnz .LBB1_1
				; GCN_DBG-NEXT: s_branch .LBB1_2
	entry:			entry:
	br label %for.body			br label %for.body

	for.exit:			for.exit:
	ret void			ret void

	for.body:			for.body:
	%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]			%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]
	%tmp = add i32 %indvar, 32			%tmp = add i32 %indvar, 32
	%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp			%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp
	%vecload = load float, float addrspace(3)* %arrayidx, align 4			%vecload = load float, float addrspace(3)* %arrayidx, align 4
	%add = fadd float %vecload, 1.0			%add = fadd float %vecload, 1.0
	store float %add, float addrspace(3)* %arrayidx, align 8			store float %add, float addrspace(3)* %arrayidx, align 8
	%inc = add i32 %indvar, 1			%inc = add i32 %indvar, 1
	br i1 true, label %for.body, label %for.exit			br i1 true, label %for.body, label %for.exit
	}			}

	; GCN-LABEL: {{^}}loop_const_false:
	; GCN-NOT: s_branch
	; GCN: s_endpgm
	define amdgpu_kernel void @loop_const_false(float addrspace(3)* %ptr, i32 %n) nounwind {			define amdgpu_kernel void @loop_const_false(float addrspace(3)* %ptr, i32 %n) nounwind {
				; GCN-LABEL: loop_const_false:
				; GCN: ; %bb.0: ; %entry
				; GCN-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: s_mov_b32 m0, -1
				; GCN-NEXT: ds_read_b32 v1, v0 offset:128
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_add_f32_e32 v1, 1.0, v1
				; GCN-NEXT: ds_write_b32 v0, v1 offset:128
				; GCN-NEXT: s_endpgm
				;
				; GCN_DBG-LABEL: loop_const_false:
				; GCN_DBG: ; %bb.0: ; %entry
				; GCN_DBG-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 0
				; GCN_DBG-NEXT: s_mov_b32 s0, 0
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_branch .LBB2_2
				; GCN_DBG-NEXT: .LBB2_1: ; %for.exit
				; GCN_DBG-NEXT: s_endpgm
				; GCN_DBG-NEXT: .LBB2_2: ; %for.body
				; GCN_DBG-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN_DBG-NEXT: v_readlane_b32 s0, v2, 1
				; GCN_DBG-NEXT: v_readlane_b32 s2, v2, 0
				; GCN_DBG-NEXT: s_mov_b32 s1, 2
				; GCN_DBG-NEXT: s_lshl_b32 s1, s0, s1
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 s2, 0x80
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_read_b32 v0, v0
				; GCN_DBG-NEXT: s_mov_b32 s2, 1.0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_add_f32_e64 v1, v0, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_write_b32 v0, v1
				; GCN_DBG-NEXT: s_mov_b32 s1, 1
				; GCN_DBG-NEXT: s_add_i32 s0, s0, s1
				; GCN_DBG-NEXT: s_mov_b64 s[2:3], -1
				; GCN_DBG-NEXT: s_and_b64 vcc, exec, s[2:3]
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_cbranch_vccnz .LBB2_1
				; GCN_DBG-NEXT: s_branch .LBB2_2
	entry:			entry:
	br label %for.body			br label %for.body

	for.exit:			for.exit:
	ret void			ret void

	; XXX - Should there be an S_ENDPGM?			; XXX - Should there be an S_ENDPGM?
	for.body:			for.body:
	%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]			%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]
	%tmp = add i32 %indvar, 32			%tmp = add i32 %indvar, 32
	%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp			%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp
	%vecload = load float, float addrspace(3)* %arrayidx, align 4			%vecload = load float, float addrspace(3)* %arrayidx, align 4
	%add = fadd float %vecload, 1.0			%add = fadd float %vecload, 1.0
	store float %add, float addrspace(3)* %arrayidx, align 8			store float %add, float addrspace(3)* %arrayidx, align 8
	%inc = add i32 %indvar, 1			%inc = add i32 %indvar, 1
	br i1 false, label %for.body, label %for.exit			br i1 false, label %for.body, label %for.exit
	}			}

	; GCN-LABEL: {{^}}loop_const_undef:
	; GCN-NOT: s_branch
	; GCN: s_endpgm
	define amdgpu_kernel void @loop_const_undef(float addrspace(3)* %ptr, i32 %n) nounwind {			define amdgpu_kernel void @loop_const_undef(float addrspace(3)* %ptr, i32 %n) nounwind {
				; GCN-LABEL: loop_const_undef:
				; GCN: ; %bb.0: ; %entry
				; GCN-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_mov_b32_e32 v0, s0
				; GCN-NEXT: s_mov_b32 m0, -1
				; GCN-NEXT: ds_read_b32 v1, v0 offset:128
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_add_f32_e32 v1, 1.0, v1
				; GCN-NEXT: ds_write_b32 v0, v1 offset:128
				; GCN-NEXT: s_endpgm
				;
				; GCN_DBG-LABEL: loop_const_undef:
				; GCN_DBG: ; %bb.0: ; %entry
				; GCN_DBG-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 0
				; GCN_DBG-NEXT: s_mov_b32 s0, 0
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_branch .LBB3_2
				; GCN_DBG-NEXT: .LBB3_1: ; %for.exit
				; GCN_DBG-NEXT: s_endpgm
				; GCN_DBG-NEXT: .LBB3_2: ; %for.body
				; GCN_DBG-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN_DBG-NEXT: v_readlane_b32 s0, v2, 1
				; GCN_DBG-NEXT: v_readlane_b32 s2, v2, 0
				; GCN_DBG-NEXT: s_mov_b32 s1, 2
				; GCN_DBG-NEXT: s_lshl_b32 s1, s0, s1
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 s2, 0x80
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_read_b32 v0, v0
				; GCN_DBG-NEXT: s_mov_b32 s2, 1.0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_add_f32_e64 v1, v0, s2
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_write_b32 v0, v1
				; GCN_DBG-NEXT: s_mov_b32 s1, 1
				; GCN_DBG-NEXT: s_add_i32 s0, s0, s1
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: s_cbranch_scc1 .LBB3_1
				; GCN_DBG-NEXT: s_branch .LBB3_2
	entry:			entry:
	br label %for.body			br label %for.body

	for.exit:			for.exit:
	ret void			ret void

	; XXX - Should there be an s_endpgm?			; XXX - Should there be an s_endpgm?
	for.body:			for.body:
	%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]			%indvar = phi i32 [ %inc, %for.body ], [ 0, %entry ]
	%tmp = add i32 %indvar, 32			%tmp = add i32 %indvar, 32
	%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp			%arrayidx = getelementptr float, float addrspace(3)* %ptr, i32 %tmp
	%vecload = load float, float addrspace(3)* %arrayidx, align 4			%vecload = load float, float addrspace(3)* %arrayidx, align 4
	%add = fadd float %vecload, 1.0			%add = fadd float %vecload, 1.0
	store float %add, float addrspace(3)* %arrayidx, align 8			store float %add, float addrspace(3)* %arrayidx, align 8
	%inc = add i32 %indvar, 1			%inc = add i32 %indvar, 1
	br i1 undef, label %for.body, label %for.exit			br i1 undef, label %for.body, label %for.exit
	}			}

	; GCN-LABEL: {{^}}loop_arg_0:
	; GCN: v_and_b32_e32 v{{[0-9]+}}, 1, v{{[0-9]+}}
	; GCN: v_cmp_eq_u32{{[^,]*}}, 1,
	; GCN: s_add_i32 s2, s0, 0x80

	; GCN: [[LOOPBB:.LBB[0-9]+_[0-9]+]]
	; GCN: _add_i32_e32 v0, vcc, 4, v0

	; GCN: s_cbranch_{{vccz\|vccnz}} [[LOOPBB]]
	; GCN-NEXT: ; %bb.2
	; GCN-NEXT: s_endpgm
	define amdgpu_kernel void @loop_arg_0(float addrspace(3)* %ptr, i32 %n) nounwind {			define amdgpu_kernel void @loop_arg_0(float addrspace(3)* %ptr, i32 %n) nounwind {
				; GCN-LABEL: loop_arg_0:
				; GCN: ; %bb.0: ; %entry
				; GCN-NEXT: v_mov_b32_e32 v0, 0
				; GCN-NEXT: s_mov_b32 m0, -1
				; GCN-NEXT: ds_read_u8 v0, v0
				; GCN-NEXT: s_load_dword s2, s[0:1], 0x9
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_readfirstlane_b32 s0, v0
				; GCN-NEXT: s_bitcmp1_b32 s0, 0
				; GCN-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GCN-NEXT: s_addk_i32 s2, 0x80
				; GCN-NEXT: s_xor_b64 s[0:1], s[0:1], -1
				; GCN-NEXT: v_mov_b32_e32 v0, s2
				; GCN-NEXT: s_and_b64 s[0:1], exec, s[0:1]
				; GCN-NEXT: .LBB4_1: ; %for.body
				; GCN-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN-NEXT: ds_read_b32 v1, v0
				; GCN-NEXT: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: v_add_f32_e32 v1, 1.0, v1
				; GCN-NEXT: ds_write_b32 v0, v1
				; GCN-NEXT: v_add_i32_e32 v0, vcc, 4, v0
				; GCN-NEXT: s_mov_b64 vcc, s[0:1]
				; GCN-NEXT: s_cbranch_vccz .LBB4_1
				; GCN-NEXT: ; %bb.2: ; %for.exit
				; GCN-NEXT: s_endpgm
				;
				; GCN_DBG-LABEL: loop_arg_0:
				; GCN_DBG: ; %bb.0: ; %entry
				; GCN_DBG-NEXT: s_load_dword s0, s[0:1], 0x9
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 0
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, 0
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: ds_read_u8 v0, v0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_readfirstlane_b32 s0, v0
				; GCN_DBG-NEXT: s_and_b32 s0, 1, s0
				; GCN_DBG-NEXT: s_cmp_eq_u32 s0, 1
				; GCN_DBG-NEXT: s_cselect_b64 s[0:1], -1, 0
				; GCN_DBG-NEXT: s_mov_b64 s[2:3], -1
				; GCN_DBG-NEXT: s_xor_b64 s[0:1], s[0:1], s[2:3]
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 1
				; GCN_DBG-NEXT: v_writelane_b32 v2, s1, 2
				; GCN_DBG-NEXT: s_mov_b32 s0, 0
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 3
				; GCN_DBG-NEXT: s_branch .LBB4_2
				; GCN_DBG-NEXT: .LBB4_1: ; %for.exit
				; GCN_DBG-NEXT: s_endpgm
				; GCN_DBG-NEXT: .LBB4_2: ; %for.body
				; GCN_DBG-NEXT: ; =>This Inner Loop Header: Depth=1
				; GCN_DBG-NEXT: v_readlane_b32 s0, v2, 3
				; GCN_DBG-NEXT: v_readlane_b32 s2, v2, 1
				; GCN_DBG-NEXT: v_readlane_b32 s3, v2, 2
				; GCN_DBG-NEXT: v_readlane_b32 s4, v2, 0
				; GCN_DBG-NEXT: s_mov_b32 s1, 2
				; GCN_DBG-NEXT: s_lshl_b32 s1, s0, s1
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s4
				; GCN_DBG-NEXT: s_mov_b32 s4, 0x80
				; GCN_DBG-NEXT: s_add_i32 s1, s1, s4
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_read_b32 v0, v0
				; GCN_DBG-NEXT: s_mov_b32 s4, 1.0
				; GCN_DBG-NEXT: s_waitcnt lgkmcnt(0)
				; GCN_DBG-NEXT: v_add_f32_e64 v1, v0, s4
				; GCN_DBG-NEXT: s_mov_b32 m0, -1
				; GCN_DBG-NEXT: v_mov_b32_e32 v0, s1
				; GCN_DBG-NEXT: ds_write_b32 v0, v1
				; GCN_DBG-NEXT: s_mov_b32 s1, 1
				; GCN_DBG-NEXT: s_add_i32 s0, s0, s1
				; GCN_DBG-NEXT: s_and_b64 vcc, exec, s[2:3]
				; GCN_DBG-NEXT: v_writelane_b32 v2, s0, 3
				; GCN_DBG-NEXT: s_cbranch_vccnz .LBB4_1
				; GCN_DBG-NEXT: s_branch .LBB4_2
	entry:			entry:
	%cond = load volatile i1, i1 addrspace(3)* null			%cond = load volatile i1, i1 addrspace(3)* null
	br label %for.body			br label %for.body

	for.exit:			for.exit:
	ret void			ret void

	for.body:			for.body:
	Show All 9 Lines

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX9 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX9 %s
; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX10 %s		; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX10 %s
; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX11 %s		; RUN: llc -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GFX11 %s

define amdgpu_kernel void @udiv32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {		define amdgpu_kernel void @udiv32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {
; GFX9-LABEL: udiv32_invariant_denom:		; GFX9-LABEL: udiv32_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX9-NEXT: s_mov_b64 s[2:3], 0		; GFX9-NEXT: s_mov_b64 s[2:3], 0
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4
; GFX9-NEXT: s_sub_i32 s5, 0, s4		; GFX9-NEXT: s_sub_i32 s5, 0, s4
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s5, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: .LBB0_1: ; %bb3		; GFX9-NEXT: .LBB0_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_mul_lo_u32 v2, s3, v0		; GFX9-NEXT: v_readfirstlane_b32 s6, v0
; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX9-NEXT: v_mul_lo_u32 v3, s5, v2		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: v_not_b32_e32 v5, v2		; GFX9-NEXT: s_mul_i32 s7, s3, s6
; GFX9-NEXT: v_mul_lo_u32 v5, s4, v5		; GFX9-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX9-NEXT: v_add_u32_e32 v4, 1, v2		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: v_add_u32_e32 v3, s2, v3		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3		; GFX9-NEXT: s_add_i32 s7, s2, s7
		; GFX9-NEXT: s_cmp_ge_u32 s7, s4
		; GFX9-NEXT: v_mov_b32_e32 v2, s6
		; GFX9-NEXT: v_mov_b32_e32 v3, s7
		; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
		; GFX9-NEXT: s_add_i32 s7, s6, 1
		; GFX9-NEXT: s_not_b32 s6, s6
		; GFX9-NEXT: s_mul_i32 s6, s4, s6
		; GFX9-NEXT: v_mov_b32_e32 v4, s7
		; GFX9-NEXT: s_add_i32 s6, s2, s6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, s2, v5		; GFX9-NEXT: v_mov_b32_e32 v4, s6
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
		; GFX9-NEXT: v_add_u32_e32 v5, 1, v2
; GFX9-NEXT: s_add_u32 s2, s2, 1		; GFX9-NEXT: s_add_u32 s2, s2, 1
; GFX9-NEXT: v_add_u32_e32 v4, 1, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3
; GFX9-NEXT: s_addc_u32 s3, s3, 0		; GFX9-NEXT: s_addc_u32 s3, s3, 0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX9-NEXT: global_store_dword v1, v2, s[0:1]		; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
; GFX9-NEXT: s_add_u32 s0, s0, 4		; GFX9-NEXT: s_add_u32 s0, s0, 4
; GFX9-NEXT: s_addc_u32 s1, s1, 0		; GFX9-NEXT: s_addc_u32 s1, s1, 0
; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB0_1		; GFX9-NEXT: s_cbranch_scc0 .LBB0_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udiv32_invariant_denom:		; GFX10-LABEL: udiv32_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX10-NEXT: s_mov_b64 s[2:3], 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX10-NEXT: s_mov_b64 s[2:3], 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s4		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s4
; GFX10-NEXT: s_sub_i32 s5, 0, s4		; GFX10-NEXT: s_sub_i32 s5, 0, s4
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s5, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: .LBB0_1: ; %bb3		; GFX10-NEXT: .LBB0_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_mul_lo_u32 v2, s3, v0		; GFX10-NEXT: v_readfirstlane_b32 s6, v0
; GFX10-NEXT: v_mul_hi_u32 v3, s2, v0		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: v_add_nc_u32_e32 v2, v3, v2		; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX10-NEXT: v_not_b32_e32 v3, v2		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: v_mul_lo_u32 v4, s5, v2		; GFX10-NEXT: s_mul_i32 s7, s3, s6
; GFX10-NEXT: v_add_nc_u32_e32 v5, 1, v2		; GFX10-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX10-NEXT: v_mul_lo_u32 v3, s4, v3		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: v_add_nc_u32_e32 v4, s2, v4		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: v_add_nc_u32_e32 v3, s2, v3		; GFX10-NEXT: s_add_i32 s7, s2, s7
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v4		; GFX10-NEXT: s_cmp_ge_u32 s7, s4
		; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0
		; GFX10-NEXT: s_add_i32 s8, s6, 1
		; GFX10-NEXT: s_not_b32 s9, s6
		; GFX10-NEXT: v_mov_b32_e32 v2, s8
		; GFX10-NEXT: s_mul_i32 s8, s4, s9
		; GFX10-NEXT: s_add_i32 s8, s2, s8
; GFX10-NEXT: s_add_u32 s2, s2, 1		; GFX10-NEXT: s_add_u32 s2, s2, 1
		; GFX10-NEXT: v_mov_b32_e32 v3, s8
		; GFX10-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
; GFX10-NEXT: s_addc_u32 s3, s3, 0		; GFX10-NEXT: s_addc_u32 s3, s3, 0
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v3, s7, v3, vcc_lo
; GFX10-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc_lo
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v3		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v3
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @urem32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {		define amdgpu_kernel void @urem32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {
; GFX9-LABEL: urem32_invariant_denom:		; GFX9-LABEL: urem32_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX9-NEXT: s_mov_b64 s[2:3], 0		; GFX9-NEXT: s_mov_b64 s[2:3], 0
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s4
; GFX9-NEXT: s_sub_i32 s5, 0, s4		; GFX9-NEXT: s_sub_i32 s5, 0, s4
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s5, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: .LBB1_1: ; %bb3		; GFX9-NEXT: .LBB1_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_mul_lo_u32 v2, s3, v0		; GFX9-NEXT: v_readfirstlane_b32 s6, v0
; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: v_add_u32_e32 v2, v3, v2		; GFX9-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX9-NEXT: v_mul_lo_u32 v3, s5, v2		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: v_not_b32_e32 v2, v2		; GFX9-NEXT: s_mul_i32 s7, s3, s6
; GFX9-NEXT: v_mul_lo_u32 v2, s4, v2		; GFX9-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX9-NEXT: v_add_u32_e32 v3, s2, v3		; GFX9-NEXT: s_add_i32 s6, s6, s7
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v3		; GFX9-NEXT: s_mul_i32 s7, s5, s6
; GFX9-NEXT: v_add_u32_e32 v2, s2, v2		; GFX9-NEXT: s_not_b32 s6, s6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc		; GFX9-NEXT: s_mul_i32 s6, s4, s6
		; GFX9-NEXT: s_add_i32 s7, s2, s7
		; GFX9-NEXT: s_add_i32 s6, s2, s6
		; GFX9-NEXT: s_cmp_ge_u32 s7, s4
		; GFX9-NEXT: s_cselect_b32 s6, s6, s7
		; GFX9-NEXT: s_sub_i32 s7, s6, s4
		; GFX9-NEXT: s_cmp_ge_u32 s6, s4
		; GFX9-NEXT: s_cselect_b32 s6, s7, s6
; GFX9-NEXT: s_add_u32 s2, s2, 1		; GFX9-NEXT: s_add_u32 s2, s2, 1
; GFX9-NEXT: v_subrev_u32_e32 v3, s4, v2		; GFX9-NEXT: v_mov_b32_e32 v2, s6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
; GFX9-NEXT: s_addc_u32 s3, s3, 0		; GFX9-NEXT: s_addc_u32 s3, s3, 0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: global_store_dword v1, v2, s[0:1]		; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
; GFX9-NEXT: s_add_u32 s0, s0, 4		; GFX9-NEXT: s_add_u32 s0, s0, 4
; GFX9-NEXT: s_addc_u32 s1, s1, 0		; GFX9-NEXT: s_addc_u32 s1, s1, 0
; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB1_1		; GFX9-NEXT: s_cbranch_scc0 .LBB1_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: urem32_invariant_denom:		; GFX10-LABEL: urem32_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX10-NEXT: s_mov_b64 s[2:3], 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX10-NEXT: s_mov_b64 s[2:3], 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s4		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s4
; GFX10-NEXT: s_sub_i32 s5, 0, s4		; GFX10-NEXT: s_sub_i32 s5, 0, s4
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s5, v0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: .LBB1_1: ; %bb3		; GFX10-NEXT: .LBB1_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_mul_lo_u32 v2, s3, v0		; GFX10-NEXT: v_readfirstlane_b32 s6, v0
; GFX10-NEXT: v_mul_hi_u32 v3, s2, v0		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: v_add_nc_u32_e32 v2, v3, v2		; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX10-NEXT: v_not_b32_e32 v3, v2		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: v_mul_lo_u32 v2, s5, v2		; GFX10-NEXT: s_mul_i32 s7, s3, s6
; GFX10-NEXT: v_mul_lo_u32 v3, s4, v3		; GFX10-NEXT: s_mul_hi_u32 s6, s2, s6
; GFX10-NEXT: v_add_nc_u32_e32 v2, s2, v2		; GFX10-NEXT: s_add_i32 s6, s6, s7
; GFX10-NEXT: v_add_nc_u32_e32 v3, s2, v3		; GFX10-NEXT: s_not_b32 s7, s6
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v2		; GFX10-NEXT: s_mul_i32 s6, s5, s6
		; GFX10-NEXT: s_mul_i32 s7, s4, s7
		; GFX10-NEXT: s_add_i32 s6, s2, s6
		; GFX10-NEXT: s_add_i32 s7, s2, s7
		; GFX10-NEXT: s_cmp_ge_u32 s6, s4
		; GFX10-NEXT: s_cselect_b32 s6, s7, s6
		; GFX10-NEXT: s_sub_i32 s7, s6, s4
		; GFX10-NEXT: s_cmp_ge_u32 s6, s4
		; GFX10-NEXT: s_cselect_b32 s6, s7, s6
; GFX10-NEXT: s_add_u32 s2, s2, 1		; GFX10-NEXT: s_add_u32 s2, s2, 1
		; GFX10-NEXT: v_mov_b32_e32 v2, s6
; GFX10-NEXT: s_addc_u32 s3, s3, 0		; GFX10-NEXT: s_addc_u32 s3, s3, 0
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc_lo
; GFX10-NEXT: v_subrev_nc_u32_e32 v3, s4, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s4, v2
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc_lo
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s2, 0x400
; GFX10-NEXT: s_cbranch_scc0 .LBB1_1		; GFX10-NEXT: s_cbranch_scc0 .LBB1_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
; GFX9-NEXT: s_cmpk_eq_i32 s4, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s4, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB2_1		; GFX9-NEXT: s_cbranch_scc0 .LBB2_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdiv32_invariant_denom:		; GFX10-LABEL: sdiv32_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_load_dword s3, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s3, s[0:1], 0x2c
		; GFX10-NEXT: v_mov_b32_e32 v1, 0
		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX10-NEXT: s_mov_b32 s4, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_ashr_i32 s2, s3, 31		; GFX10-NEXT: s_ashr_i32 s2, s3, 31
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: s_add_i32 s3, s3, s2		; GFX10-NEXT: s_add_i32 s3, s3, s2
; GFX10-NEXT: s_xor_b32 s3, s3, s2		; GFX10-NEXT: s_xor_b32 s3, s3, s2
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX10-NEXT: s_sub_i32 s4, 0, s3		; GFX10-NEXT: s_sub_i32 s5, 0, s3
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s4, v0
; GFX10-NEXT: s_mov_b32 s4, 0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: .LBB2_1: ; %bb3		; GFX10-NEXT: .LBB2_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_mul_hi_u32 v2, s4, v0		; GFX10-NEXT: v_readfirstlane_b32 s6, v0
; GFX10-NEXT: v_mul_lo_u32 v3, v2, s3		; GFX10-NEXT: s_mul_i32 s7, s5, s6
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2		; GFX10-NEXT: s_mul_hi_u32 s7, s6, s7
; GFX10-NEXT: v_sub_nc_u32_e32 v3, s4, v3		; GFX10-NEXT: s_add_i32 s6, s6, s7
		; GFX10-NEXT: s_mul_hi_u32 s6, s4, s6
		; GFX10-NEXT: s_mul_i32 s7, s6, s3
		; GFX10-NEXT: s_sub_i32 s7, s4, s7
		; GFX10-NEXT: s_cmp_ge_u32 s7, s3
		; GFX10-NEXT: s_cselect_b32 vcc_lo, -1, 0
		; GFX10-NEXT: s_add_i32 s8, s6, 1
; GFX10-NEXT: s_add_i32 s4, s4, 1		; GFX10-NEXT: s_add_i32 s4, s4, 1
; GFX10-NEXT: v_subrev_nc_u32_e32 v5, s3, v3		; GFX10-NEXT: v_mov_b32_e32 v2, s8
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v3		; GFX10-NEXT: s_sub_i32 s8, s7, s3
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo		; GFX10-NEXT: v_mov_b32_e32 v3, s8
; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v2, s6, v2, vcc_lo
		; GFX10-NEXT: v_cndmask_b32_e32 v3, s7, v3, vcc_lo
; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2		; GFX10-NEXT: v_add_nc_u32_e32 v4, 1, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v3		; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s3, v3
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo		; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
; GFX10-NEXT: v_xor_b32_e32 v2, s2, v2		; GFX10-NEXT: v_xor_b32_e32 v2, s2, v2
; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s2, v2		; GFX10-NEXT: v_subrev_nc_u32_e32 v2, s2, v2
; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s4, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s4, 0x400
; GFX10-NEXT: s_cbranch_scc0 .LBB2_1		; GFX10-NEXT: s_cbranch_scc0 .LBB2_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines	bb3: ; preds = %bb3, %bb
%tmp8 = icmp eq i32 %tmp7, 1024		%tmp8 = icmp eq i32 %tmp7, 1024
br i1 %tmp8, label %bb2, label %bb3		br i1 %tmp8, label %bb2, label %bb3
}		}

define amdgpu_kernel void @srem32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {		define amdgpu_kernel void @srem32_invariant_denom(i32 addrspace(1)* nocapture %arg, i32 %arg1) {
; GFX9-LABEL: srem32_invariant_denom:		; GFX9-LABEL: srem32_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
		; GFX9-NEXT: v_mov_b32_e32 v1, 0
		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_ashr_i32 s3, s2, 31		; GFX9-NEXT: s_ashr_i32 s3, s2, 31
; GFX9-NEXT: s_add_i32 s2, s2, s3		; GFX9-NEXT: s_add_i32 s2, s2, s3
; GFX9-NEXT: s_xor_b32 s2, s2, s3		; GFX9-NEXT: s_xor_b32 s2, s2, s3
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
; GFX9-NEXT: s_sub_i32 s3, 0, s2		; GFX9-NEXT: s_mov_b32 s3, 0
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24		; GFX9-NEXT: s_sub_i32 s4, 0, s2
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s3, v0
; GFX9-NEXT: s_mov_b32 s3, 0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: .LBB3_1: ; %bb3		; GFX9-NEXT: .LBB3_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_mul_hi_u32 v2, s3, v0		; GFX9-NEXT: v_readfirstlane_b32 s5, v0
; GFX9-NEXT: v_mul_lo_u32 v2, v2, s2		; GFX9-NEXT: s_mul_i32 s6, s4, s5
; GFX9-NEXT: v_sub_u32_e32 v2, s3, v2		; GFX9-NEXT: s_mul_hi_u32 s6, s5, s6
; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v2		; GFX9-NEXT: s_add_i32 s5, s5, s6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v2		; GFX9-NEXT: s_mul_hi_u32 s5, s3, s5
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: s_mul_i32 s5, s5, s2
; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v2		; GFX9-NEXT: s_sub_i32 s5, s3, s5
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v2		; GFX9-NEXT: s_sub_i32 s6, s5, s2
		; GFX9-NEXT: s_cmp_ge_u32 s5, s2
		; GFX9-NEXT: s_cselect_b32 s5, s6, s5
		; GFX9-NEXT: s_sub_i32 s6, s5, s2
		; GFX9-NEXT: s_cmp_ge_u32 s5, s2
		; GFX9-NEXT: s_cselect_b32 s5, s6, s5
; GFX9-NEXT: s_add_i32 s3, s3, 1		; GFX9-NEXT: s_add_i32 s3, s3, 1
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_mov_b32_e32 v2, s5
; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dword v1, v2, s[0:1]		; GFX9-NEXT: global_store_dword v1, v2, s[0:1]
; GFX9-NEXT: s_add_u32 s0, s0, 4		; GFX9-NEXT: s_add_u32 s0, s0, 4
; GFX9-NEXT: s_addc_u32 s1, s1, 0		; GFX9-NEXT: s_addc_u32 s1, s1, 0
; GFX9-NEXT: s_cmpk_eq_i32 s3, 0x400		; GFX9-NEXT: s_cmpk_eq_i32 s3, 0x400
; GFX9-NEXT: s_cbranch_scc0 .LBB3_1		; GFX9-NEXT: s_cbranch_scc0 .LBB3_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: srem32_invariant_denom:		; GFX10-LABEL: srem32_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s2, s[0:1], 0x2c
		; GFX10-NEXT: v_mov_b32_e32 v1, 0
		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_ashr_i32 s3, s2, 31		; GFX10-NEXT: s_ashr_i32 s3, s2, 31
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX10-NEXT: s_add_i32 s2, s2, s3		; GFX10-NEXT: s_add_i32 s2, s2, s3
; GFX10-NEXT: s_xor_b32 s2, s2, s3		; GFX10-NEXT: s_xor_b32 s2, s2, s3
		; GFX10-NEXT: s_mov_b32 s3, 0
; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s2
; GFX10-NEXT: s_sub_i32 s3, 0, s2		; GFX10-NEXT: s_sub_i32 s4, 0, s2
; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX10-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX10-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX10-NEXT: v_mul_lo_u32 v1, s3, v0
; GFX10-NEXT: s_mov_b32 s3, 0
; GFX10-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v1
; GFX10-NEXT: v_mov_b32_e32 v1, 0
; GFX10-NEXT: .LBB3_1: ; %bb3		; GFX10-NEXT: .LBB3_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_mul_hi_u32 v2, s3, v0		; GFX10-NEXT: v_readfirstlane_b32 s5, v0
; GFX10-NEXT: v_mul_lo_u32 v2, v2, s2		; GFX10-NEXT: s_mul_i32 s6, s4, s5
; GFX10-NEXT: v_sub_nc_u32_e32 v2, s3, v2		; GFX10-NEXT: s_mul_hi_u32 s6, s5, s6
		; GFX10-NEXT: s_add_i32 s5, s5, s6
		; GFX10-NEXT: s_mul_hi_u32 s5, s3, s5
		; GFX10-NEXT: s_mul_i32 s5, s5, s2
		; GFX10-NEXT: s_sub_i32 s5, s3, s5
		; GFX10-NEXT: s_sub_i32 s6, s5, s2
		; GFX10-NEXT: s_cmp_ge_u32 s5, s2
		; GFX10-NEXT: s_cselect_b32 s5, s6, s5
		; GFX10-NEXT: s_sub_i32 s6, s5, s2
		; GFX10-NEXT: s_cmp_ge_u32 s5, s2
		; GFX10-NEXT: s_cselect_b32 s5, s6, s5
; GFX10-NEXT: s_add_i32 s3, s3, 1		; GFX10-NEXT: s_add_i32 s3, s3, 1
; GFX10-NEXT: v_subrev_nc_u32_e32 v3, s2, v2		; GFX10-NEXT: v_mov_b32_e32 v2, s5
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc_lo
; GFX10-NEXT: v_subrev_nc_u32_e32 v3, s2, v2
; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, s2, v2
; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc_lo
; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: global_store_dword v1, v2, s[0:1]		; GFX10-NEXT: global_store_dword v1, v2, s[0:1]
; GFX10-NEXT: s_waitcnt_depctr 0xffe3		; GFX10-NEXT: s_waitcnt_depctr 0xffe3
; GFX10-NEXT: s_add_u32 s0, s0, 4		; GFX10-NEXT: s_add_u32 s0, s0, 4
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
; GFX10-NEXT: s_cmpk_eq_i32 s3, 0x400		; GFX10-NEXT: s_cmpk_eq_i32 s3, 0x400
; GFX10-NEXT: s_cbranch_scc0 .LBB3_1		; GFX10-NEXT: s_cbranch_scc0 .LBB3_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	bb3: ; preds = %bb3, %bb
%tmp8 = icmp eq i32 %tmp7, 1024		%tmp8 = icmp eq i32 %tmp7, 1024
br i1 %tmp8, label %bb2, label %bb3		br i1 %tmp8, label %bb2, label %bb3
}		}

define amdgpu_kernel void @udiv16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {		define amdgpu_kernel void @udiv16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {
; GFX9-LABEL: udiv16_invariant_denom:		; GFX9-LABEL: udiv16_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: s_mov_b32 s5, 0
; GFX9-NEXT: s_movk_i32 s4, 0x400		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: v_mov_b32_e32 v4, 0		; GFX9-NEXT: s_movk_i32 s6, 0x400
		; GFX9-NEXT: s_mov_b32 s7, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s2, 0xffff, s2		; GFX9-NEXT: s_and_b32 s2, 0xffff, s2
; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s2		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX9-NEXT: .LBB4_1: ; %bb3		; GFX9-NEXT: .LBB4_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX9-NEXT: s_and_b32 s4, 0xffff, s7
; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v0		; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s4
; GFX9-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX9-NEXT: v_add_u16_e64 v3, s7, 1
		; GFX9-NEXT: v_readfirstlane_b32 s7, v3
		; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s6, v3
		; GFX9-NEXT: v_mul_f32_e32 v3, v4, v1
		; GFX9-NEXT: v_trunc_f32_e32 v3, v3
		; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v3
		; GFX9-NEXT: s_lshl_b64 s[0:1], s[4:5], 1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v7, s3		; GFX9-NEXT: s_add_u32 s8, s2, s0
; GFX9-NEXT: v_add_co_u32_e64 v5, s[0:1], s2, v5		; GFX9-NEXT: v_mad_f32 v3, -v3, v0, v4
; GFX9-NEXT: v_mul_f32_e32 v0, v8, v3		; GFX9-NEXT: s_addc_u32 s9, s3, s1
; GFX9-NEXT: v_trunc_f32_e32 v0, v0		; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v3\|, v0
; GFX9-NEXT: v_addc_co_u32_e64 v6, s[0:1], v7, v6, s[0:1]		; GFX9-NEXT: v_addc_co_u32_e64 v3, s[0:1], 0, v5, s[0:1]
; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v0		; GFX9-NEXT: global_store_short v2, v3, s[8:9]
; GFX9-NEXT: v_add_u16_e32 v4, 1, v4
; GFX9-NEXT: v_mad_f32 v0, -v0, v2, v8
; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s4, v4
; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v0\|, v2
; GFX9-NEXT: v_addc_co_u32_e64 v0, s[0:1], 0, v7, s[0:1]
; GFX9-NEXT: global_store_short v[5:6], v0, off
; GFX9-NEXT: s_cbranch_vccz .LBB4_1		; GFX9-NEXT: s_cbranch_vccz .LBB4_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udiv16_invariant_denom:		; GFX10-LABEL: udiv16_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_clause 0x1		; GFX10-NEXT: s_clause 0x1
; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: v_mov_b32_e32 v4, 0		; GFX10-NEXT: s_mov_b32 s1, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_and_b32 s0, 0xffff, s4		; GFX10-NEXT: s_and_b32 s0, 0xffff, s4
; GFX10-NEXT: v_cvt_f32_u32_e32 v2, s0		; GFX10-NEXT: s_mov_b32 s4, 0
; GFX10-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX10-NEXT: v_cvt_f32_u32_e32 v0, s0
		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX10-NEXT: .LBB4_1: ; %bb3		; GFX10-NEXT: .LBB4_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX10-NEXT: s_and_b32 s0, 0xffff, s4
; GFX10-NEXT: v_add_nc_u16 v4, v4, 1		; GFX10-NEXT: v_add_nc_u16 v3, s4, 1
; GFX10-NEXT: v_cvt_f32_u32_e32 v7, v0		; GFX10-NEXT: v_cvt_f32_u32_e32 v4, s0
; GFX10-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX10-NEXT: s_lshl_b64 s[4:5], s[0:1], 1
; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v4		; GFX10-NEXT: s_add_u32 s6, s2, s4
; GFX10-NEXT: v_mul_f32_e32 v0, v7, v3		; GFX10-NEXT: v_readfirstlane_b32 s4, v3
; GFX10-NEXT: v_add_co_u32 v5, s0, s2, v5		; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v3
; GFX10-NEXT: v_add_co_ci_u32_e64 v6, s0, s3, v6, s0		; GFX10-NEXT: v_mul_f32_e32 v3, v4, v1
; GFX10-NEXT: v_trunc_f32_e32 v0, v0		; GFX10-NEXT: s_addc_u32 s7, s3, s5
; GFX10-NEXT: s_and_b32 vcc_lo, exec_lo, vcc_lo		; GFX10-NEXT: s_and_b32 vcc_lo, exec_lo, vcc_lo
; GFX10-NEXT: v_mad_f32 v7, -v0, v2, v7		; GFX10-NEXT: v_trunc_f32_e32 v3, v3
; GFX10-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX10-NEXT: v_mad_f32 v4, -v3, v0, v4
; GFX10-NEXT: v_cmp_ge_f32_e64 s0, \|v7\|, v2		; GFX10-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX10-NEXT: v_add_co_ci_u32_e64 v0, s0, 0, v0, s0		; GFX10-NEXT: v_cmp_ge_f32_e64 s0, \|v4\|, v0
; GFX10-NEXT: global_store_short v[5:6], v0, off		; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s0, 0, v3, s0
		; GFX10-NEXT: global_store_short v2, v3, s[6:7]
; GFX10-NEXT: s_cbranch_vccz .LBB4_1		; GFX10-NEXT: s_cbranch_vccz .LBB4_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: udiv16_invariant_denom:		; GFX11-LABEL: udiv16_invariant_denom:
; GFX11: ; %bb.0: ; %bb		; GFX11: ; %bb.0: ; %bb
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c		; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	bb3: ; preds = %bb3, %bb
%tmp8 = icmp eq i16 %tmp7, 1024		%tmp8 = icmp eq i16 %tmp7, 1024
br i1 %tmp8, label %bb2, label %bb3		br i1 %tmp8, label %bb2, label %bb3
}		}

define amdgpu_kernel void @sdiv16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {		define amdgpu_kernel void @sdiv16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {
; GFX9-LABEL: sdiv16_invariant_denom:		; GFX9-LABEL: sdiv16_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: s_mov_b32 s3, 0
		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_movk_i32 s5, 0x400		; GFX9-NEXT: s_movk_i32 s5, 0x400
; GFX9-NEXT: v_mov_b32_e32 v4, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_sext_i32_i16 s4, s2		; GFX9-NEXT: s_sext_i32_i16 s4, s2
; GFX9-NEXT: v_cvt_f32_i32_e32 v2, s4		; GFX9-NEXT: v_cvt_f32_i32_e32 v0, s4
; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GFX9-NEXT: s_mov_b32 s6, 0
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX9-NEXT: .LBB6_1: ; %bb3		; GFX9-NEXT: .LBB6_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_bfe_i32 v5, v4, 0, 16		; GFX9-NEXT: s_sext_i32_i16 s2, s6
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX9-NEXT: v_cvt_f32_i32_e32 v4, s2
; GFX9-NEXT: v_cvt_f32_i32_e32 v9, v5		; GFX9-NEXT: s_xor_b32 s7, s2, s4
; GFX9-NEXT: v_xor_b32_e32 v8, s4, v5		; GFX9-NEXT: s_ashr_i32 s2, s7, 30
; GFX9-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX9-NEXT: s_or_b32 s2, s2, 1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: v_mul_f32_e32 v5, v4, v1
; GFX9-NEXT: v_mov_b32_e32 v7, s3		; GFX9-NEXT: v_trunc_f32_e32 v5, v5
; GFX9-NEXT: v_add_co_u32_e64 v5, s[0:1], s2, v5		; GFX9-NEXT: v_mad_f32 v4, -v5, v0, v4
; GFX9-NEXT: v_addc_co_u32_e64 v6, s[0:1], v7, v6, s[0:1]		; GFX9-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v4\|, \|v0\|
; GFX9-NEXT: v_mul_f32_e32 v7, v9, v3		; GFX9-NEXT: v_cvt_i32_f32_e32 v5, v5
; GFX9-NEXT: v_trunc_f32_e32 v7, v7		; GFX9-NEXT: s_and_b64 s[8:9], s[8:9], exec
; GFX9-NEXT: v_ashrrev_i32_e32 v0, 30, v8		; GFX9-NEXT: s_cselect_b32 s7, s2, 0
; GFX9-NEXT: v_cvt_i32_f32_e32 v8, v7		; GFX9-NEXT: s_and_b32 s2, s6, 0xffff
; GFX9-NEXT: v_mad_f32 v7, -v7, v2, v9		; GFX9-NEXT: v_add_u16_e64 v3, s6, 1
; GFX9-NEXT: v_add_u16_e32 v4, 1, v4		; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], 1
; GFX9-NEXT: v_or_b32_e32 v0, 1, v0		; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s5, v3
; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v7\|, \|v2\|		; GFX9-NEXT: s_add_u32 s8, s0, s8
; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s5, v4		; GFX9-NEXT: v_readfirstlane_b32 s6, v3
; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, v0, s[0:1]		; GFX9-NEXT: v_add_u32_e32 v3, s7, v5
; GFX9-NEXT: v_add_u32_e32 v0, v8, v0		; GFX9-NEXT: s_addc_u32 s9, s1, s9
; GFX9-NEXT: global_store_short v[5:6], v0, off		; GFX9-NEXT: global_store_short v2, v3, s[8:9]
; GFX9-NEXT: s_cbranch_vccz .LBB6_1		; GFX9-NEXT: s_cbranch_vccz .LBB6_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdiv16_invariant_denom:		; GFX10-LABEL: sdiv16_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_clause 0x1		; GFX10-NEXT: s_clause 0x1
; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: v_mov_b32_e32 v4, 0		; GFX10-NEXT: s_mov_b32 s1, 0
		; GFX10-NEXT: s_mov_b32 s5, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_sext_i32_i16 s4, s4		; GFX10-NEXT: s_sext_i32_i16 s4, s4
; GFX10-NEXT: v_cvt_f32_i32_e32 v2, s4		; GFX10-NEXT: v_cvt_f32_i32_e32 v0, s4
; GFX10-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX10-NEXT: .LBB6_1: ; %bb3		; GFX10-NEXT: .LBB6_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_bfe_i32 v5, v4, 0, 16		; GFX10-NEXT: s_sext_i32_i16 s0, s5
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX10-NEXT: v_add_nc_u16 v3, s5, 1
; GFX10-NEXT: v_add_nc_u16 v4, v4, 1		; GFX10-NEXT: v_cvt_f32_i32_e32 v4, s0
; GFX10-NEXT: v_cvt_f32_i32_e32 v7, v5		; GFX10-NEXT: s_xor_b32 s0, s0, s4
; GFX10-NEXT: v_xor_b32_e32 v8, s4, v5		; GFX10-NEXT: s_ashr_i32 s0, s0, 30
; GFX10-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v3
; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v4		; GFX10-NEXT: v_mul_f32_e32 v5, v4, v1
; GFX10-NEXT: v_mul_f32_e32 v0, v7, v3		; GFX10-NEXT: s_or_b32 s0, s0, 1
; GFX10-NEXT: v_ashrrev_i32_e32 v8, 30, v8		; GFX10-NEXT: v_trunc_f32_e32 v5, v5
; GFX10-NEXT: v_add_co_u32 v5, s0, s2, v5		; GFX10-NEXT: v_mad_f32 v4, -v5, v0, v4
; GFX10-NEXT: v_trunc_f32_e32 v0, v0		; GFX10-NEXT: v_cmp_ge_f32_e64 s6, \|v4\|, \|v0\|
; GFX10-NEXT: v_or_b32_e32 v8, 1, v8		; GFX10-NEXT: v_cvt_i32_f32_e32 v4, v5
; GFX10-NEXT: v_add_co_ci_u32_e64 v6, s0, s3, v6, s0		; GFX10-NEXT: s_and_b32 s6, s6, exec_lo
; GFX10-NEXT: s_and_b32 vcc_lo, exec_lo, vcc_lo		; GFX10-NEXT: s_cselect_b32 s6, s0, 0
; GFX10-NEXT: v_mad_f32 v7, -v0, v2, v7		; GFX10-NEXT: s_and_b32 s0, s5, 0xffff
; GFX10-NEXT: v_cvt_i32_f32_e32 v0, v0		; GFX10-NEXT: v_readfirstlane_b32 s5, v3
; GFX10-NEXT: v_cmp_ge_f32_e64 s1, \|v7\|, \|v2\|		; GFX10-NEXT: v_add_nc_u32_e32 v3, s6, v4
; GFX10-NEXT: v_cndmask_b32_e64 v7, 0, v8, s1		; GFX10-NEXT: s_lshl_b64 s[6:7], s[0:1], 1
; GFX10-NEXT: v_add_nc_u32_e32 v0, v0, v7		; GFX10-NEXT: s_add_u32 s6, s2, s6
; GFX10-NEXT: global_store_short v[5:6], v0, off		; GFX10-NEXT: s_addc_u32 s7, s3, s7
		; GFX10-NEXT: global_store_short v2, v3, s[6:7]
; GFX10-NEXT: s_cbranch_vccz .LBB6_1		; GFX10-NEXT: s_cbranch_vccz .LBB6_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: sdiv16_invariant_denom:		; GFX11-LABEL: sdiv16_invariant_denom:
; GFX11: ; %bb.0: ; %bb		; GFX11: ; %bb.0: ; %bb
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c		; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	bb3: ; preds = %bb3, %bb
%tmp8 = icmp eq i16 %tmp7, 1024		%tmp8 = icmp eq i16 %tmp7, 1024
br i1 %tmp8, label %bb2, label %bb3		br i1 %tmp8, label %bb2, label %bb3
}		}

define amdgpu_kernel void @srem16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {		define amdgpu_kernel void @srem16_invariant_denom(i16 addrspace(1)* nocapture %arg, i16 %arg1) {
; GFX9-LABEL: srem16_invariant_denom:		; GFX9-LABEL: srem16_invariant_denom:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c		; GFX9-NEXT: s_load_dword s2, s[0:1], 0x2c
; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; GFX9-NEXT: s_mov_b32 s3, 0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
; GFX9-NEXT: s_movk_i32 s7, 0x400		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: v_mov_b32_e32 v4, 0		; GFX9-NEXT: s_movk_i32 s5, 0x400
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_sext_i32_i16 s6, s2		; GFX9-NEXT: s_sext_i32_i16 s4, s2
; GFX9-NEXT: v_cvt_f32_i32_e32 v2, s6		; GFX9-NEXT: v_cvt_f32_i32_e32 v0, s4
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX9-NEXT: s_mov_b32 s6, 0
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX9-NEXT: .LBB7_1: ; %bb3		; GFX9-NEXT: .LBB7_1: ; %bb3
; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX9-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX9-NEXT: v_bfe_i32 v7, v4, 0, 16		; GFX9-NEXT: s_sext_i32_i16 s7, s6
; GFX9-NEXT: v_cvt_f32_i32_e32 v10, v7		; GFX9-NEXT: v_cvt_f32_i32_e32 v4, s7
; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX9-NEXT: s_xor_b32 s2, s7, s4
; GFX9-NEXT: v_xor_b32_e32 v9, s6, v7		; GFX9-NEXT: s_ashr_i32 s2, s2, 30
; GFX9-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX9-NEXT: s_or_b32 s2, s2, 1
; GFX9-NEXT: v_ashrrev_i32_e32 v0, 30, v9		; GFX9-NEXT: v_mul_f32_e32 v5, v4, v1
; GFX9-NEXT: v_mul_f32_e32 v9, v10, v3		; GFX9-NEXT: v_trunc_f32_e32 v5, v5
; GFX9-NEXT: v_trunc_f32_e32 v9, v9		; GFX9-NEXT: v_mad_f32 v4, -v5, v0, v4
; GFX9-NEXT: v_cvt_i32_f32_e32 v11, v9		; GFX9-NEXT: v_cvt_i32_f32_e32 v5, v5
; GFX9-NEXT: v_mad_f32 v9, -v9, v2, v10		; GFX9-NEXT: v_cmp_ge_f32_e64 s[8:9], \|v4\|, \|v0\|
; GFX9-NEXT: v_or_b32_e32 v0, 1, v0		; GFX9-NEXT: s_and_b64 s[8:9], s[8:9], exec
; GFX9-NEXT: v_cmp_ge_f32_e64 s[2:3], \|v9\|, \|v2\|		; GFX9-NEXT: v_add_u16_e64 v3, s6, 1
; GFX9-NEXT: v_cndmask_b32_e64 v0, 0, v0, s[2:3]		; GFX9-NEXT: s_cselect_b32 s8, s2, 0
; GFX9-NEXT: v_add_u32_e32 v0, v11, v0		; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s5, v3
; GFX9-NEXT: v_mul_lo_u32 v0, v0, s6		; GFX9-NEXT: s_and_b32 s2, s6, 0xffff
; GFX9-NEXT: v_add_u16_e32 v4, 1, v4		; GFX9-NEXT: v_readfirstlane_b32 s6, v3
; GFX9-NEXT: v_mov_b32_e32 v8, s5		; GFX9-NEXT: v_add_u32_e32 v3, s8, v5
; GFX9-NEXT: v_cmp_eq_u16_e32 vcc, s7, v4		; GFX9-NEXT: v_mul_lo_u32 v3, v3, s4
; GFX9-NEXT: v_add_co_u32_e64 v5, s[0:1], s4, v5		; GFX9-NEXT: s_lshl_b64 s[8:9], s[2:3], 1
; GFX9-NEXT: v_addc_co_u32_e64 v6, s[0:1], v8, v6, s[0:1]		; GFX9-NEXT: s_add_u32 s8, s0, s8
; GFX9-NEXT: v_sub_u32_e32 v0, v7, v0		; GFX9-NEXT: s_addc_u32 s9, s1, s9
; GFX9-NEXT: global_store_short v[5:6], v0, off		; GFX9-NEXT: v_sub_u32_e32 v3, s7, v3
		; GFX9-NEXT: global_store_short v2, v3, s[8:9]
; GFX9-NEXT: s_cbranch_vccz .LBB7_1		; GFX9-NEXT: s_cbranch_vccz .LBB7_1
; GFX9-NEXT: ; %bb.2: ; %bb2		; GFX9-NEXT: ; %bb.2: ; %bb2
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: srem16_invariant_denom:		; GFX10-LABEL: srem16_invariant_denom:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_clause 0x1		; GFX10-NEXT: s_clause 0x1
; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c		; GFX10-NEXT: s_load_dword s4, s[0:1], 0x2c
; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
; GFX10-NEXT: v_mov_b32_e32 v4, 0		; GFX10-NEXT: s_mov_b32 s1, 0
		; GFX10-NEXT: s_mov_b32 s5, 0
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_sext_i32_i16 s1, s4		; GFX10-NEXT: s_sext_i32_i16 s4, s4
; GFX10-NEXT: v_cvt_f32_i32_e32 v2, s1		; GFX10-NEXT: v_cvt_f32_i32_e32 v0, s4
; GFX10-NEXT: v_rcp_iflag_f32_e32 v3, v2		; GFX10-NEXT: v_rcp_iflag_f32_e32 v1, v0
; GFX10-NEXT: .LBB7_1: ; %bb3		; GFX10-NEXT: .LBB7_1: ; %bb3
; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1		; GFX10-NEXT: ; =>This Inner Loop Header: Depth=1
; GFX10-NEXT: v_bfe_i32 v7, v4, 0, 16		; GFX10-NEXT: s_sext_i32_i16 s8, s5
; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v4		; GFX10-NEXT: v_add_nc_u16 v3, s5, 1
; GFX10-NEXT: v_add_nc_u16 v4, v4, 1		; GFX10-NEXT: v_cvt_f32_i32_e32 v4, s8
; GFX10-NEXT: v_cvt_f32_i32_e32 v5, v7		; GFX10-NEXT: s_xor_b32 s0, s8, s4
; GFX10-NEXT: v_xor_b32_e32 v6, s1, v7		; GFX10-NEXT: s_ashr_i32 s0, s0, 30
; GFX10-NEXT: v_mul_f32_e32 v8, v5, v3		; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v3
; GFX10-NEXT: v_ashrrev_i32_e32 v6, 30, v6		; GFX10-NEXT: v_mul_f32_e32 v5, v4, v1
; GFX10-NEXT: v_trunc_f32_e32 v8, v8		; GFX10-NEXT: s_or_b32 s0, s0, 1
; GFX10-NEXT: v_or_b32_e32 v6, 1, v6		; GFX10-NEXT: v_trunc_f32_e32 v5, v5
; GFX10-NEXT: v_mad_f32 v5, -v8, v2, v5		; GFX10-NEXT: v_mad_f32 v4, -v5, v0, v4
; GFX10-NEXT: v_cvt_i32_f32_e32 v8, v8		; GFX10-NEXT: v_cmp_ge_f32_e64 s6, \|v4\|, \|v0\|
; GFX10-NEXT: v_cmp_ge_f32_e64 vcc_lo, \|v5\|, \|v2\|		; GFX10-NEXT: v_cvt_i32_f32_e32 v4, v5
; GFX10-NEXT: v_cndmask_b32_e32 v9, 0, v6, vcc_lo		; GFX10-NEXT: s_and_b32 s6, s6, exec_lo
; GFX10-NEXT: v_lshlrev_b64 v[5:6], 1, v[0:1]		; GFX10-NEXT: s_cselect_b32 s6, s0, 0
; GFX10-NEXT: v_cmp_eq_u16_e32 vcc_lo, 0x400, v4		; GFX10-NEXT: s_and_b32 s0, s5, 0xffff
; GFX10-NEXT: v_add_nc_u32_e32 v0, v8, v9		; GFX10-NEXT: v_add_nc_u32_e32 v4, s6, v4
; GFX10-NEXT: v_add_co_u32 v5, s0, s2, v5		; GFX10-NEXT: v_readfirstlane_b32 s5, v3
; GFX10-NEXT: v_add_co_ci_u32_e64 v6, s0, s3, v6, s0		; GFX10-NEXT: s_lshl_b64 s[6:7], s[0:1], 1
; GFX10-NEXT: v_mul_lo_u32 v0, v0, s1		; GFX10-NEXT: s_add_u32 s6, s2, s6
; GFX10-NEXT: v_sub_nc_u32_e32 v0, v7, v0		; GFX10-NEXT: v_mul_lo_u32 v3, v4, s4
; GFX10-NEXT: global_store_short v[5:6], v0, off		; GFX10-NEXT: s_addc_u32 s7, s3, s7
		; GFX10-NEXT: v_sub_nc_u32_e32 v3, s8, v3
		; GFX10-NEXT: global_store_short v2, v3, s[6:7]
; GFX10-NEXT: s_cbranch_vccz .LBB7_1		; GFX10-NEXT: s_cbranch_vccz .LBB7_1
; GFX10-NEXT: ; %bb.2: ; %bb2		; GFX10-NEXT: ; %bb.2: ; %bb2
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX11-LABEL: srem16_invariant_denom:		; GFX11-LABEL: srem16_invariant_denom:
; GFX11: ; %bb.0: ; %bb		; GFX11: ; %bb.0: ; %bb
; GFX11-NEXT: s_clause 0x1		; GFX11-NEXT: s_clause 0x1
; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c		; GFX11-NEXT: s_load_b32 s4, s[0:1], 0x2c
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/multilevel-break.ll

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt -S -mtriple=amdgcn-- -structurizecfg -si-annotate-control-flow < %s \| FileCheck -check-prefix=OPT %s			; RUN: opt -S -mtriple=amdgcn-- -structurizecfg -si-annotate-control-flow < %s \| FileCheck -check-prefix=OPT %s
	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Ensure two if.break calls, for both the inner and outer loops			; Ensure two if.break calls, for both the inner and outer loops
	; FIXME: duplicate comparison			; FIXME: duplicate comparison
	define amdgpu_vs void @multi_else_break(<4 x float> %vec, i32 %ub, i32 %cont) {			define amdgpu_vs void @multi_else_break(<4 x float> %vec, i32 %ub, i32 %cont) {
	; OPT-LABEL: @multi_else_break(			; OPT-LABEL: @multi_else_break(
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_and_b64 s[4:5], exec, s[4:5]			; GCN-NEXT: s_and_b64 s[4:5], exec, s[4:5]
	; GCN-NEXT: s_or_b64 s[0:1], s[4:5], s[0:1]			; GCN-NEXT: s_or_b64 s[0:1], s[4:5], s[0:1]
	; GCN-NEXT: s_andn2_b64 exec, exec, s[0:1]			; GCN-NEXT: s_andn2_b64 exec, exec, s[0:1]
	; GCN-NEXT: s_cbranch_execz .LBB1_9			; GCN-NEXT: s_cbranch_execz .LBB1_9
	; GCN-NEXT: .LBB1_2: ; %bb1			; GCN-NEXT: .LBB1_2: ; %bb1
	; GCN-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-NEXT: buffer_load_dword v1, off, s[0:3], 0 glc			; GCN-NEXT: buffer_load_dword v1, off, s[0:3], 0 glc
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
				; GCN-NEXT: v_readfirstlane_b32 s8, v1
	; GCN-NEXT: s_mov_b64 s[4:5], -1			; GCN-NEXT: s_mov_b64 s[4:5], -1
	; GCN-NEXT: v_cmp_gt_i32_e32 vcc, 1, v1			; GCN-NEXT: s_cmp_lt_i32 s8, 1
	; GCN-NEXT: s_mov_b64 s[6:7], -1			; GCN-NEXT: s_mov_b64 s[6:7], -1
	; GCN-NEXT: s_cbranch_vccnz .LBB1_6			; GCN-NEXT: s_cbranch_scc1 .LBB1_6
	; GCN-NEXT: ; %bb.3: ; %LeafBlock1			; GCN-NEXT: ; %bb.3: ; %LeafBlock1
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1			; GCN-NEXT: s_cmp_eq_u32 s8, 1
	; GCN-NEXT: s_mov_b64 s[4:5], -1			; GCN-NEXT: s_mov_b64 s[4:5], -1
	; GCN-NEXT: s_cbranch_vccz .LBB1_5			; GCN-NEXT: s_cbranch_scc0 .LBB1_5
	; GCN-NEXT: ; %bb.4: ; %case1			; GCN-NEXT: ; %bb.4: ; %case1
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: buffer_load_dword v2, off, s[0:3], 0 glc			; GCN-NEXT: buffer_load_dword v1, off, s[0:3], 0 glc
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cmp_ge_i32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_i32_e32 vcc, v0, v1
	; GCN-NEXT: s_orn2_b64 s[4:5], vcc, exec			; GCN-NEXT: s_orn2_b64 s[4:5], vcc, exec
	; GCN-NEXT: .LBB1_5: ; %Flow3			; GCN-NEXT: .LBB1_5: ; %Flow3
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: s_mov_b64 s[6:7], 0			; GCN-NEXT: s_mov_b64 s[6:7], 0
	; GCN-NEXT: .LBB1_6: ; %Flow			; GCN-NEXT: .LBB1_6: ; %Flow
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: s_and_b64 vcc, exec, s[6:7]			; GCN-NEXT: s_and_b64 vcc, exec, s[6:7]
	; GCN-NEXT: s_cbranch_vccz .LBB1_1			; GCN-NEXT: s_cbranch_vccz .LBB1_1
	; GCN-NEXT: ; %bb.7: ; %LeafBlock			; GCN-NEXT: ; %bb.7: ; %LeafBlock
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1			; GCN-NEXT: s_cmp_eq_u32 s8, 0
	; GCN-NEXT: s_cbranch_vccz .LBB1_1			; GCN-NEXT: s_cbranch_scc0 .LBB1_1
	; GCN-NEXT: ; %bb.8: ; %case0			; GCN-NEXT: ; %bb.8: ; %case0
	; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1			; GCN-NEXT: ; in Loop: Header=BB1_2 Depth=1
	; GCN-NEXT: buffer_load_dword v1, off, s[0:3], 0 glc			; GCN-NEXT: buffer_load_dword v1, off, s[0:3], 0 glc
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cmp_ge_i32_e32 vcc, v0, v1			; GCN-NEXT: v_cmp_ge_i32_e32 vcc, v0, v1
	; GCN-NEXT: s_andn2_b64 s[4:5], s[4:5], exec			; GCN-NEXT: s_andn2_b64 s[4:5], s[4:5], exec
	; GCN-NEXT: s_and_b64 s[6:7], vcc, exec			; GCN-NEXT: s_and_b64 s[6:7], vcc, exec
	; GCN-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]			; GCN-NEXT: s_or_b64 s[4:5], s[4:5], s[6:7]
	Show All 36 Lines

llvm/test/CodeGen/AMDGPU/s_add_co_pseudo_lowering.mir

	# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	# RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -run-pass si-fix-sgpr-copies %s -o - \| FileCheck -check-prefix=GCN %s			# RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -run-pass si-fix-sgpr-copies %s -o - \| FileCheck -check-prefix=GCN %s
	---			---
	name: s_add_co_pseudo_test			name: s_add_co_pseudo_test
	tracksRegLiveness: true			tracksRegLiveness: true
	body: \|			body: \|

	bb.0:			bb.0:
	liveins: $vgpr0, $vgpr1, $vgpr2, $sgpr0, $sgpr1, $sgpr2			liveins: $vgpr0, $vgpr1, $vgpr2, $sgpr0, $sgpr1, $sgpr2
	; GCN-LABEL: name: s_add_co_pseudo_test			; GCN-LABEL: name: s_add_co_pseudo_test
	; GCN: liveins: $vgpr0, $vgpr1, $vgpr2, $sgpr0, $sgpr1, $sgpr2			; GCN: liveins: $vgpr0, $vgpr1, $vgpr2, $sgpr0, $sgpr1, $sgpr2
	; GCN-NEXT: {{ $}}			; GCN-NEXT: {{ $}}
	; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0			; GCN-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
	; GCN-NEXT: [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF			; GCN-NEXT: [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
	; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1			; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
	; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2			; GCN-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
	; GCN-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr0			; GCN-NEXT: [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
	; GCN-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr1			; GCN-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr1
	; GCN-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr2			; GCN-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr2
	; GCN-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY [[COPY3]]			; GCN-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[COPY2]]
	; GCN-NEXT: [[V_MUL_LO_U32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[COPY]], [[COPY4]], implicit $exec			; GCN-NEXT: [[V_MUL_LO_U32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[COPY]], [[COPY3]], implicit $exec
	; GCN-NEXT: [[V_ADD_CO_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 killed [[V_MUL_LO_U32_e64_]], [[COPY6]], 0, implicit $exec			; GCN-NEXT: [[V_ADD_CO_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 killed [[V_MUL_LO_U32_e64_]], [[COPY5]], 0, implicit $exec
	; GCN-NEXT: [[S_MUL_HI_U32_:%[0-9]+]]:sreg_32 = S_MUL_HI_U32 [[COPY4]], [[COPY5]]			; GCN-NEXT: [[S_MUL_HI_U32_:%[0-9]+]]:sreg_32 = S_MUL_HI_U32 [[COPY3]], [[COPY4]]
	; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 -614296167			; GCN-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 -614296167
	; GCN-NEXT: [[V_MUL_LO_U32_e64_1:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[COPY]], [[COPY3]], implicit $exec			; GCN-NEXT: [[V_MUL_LO_U32_e64_1:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[COPY]], [[COPY2]], implicit $exec
	; GCN-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY killed [[S_MOV_B32_]]			; GCN-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY killed [[S_MOV_B32_]]
	; GCN-NEXT: [[V_ADDC_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADDC_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 killed [[V_MUL_LO_U32_e64_1]], [[COPY7]], [[V_ADD_CO_U32_e64_1]], 0, implicit $exec			; GCN-NEXT: [[V_ADDC_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADDC_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 killed [[V_MUL_LO_U32_e64_1]], [[COPY6]], [[V_ADD_CO_U32_e64_1]], 0, implicit $exec
	; GCN-NEXT: [[V_MUL_HI_U32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_HI_U32_e64 [[COPY4]], [[V_ADDC_U32_e64_]], implicit $exec			; GCN-NEXT: [[V_MUL_HI_U32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_HI_U32_e64 [[COPY3]], [[V_ADDC_U32_e64_]], implicit $exec
	; GCN-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 -181084736			; GCN-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 -181084736
	; GCN-NEXT: [[V_MUL_LO_U32_e64_2:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[V_MUL_HI_U32_e64_]], [[S_MOV_B32_1]], implicit $exec			; GCN-NEXT: [[V_MUL_LO_U32_e64_2:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[V_MUL_HI_U32_e64_]], [[S_MOV_B32_1]], implicit $exec
	; GCN-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY killed [[S_MOV_B32_1]]			; GCN-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY killed [[S_MOV_B32_1]]
	; GCN-NEXT: [[V_ADDC_U32_e64_2:%[0-9]+]]:vgpr_32, [[V_ADDC_U32_e64_3:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 [[COPY8]], killed [[V_MUL_LO_U32_e64_2]], [[V_ADDC_U32_e64_1]], 0, implicit $exec			; GCN-NEXT: [[V_ADDC_U32_e64_2:%[0-9]+]]:vgpr_32, [[V_ADDC_U32_e64_3:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 [[COPY7]], killed [[V_MUL_LO_U32_e64_2]], [[V_ADDC_U32_e64_1]], 0, implicit $exec
	%0:vgpr_32 = COPY $vgpr0			%0:vgpr_32 = COPY $vgpr0
	%6:sreg_32 = COPY %0			%6:sreg_32 = COPY %0
	%1:vgpr_32 = COPY $vgpr1			%1:vgpr_32 = COPY $vgpr1
	%2:vgpr_32 = COPY $vgpr2			%2:vgpr_32 = COPY $vgpr2
	%3:sreg_32 = COPY $sgpr0			%3:sreg_32 = COPY %2
	%4:sreg_32 = COPY $sgpr1			%4:sreg_32 = COPY $sgpr1
	%5:sreg_32 = COPY $sgpr2			%5:sreg_32 = COPY $sgpr2
	%20:vgpr_32 = COPY %3			%20:vgpr_32 = COPY %3
	%7:sreg_32 = S_MUL_I32 %6, %4			%7:sreg_32 = S_MUL_I32 %6, %4
	%9:vgpr_32, %10:sreg_64_xexec = V_ADD_CO_U32_e64 killed %7, %20, 0, implicit $exec			%9:vgpr_32, %10:sreg_64_xexec = V_ADD_CO_U32_e64 killed %7, %20, 0, implicit $exec
	%8:sreg_32 = S_MUL_HI_U32 %4, %5			%8:sreg_32 = S_MUL_HI_U32 %4, %5
	%11:sreg_32 = S_MOV_B32 -614296167			%11:sreg_32 = S_MOV_B32 -614296167
	%12:sreg_32 = S_MUL_I32 %6, %3			%12:sreg_32 = S_MUL_I32 %6, %3
	%14:sreg_32, %13:sreg_64_xexec = S_ADD_CO_PSEUDO killed %12, killed %11, killed %10, implicit-def dead $scc			%14:sreg_32, %13:sreg_64_xexec = S_ADD_CO_PSEUDO killed %12, killed %11, killed %10, implicit-def dead $scc
	%15:sreg_32 = S_MUL_HI_U32 %4, %14			%15:sreg_32 = S_MUL_HI_U32 %4, %14
	%16:sreg_32 = S_MOV_B32 -181084736			%16:sreg_32 = S_MOV_B32 -181084736
	%17:sreg_32 = S_MUL_I32 %15, %16			%17:sreg_32 = S_MUL_I32 %15, %16
	%19:sreg_32, %18:sreg_64_xexec = S_ADD_CO_PSEUDO killed %16, killed %17, killed %13, implicit-def dead $scc			%19:sreg_32, %18:sreg_64_xexec = S_ADD_CO_PSEUDO killed %16, killed %17, killed %13, implicit-def dead $scc
	...			...

llvm/test/CodeGen/AMDGPU/saddo.ll

	Show First 20 Lines • Show All 245 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s7, s11			; SI-NEXT: s_mov_b32 s7, s11
	; SI-NEXT: buffer_load_dword v0, off, s[12:15], 0			; SI-NEXT: buffer_load_dword v0, off, s[12:15], 0
	; SI-NEXT: buffer_load_dword v1, off, s[4:7], 0			; SI-NEXT: buffer_load_dword v1, off, s[4:7], 0
	; SI-NEXT: s_mov_b32 s8, s0			; SI-NEXT: s_mov_b32 s8, s0
	; SI-NEXT: s_mov_b32 s9, s1			; SI-NEXT: s_mov_b32 s9, s1
	; SI-NEXT: s_mov_b32 s4, s2			; SI-NEXT: s_mov_b32 s4, s2
	; SI-NEXT: s_mov_b32 s5, s3			; SI-NEXT: s_mov_b32 s5, s3
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_add_i32_e32 v2, vcc, v1, v0			; SI-NEXT: v_add_i32_e32 v2, vcc, v0, v1
	; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v1			; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v1
	; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], v2, v0			; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], v2, v0
	; SI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]			; SI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]
	; SI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; SI-NEXT: buffer_store_dword v2, off, s[8:11], 0			; SI-NEXT: buffer_store_dword v2, off, s[8:11], 0
	; SI-NEXT: buffer_store_byte v0, off, s[4:7], 0			; SI-NEXT: buffer_store_byte v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_saddo_i32:			; VI-LABEL: v_saddo_i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s4
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s5
	; VI-NEXT: v_mov_b32_e32 v2, s6			; VI-NEXT: v_mov_b32_e32 v2, s6
	; VI-NEXT: v_mov_b32_e32 v3, s7			; VI-NEXT: v_mov_b32_e32 v3, s7
	; VI-NEXT: flat_load_dword v4, v[0:1]			; VI-NEXT: flat_load_dword v4, v[0:1]
	; VI-NEXT: flat_load_dword v5, v[2:3]			; VI-NEXT: flat_load_dword v5, v[2:3]
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_mov_b32_e32 v2, s2			; VI-NEXT: v_mov_b32_e32 v2, s2
	; VI-NEXT: v_mov_b32_e32 v3, s3			; VI-NEXT: v_mov_b32_e32 v3, s3
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_add_u32_e32 v6, vcc, v5, v4			; VI-NEXT: v_add_u32_e32 v6, vcc, v4, v5
	; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v5			; VI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v5
	; VI-NEXT: v_cmp_lt_i32_e64 s[0:1], v6, v4			; VI-NEXT: v_cmp_lt_i32_e64 s[0:1], v6, v4
	; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]			; VI-NEXT: s_xor_b64 s[0:1], vcc, s[0:1]
	; VI-NEXT: flat_store_dword v[0:1], v6			; VI-NEXT: flat_store_dword v[0:1], v6
	; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[0:1]
	; VI-NEXT: flat_store_byte v[2:3], v0			; VI-NEXT: flat_store_byte v[2:3], v0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 439 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll

	Show First 20 Lines • Show All 98 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @scalar_to_vector_v4i16() {			define amdgpu_kernel void @scalar_to_vector_v4i16() {
	; SI-LABEL: scalar_to_vector_v4i16:			; SI-LABEL: scalar_to_vector_v4i16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_readfirstlane_b32 s0, v0
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: s_lshl_b32 s1, s0, 8
	; SI-NEXT: v_and_b32_e32 v1, 0xff00, v0			; SI-NEXT: s_or_b32 s0, s1, s0
	; SI-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; SI-NEXT: s_and_b32 s1, s0, 0xff00
	; SI-NEXT: v_or_b32_e32 v1, v2, v1			; SI-NEXT: s_lshr_b32 s4, s0, 8
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v1			; SI-NEXT: s_or_b32 s1, s4, s1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: s_lshl_b32 s4, s1, 16
	; SI-NEXT: v_or_b32_e32 v0, v0, v2			; SI-NEXT: s_or_b32 s1, s1, s4
				; SI-NEXT: s_or_b32 s0, s0, s4
				; SI-NEXT: v_mov_b32_e32 v0, s0
				; SI-NEXT: v_mov_b32_e32 v1, s1
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4i16:			; VI-LABEL: scalar_to_vector_v4i16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	Show All 17 Lines

	define amdgpu_kernel void @scalar_to_vector_v4f16() {			define amdgpu_kernel void @scalar_to_vector_v4f16() {
	; SI-LABEL: scalar_to_vector_v4f16:			; SI-LABEL: scalar_to_vector_v4f16:
	; SI: ; %bb.0: ; %bb			; SI: ; %bb.0: ; %bb
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; SI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v0			; SI-NEXT: v_readfirstlane_b32 s0, v0
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: s_lshl_b32 s1, s0, 8
	; SI-NEXT: v_and_b32_e32 v1, 0xff00, v0			; SI-NEXT: s_or_b32 s0, s1, s0
	; SI-NEXT: v_lshrrev_b32_e32 v2, 8, v0			; SI-NEXT: s_and_b32 s1, s0, 0xff00
	; SI-NEXT: v_or_b32_e32 v1, v2, v1			; SI-NEXT: s_lshr_b32 s4, s0, 8
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v1			; SI-NEXT: s_or_b32 s1, s4, s1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: s_lshl_b32 s4, s1, 16
	; SI-NEXT: v_or_b32_e32 v0, v0, v2			; SI-NEXT: s_or_b32 s1, s1, s4
				; SI-NEXT: s_or_b32 s0, s0, s4
				; SI-NEXT: v_mov_b32_e32 v0, s0
				; SI-NEXT: v_mov_b32_e32 v1, s1
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: scalar_to_vector_v4f16:			; VI-LABEL: scalar_to_vector_v4f16:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0			; VI-NEXT: buffer_load_ubyte v0, off, s[0:3], 0
	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv.ll

	Show All 36 Lines
	; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v5, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v5, v0
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v5			; GCN-NEXT: v_xor_b32_e32 v0, v0, v5
	; GCN-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GCN-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_xor_b32_e32 v2, v5, v2			; GCN-NEXT: v_xor_b32_e32 v2, v5, v2
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v3			; GCN-NEXT: v_mul_lo_u32 v4, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v3, v4			; GCN-NEXT: v_mul_hi_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v3			; GCN-NEXT: v_mul_hi_u32 v3, v0, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v1			; GCN-NEXT: v_mul_lo_u32 v4, v3, v1
	; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v3
	; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v4, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v4, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v1, v0
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v2			; GCN-NEXT: v_xor_b32_e32 v0, v0, v2
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_i32:			; TONGA-LABEL: sdiv_i32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	Show All 15 Lines
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v3, v3			; TONGA-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v5, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v5, v0
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v5			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v5
	; TONGA-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; TONGA-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3			; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3
	; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2			; TONGA-NEXT: v_xor_b32_e32 v2, v5, v2
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4
	; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v0, v3
	; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1			; TONGA-NEXT: v_mul_lo_u32 v4, v3, v1
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v4, v0
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0			; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v1, v0
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v3, v4, vcc
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v2
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v2			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v2, v0
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32:			; GFX9-LABEL: sdiv_i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s8, s2			; GCN-NEXT: s_mov_b32 s8, s2
	; GCN-NEXT: s_mov_b32 s9, s3			; GCN-NEXT: s_mov_b32 s9, s3
	; GCN-NEXT: buffer_load_dword v0, off, s[8:11], 0			; GCN-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: v_lshrrev_b32_e32 v1, 30, v1			; GCN-NEXT: v_lshrrev_b32_e32 v1, 30, v1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 2, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 2, v0
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_i32_4:			; TONGA-LABEL: sdiv_i32_4:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	; TONGA-NEXT: s_mov_b32 s10, s6			; TONGA-NEXT: s_mov_b32 s10, s6
	; TONGA-NEXT: s_mov_b32 s11, s7			; TONGA-NEXT: s_mov_b32 s11, s7
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s8, s2			; TONGA-NEXT: s_mov_b32 s8, s2
	; TONGA-NEXT: s_mov_b32 s9, s3			; TONGA-NEXT: s_mov_b32 s9, s3
	; TONGA-NEXT: buffer_load_dword v0, off, s[8:11], 0			; TONGA-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; TONGA-NEXT: s_mov_b32 s4, s0			; TONGA-NEXT: s_mov_b32 s4, s0
	; TONGA-NEXT: s_mov_b32 s5, s1			; TONGA-NEXT: s_mov_b32 s5, s1
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; TONGA-NEXT: v_lshrrev_b32_e32 v1, 30, v1			; TONGA-NEXT: v_lshrrev_b32_e32 v1, 30, v1
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v1			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 2, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 2, v0
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_i32_4:			; GFX9-LABEL: sdiv_i32_4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_lo_u32 v10, v10, v5			; GCN-NEXT: v_mul_lo_u32 v10, v10, v5
	; GCN-NEXT: v_mul_lo_u32 v11, v11, v7			; GCN-NEXT: v_mul_lo_u32 v11, v11, v7
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v4			; GCN-NEXT: v_xor_b32_e32 v0, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v5, v10			; GCN-NEXT: v_mul_hi_u32 v4, v5, v10
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v6			; GCN-NEXT: v_xor_b32_e32 v1, v1, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v7, v11			; GCN-NEXT: v_mul_hi_u32 v6, v7, v11
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v6, v7			; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v6
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v4			; GCN-NEXT: v_mul_hi_u32 v4, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v5			; GCN-NEXT: v_mul_hi_u32 v5, v1, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v4, v2			; GCN-NEXT: v_mul_lo_u32 v6, v4, v2
	; GCN-NEXT: v_mul_lo_u32 v10, v5, v3			; GCN-NEXT: v_mul_lo_u32 v10, v5, v3
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v4			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v6
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v10			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v10, v1
	; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; GCN-NEXT: v_sub_i32_e32 v6, vcc, v0, v2			; GCN-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]
	; GCN-NEXT: v_sub_i32_e32 v7, vcc, v1, v3			; GCN-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v8			; GCN-NEXT: v_xor_b32_e32 v0, v0, v8
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v9			; GCN-NEXT: v_xor_b32_e32 v1, v1, v9
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v8			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v8
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v9			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v9, v1
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_v2i32:			; TONGA-LABEL: sdiv_v2i32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	Show All 30 Lines
	; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5			; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5
	; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7			; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1			; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10			; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v6			; TONGA-NEXT: v_xor_b32_e32 v1, v1, v6
	; TONGA-NEXT: v_mul_hi_u32 v6, v7, v11			; TONGA-NEXT: v_mul_hi_u32 v6, v7, v11
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, v4, v5			; TONGA-NEXT: v_add_u32_e32 v4, vcc, v4, v5
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v6, v7			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v7, v6
	; TONGA-NEXT: v_mul_hi_u32 v4, v0, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v5, v1, v5			; TONGA-NEXT: v_mul_hi_u32 v5, v1, v5
	; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2			; TONGA-NEXT: v_mul_lo_u32 v6, v4, v2
	; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3			; TONGA-NEXT: v_mul_lo_u32 v10, v5, v3
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v6, vcc, v0, v2			; TONGA-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0
	; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v11, s[2:3]
	; TONGA-NEXT: v_sub_u32_e32 v7, vcc, v1, v3			; TONGA-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
	; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
	▲ Show 20 Lines • Show All 316 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v12			; GCN-NEXT: v_xor_b32_e32 v2, v2, v12
	; GCN-NEXT: v_sub_i32_e32 v12, vcc, 0, v5			; GCN-NEXT: v_sub_i32_e32 v12, vcc, 0, v5
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v11			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v11
	; GCN-NEXT: v_cvt_u32_f32_e32 v10, v10			; GCN-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GCN-NEXT: v_mul_lo_u32 v12, v12, v9			; GCN-NEXT: v_mul_lo_u32 v12, v12, v9
	; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; GCN-NEXT: v_sub_i32_e32 v11, vcc, v0, v4			; GCN-NEXT: v_subrev_i32_e32 v11, vcc, v4, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v14, 31, v7			; GCN-NEXT: v_ashrrev_i32_e32 v14, 31, v7
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v14, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v14, v7
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0, v6			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0, v6
	; GCN-NEXT: v_mul_lo_u32 v0, v0, v10			; GCN-NEXT: v_mul_lo_u32 v0, v0, v10
	; GCN-NEXT: v_xor_b32_e32 v4, v7, v14			; GCN-NEXT: v_xor_b32_e32 v4, v7, v14
	; GCN-NEXT: v_mul_hi_u32 v7, v9, v12			; GCN-NEXT: v_mul_hi_u32 v7, v9, v12
	; GCN-NEXT: v_cvt_f32_u32_e32 v12, v4			; GCN-NEXT: v_cvt_f32_u32_e32 v12, v4
	; GCN-NEXT: v_mul_hi_u32 v0, v10, v0			; GCN-NEXT: v_mul_hi_u32 v0, v10, v0
	; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9			; GCN-NEXT: v_add_i32_e32 v7, vcc, v9, v7
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v7			; GCN-NEXT: v_mul_hi_u32 v7, v1, v7
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v10			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v10
	; GCN-NEXT: v_mul_hi_u32 v0, v2, v0			; GCN-NEXT: v_mul_hi_u32 v0, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v10, v7, v5			; GCN-NEXT: v_mul_lo_u32 v10, v7, v5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4			; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v10			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v10, v1
	; GCN-NEXT: v_mul_lo_u32 v10, v0, v6			; GCN-NEXT: v_mul_lo_u32 v10, v0, v6
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
	; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12			; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12			; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v10			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v10, v2
	; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v7			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v7
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v0			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; GCN-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v5			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v5, v1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v2, v6			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v6, v2
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]
	; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v7			; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5
	; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc
	; GCN-NEXT: v_xor_b32_e32 v1, v8, v15			; GCN-NEXT: v_xor_b32_e32 v1, v8, v15
	; GCN-NEXT: v_xor_b32_e32 v5, v0, v16			; GCN-NEXT: v_xor_b32_e32 v5, v0, v16
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v15			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v15
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v5, v16			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v16, v5
	; GCN-NEXT: v_mul_lo_u32 v5, v9, v12			; GCN-NEXT: v_mul_lo_u32 v5, v9, v12
	; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3			; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v8, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v12, v5			; GCN-NEXT: v_mul_hi_u32 v5, v12, v5
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v8			; GCN-NEXT: v_xor_b32_e32 v3, v3, v8
	; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v10			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v10
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v12			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v12
	; GCN-NEXT: v_mul_hi_u32 v5, v3, v5			; GCN-NEXT: v_mul_hi_u32 v5, v3, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v17			; GCN-NEXT: v_xor_b32_e32 v2, v2, v17
	; GCN-NEXT: v_mul_lo_u32 v6, v5, v4			; GCN-NEXT: v_mul_lo_u32 v6, v5, v4
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v17			; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v17, v2
	; GCN-NEXT: v_xor_b32_e32 v7, v8, v14			; GCN-NEXT: v_xor_b32_e32 v7, v8, v14
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v6			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v6, v3
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4
	; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
	; GCN-NEXT: v_sub_i32_e32 v6, vcc, v3, v4			; GCN-NEXT: v_subrev_i32_e32 v6, vcc, v4, v3
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5			; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc			; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v7			; GCN-NEXT: v_xor_b32_e32 v3, v3, v7
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v7			; GCN-NEXT: v_subrev_i32_e32 v3, vcc, v7, v3
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_v4i32:			; TONGA-LABEL: sdiv_v4i32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s11, 0xf000			; TONGA-NEXT: s_mov_b32 s11, 0xf000
	; TONGA-NEXT: s_mov_b32 s10, -1			; TONGA-NEXT: s_mov_b32 s10, -1
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v12			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v12
	; TONGA-NEXT: v_sub_u32_e32 v12, vcc, 0, v5			; TONGA-NEXT: v_sub_u32_e32 v12, vcc, 0, v5
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v11			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v11
	; TONGA-NEXT: v_cvt_u32_f32_e32 v10, v10			; TONGA-NEXT: v_cvt_u32_f32_e32 v10, v10
	; TONGA-NEXT: v_mul_lo_u32 v12, v12, v9			; TONGA-NEXT: v_mul_lo_u32 v12, v12, v9
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v11, vcc, v0, v4			; TONGA-NEXT: v_subrev_u32_e32 v11, vcc, v4, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v14, 31, v7			; TONGA-NEXT: v_ashrrev_i32_e32 v14, 31, v7
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, v14, v7			; TONGA-NEXT: v_add_u32_e32 v7, vcc, v14, v7
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, 0, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, 0, v6
	; TONGA-NEXT: v_mul_lo_u32 v0, v0, v10			; TONGA-NEXT: v_mul_lo_u32 v0, v0, v10
	; TONGA-NEXT: v_xor_b32_e32 v4, v7, v14			; TONGA-NEXT: v_xor_b32_e32 v4, v7, v14
	; TONGA-NEXT: v_mul_hi_u32 v7, v9, v12			; TONGA-NEXT: v_mul_hi_u32 v7, v9, v12
	; TONGA-NEXT: v_cvt_f32_u32_e32 v12, v4			; TONGA-NEXT: v_cvt_f32_u32_e32 v12, v4
	; TONGA-NEXT: v_mul_hi_u32 v0, v10, v0			; TONGA-NEXT: v_mul_hi_u32 v0, v10, v0
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, v7, v9			; TONGA-NEXT: v_add_u32_e32 v7, vcc, v9, v7
	; TONGA-NEXT: v_mul_hi_u32 v7, v1, v7			; TONGA-NEXT: v_mul_hi_u32 v7, v1, v7
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v10			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v10
	; TONGA-NEXT: v_mul_hi_u32 v0, v2, v0			; TONGA-NEXT: v_mul_hi_u32 v0, v2, v0
	; TONGA-NEXT: v_mul_lo_u32 v10, v7, v5			; TONGA-NEXT: v_mul_lo_u32 v10, v7, v5
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v12, v12			; TONGA-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4			; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
	; TONGA-NEXT: v_mul_lo_u32 v10, v0, v6			; TONGA-NEXT: v_mul_lo_u32 v10, v0, v6
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5			; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
	; TONGA-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12			; TONGA-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; TONGA-NEXT: v_cvt_u32_f32_e32 v12, v12			; TONGA-NEXT: v_cvt_u32_f32_e32 v12, v12
	; TONGA-NEXT: v_sub_u32_e32 v2, vcc, v2, v10			; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v10, v2
	; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v7			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v7
	; TONGA-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v0			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v0
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; TONGA-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]			; TONGA-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v1, v5			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v5, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v2, v6			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v6, v2
	; TONGA-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]			; TONGA-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, 1, v7			; TONGA-NEXT: v_add_u32_e32 v1, vcc, 1, v7
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5
	; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc
	; TONGA-NEXT: v_xor_b32_e32 v1, v8, v15			; TONGA-NEXT: v_xor_b32_e32 v1, v8, v15
	; TONGA-NEXT: v_xor_b32_e32 v5, v0, v16			; TONGA-NEXT: v_xor_b32_e32 v5, v0, v16
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v15, v1			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v15, v1
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v16, v5			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v16, v5
	; TONGA-NEXT: v_mul_lo_u32 v5, v9, v12			; TONGA-NEXT: v_mul_lo_u32 v5, v9, v12
	; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v3			; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v3
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v8, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v8, v3
	; TONGA-NEXT: v_mul_hi_u32 v5, v12, v5			; TONGA-NEXT: v_mul_hi_u32 v5, v12, v5
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v8			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v8
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v10			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v10
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v12			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v12
	; TONGA-NEXT: v_mul_hi_u32 v5, v3, v5			; TONGA-NEXT: v_mul_hi_u32 v5, v3, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17
	; TONGA-NEXT: v_mul_lo_u32 v6, v5, v4			; TONGA-NEXT: v_mul_lo_u32 v6, v5, v4
	; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2			; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2
	; TONGA-NEXT: v_xor_b32_e32 v7, v8, v14			; TONGA-NEXT: v_xor_b32_e32 v7, v8, v14
	; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v6			; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v6, vcc, v3, v4			; TONGA-NEXT: v_subrev_u32_e32 v6, vcc, v4, v3
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; TONGA-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7
	; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v7, v3			; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v7
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i32:			; GFX9-LABEL: sdiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s11, 0xf000			; GFX9-NEXT: s_mov_b32 s11, 0xf000
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	▲ Show 20 Lines • Show All 448 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v4, v2			; TONGA-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; TONGA-NEXT: v_or_b32_e32 v0, 1, v0			; TONGA-NEXT: v_or_b32_e32 v0, 1, v0
	; TONGA-NEXT: v_mul_f32_e32 v1, v3, v4			; TONGA-NEXT: v_mul_f32_e32 v1, v3, v4
	; TONGA-NEXT: v_trunc_f32_e32 v1, v1			; TONGA-NEXT: v_trunc_f32_e32 v1, v1
	; TONGA-NEXT: v_mad_f32 v3, -v1, v2, v3			; TONGA-NEXT: v_mad_f32 v3, -v1, v2, v3
	; TONGA-NEXT: v_cvt_i32_f32_e32 v1, v1			; TONGA-NEXT: v_cvt_i32_f32_e32 v1, v1
	; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 8			; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 8
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_sdiv_i8:			; GFX9-LABEL: v_sdiv_i8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; TONGA-NEXT: v_or_b32_e32 v0, 1, v0			; TONGA-NEXT: v_or_b32_e32 v0, 1, v0
	; TONGA-NEXT: v_mul_f32_e32 v1, v3, v4			; TONGA-NEXT: v_mul_f32_e32 v1, v3, v4
	; TONGA-NEXT: v_trunc_f32_e32 v1, v1			; TONGA-NEXT: v_trunc_f32_e32 v1, v1
	; TONGA-NEXT: v_mad_f32 v3, -v1, v2, v3			; TONGA-NEXT: v_mad_f32 v3, -v1, v2, v3
	; TONGA-NEXT: v_cvt_i32_f32_e32 v1, v1			; TONGA-NEXT: v_cvt_i32_f32_e32 v1, v1
	; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 23			; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 23
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_sdiv_i23:			; GFX9-LABEL: v_sdiv_i23:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-NEXT: v_mul_f32_e32 v2, v3, v4			; GCN-NEXT: v_mul_f32_e32 v2, v3, v4
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3			; GCN-NEXT: v_mad_f32 v3, -v2, v1, v3
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: v_sdiv_i24:			; TONGA-LABEL: v_sdiv_i24:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	Show All 24 Lines
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; TONGA-NEXT: v_or_b32_e32 v0, 1, v0			; TONGA-NEXT: v_or_b32_e32 v0, 1, v0
	; TONGA-NEXT: v_mul_f32_e32 v2, v3, v4			; TONGA-NEXT: v_mul_f32_e32 v2, v3, v4
	; TONGA-NEXT: v_trunc_f32_e32 v2, v2			; TONGA-NEXT: v_trunc_f32_e32 v2, v2
	; TONGA-NEXT: v_mad_f32 v3, -v2, v1, v3			; TONGA-NEXT: v_mad_f32 v3, -v2, v1, v3
	; TONGA-NEXT: v_cvt_i32_f32_e32 v2, v2			; TONGA-NEXT: v_cvt_i32_f32_e32 v2, v2
	; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; TONGA-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v2, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 24			; TONGA-NEXT: v_bfe_i32 v0, v0, 0, 24
	; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0			; TONGA-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_sdiv_i24:			; GFX9-LABEL: v_sdiv_i24:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s8, s2			; GCN-NEXT: s_mov_b32 s8, s2
	; GCN-NEXT: s_mov_b32 s9, s3			; GCN-NEXT: s_mov_b32 s9, s3
	; GCN-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; GCN-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_bfe_i32 v2, v1, 0, 25			; GCN-NEXT: v_bfe_i32 v2, v1, 0, 25
	; GCN-NEXT: v_bfe_i32 v1, v1, 24, 1			; GCN-NEXT: v_bfe_i32 v1, v1, 24, 1
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v1, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v1
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v1			; GCN-NEXT: v_xor_b32_e32 v2, v2, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v3, v2			; GCN-NEXT: v_cvt_f32_u32_e32 v3, v2
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, 0, v2
	; GCN-NEXT: v_bfe_i32 v5, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v5, v0, 0, 25
	; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GCN-NEXT: v_bfe_i32 v0, v0, 24, 1			; GCN-NEXT: v_bfe_i32 v0, v0, 24, 1
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v0, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v0
	; GCN-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; GCN-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_xor_b32_e32 v5, v5, v0			; GCN-NEXT: v_xor_b32_e32 v5, v5, v0
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v1			; GCN-NEXT: v_xor_b32_e32 v0, v0, v1
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v3			; GCN-NEXT: v_mul_lo_u32 v4, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v3, v4			; GCN-NEXT: v_mul_hi_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_mul_hi_u32 v3, v5, v3			; GCN-NEXT: v_mul_hi_u32 v3, v5, v3
	; GCN-NEXT: v_mul_lo_u32 v1, v3, v2			; GCN-NEXT: v_mul_lo_u32 v1, v3, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v1, v5			; GCN-NEXT: v_subrev_i32_e32 v1, vcc, v1, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v1			; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v1
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3			; GCN-NEXT: v_add_i32_e32 v4, vcc, 1, v3
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v1, v2
	; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, v3, v4, vcc
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v0			; GCN-NEXT: v_xor_b32_e32 v1, v1, v0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_subrev_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GCN-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: v_sdiv_i25:			; TONGA-LABEL: v_sdiv_i25:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	; TONGA-NEXT: s_mov_b32 s10, s6			; TONGA-NEXT: s_mov_b32 s10, s6
	; TONGA-NEXT: s_mov_b32 s11, s7			; TONGA-NEXT: s_mov_b32 s11, s7
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s8, s2			; TONGA-NEXT: s_mov_b32 s8, s2
	; TONGA-NEXT: s_mov_b32 s9, s3			; TONGA-NEXT: s_mov_b32 s9, s3
	; TONGA-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; TONGA-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; TONGA-NEXT: s_mov_b32 s4, s0			; TONGA-NEXT: s_mov_b32 s4, s0
	; TONGA-NEXT: s_mov_b32 s5, s1			; TONGA-NEXT: s_mov_b32 s5, s1
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_bfe_i32 v2, v1, 0, 25			; TONGA-NEXT: v_bfe_i32 v2, v1, 0, 25
	; TONGA-NEXT: v_bfe_i32 v1, v1, 24, 1			; TONGA-NEXT: v_bfe_i32 v1, v1, 24, 1
	; TONGA-NEXT: v_add_u32_e32 v2, vcc, v1, v2			; TONGA-NEXT: v_add_u32_e32 v2, vcc, v2, v1
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v1			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v1
	; TONGA-NEXT: v_cvt_f32_u32_e32 v3, v2			; TONGA-NEXT: v_cvt_f32_u32_e32 v3, v2
	; TONGA-NEXT: v_sub_u32_e32 v4, vcc, 0, v2			; TONGA-NEXT: v_sub_u32_e32 v4, vcc, 0, v2
	; TONGA-NEXT: v_bfe_i32 v5, v0, 0, 25			; TONGA-NEXT: v_bfe_i32 v5, v0, 0, 25
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v3, v3			; TONGA-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; TONGA-NEXT: v_bfe_i32 v0, v0, 24, 1			; TONGA-NEXT: v_bfe_i32 v0, v0, 24, 1
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v0, v5			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v0
	; TONGA-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3			; TONGA-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3			; TONGA-NEXT: v_cvt_u32_f32_e32 v3, v3
	; TONGA-NEXT: v_xor_b32_e32 v5, v5, v0			; TONGA-NEXT: v_xor_b32_e32 v5, v5, v0
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v1
	; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3			; TONGA-NEXT: v_mul_lo_u32 v4, v4, v3
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4			; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v4, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v4
	; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3			; TONGA-NEXT: v_mul_hi_u32 v3, v5, v3
	; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2			; TONGA-NEXT: v_mul_lo_u32 v1, v3, v2
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3			; TONGA-NEXT: v_add_u32_e32 v4, vcc, 1, v3
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v1, v5			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v1, v2
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
	; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v2, v1			; TONGA-NEXT: v_subrev_u32_e32 v4, vcc, v2, v1
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_lshrrev_b32_e32 v5, 31, v1			; GCN-NEXT: v_lshrrev_b32_e32 v5, 31, v1
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 12, v1			; GCN-NEXT: v_ashrrev_i32_e32 v1, 12, v1
	; GCN-NEXT: v_lshrrev_b32_e32 v6, 31, v2			; GCN-NEXT: v_lshrrev_b32_e32 v6, 31, v2
	; GCN-NEXT: v_ashrrev_i32_e32 v2, 12, v2			; GCN-NEXT: v_ashrrev_i32_e32 v2, 12, v2
	; GCN-NEXT: v_lshrrev_b32_e32 v7, 31, v3			; GCN-NEXT: v_lshrrev_b32_e32 v7, 31, v3
	; GCN-NEXT: v_ashrrev_i32_e32 v3, 12, v3			; GCN-NEXT: v_ashrrev_i32_e32 v3, 12, v3
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v5
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; GCN-NEXT: v_add_i32_e32 v2, vcc, v6, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v7
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: scalarize_mulhs_4xi32:			; TONGA-LABEL: scalarize_mulhs_4xi32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	Show All 13 Lines
	; TONGA-NEXT: v_lshrrev_b32_e32 v4, 31, v0			; TONGA-NEXT: v_lshrrev_b32_e32 v4, 31, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v0, 12, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v0, 12, v0
	; TONGA-NEXT: v_lshrrev_b32_e32 v5, 31, v1			; TONGA-NEXT: v_lshrrev_b32_e32 v5, 31, v1
	; TONGA-NEXT: v_ashrrev_i32_e32 v1, 12, v1			; TONGA-NEXT: v_ashrrev_i32_e32 v1, 12, v1
	; TONGA-NEXT: v_lshrrev_b32_e32 v6, 31, v2			; TONGA-NEXT: v_lshrrev_b32_e32 v6, 31, v2
	; TONGA-NEXT: v_ashrrev_i32_e32 v2, 12, v2			; TONGA-NEXT: v_ashrrev_i32_e32 v2, 12, v2
	; TONGA-NEXT: v_lshrrev_b32_e32 v7, 31, v3			; TONGA-NEXT: v_lshrrev_b32_e32 v7, 31, v3
	; TONGA-NEXT: v_ashrrev_i32_e32 v3, 12, v3			; TONGA-NEXT: v_ashrrev_i32_e32 v3, 12, v3
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v4			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v1, v5			; TONGA-NEXT: v_add_u32_e32 v1, vcc, v1, v5
	; TONGA-NEXT: v_add_u32_e32 v2, vcc, v2, v6			; TONGA-NEXT: v_add_u32_e32 v2, vcc, v2, v6
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v3, v7			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v7, v3
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: scalarize_mulhs_4xi32:			; GFX9-LABEL: scalarize_mulhs_4xi32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

	Show All 30 Lines
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: s_add_u32 s2, s2, s12			; GCN-NEXT: s_add_u32 s2, s2, s12
	; GCN-NEXT: s_mov_b32 s13, s12			; GCN-NEXT: s_mov_b32 s13, s12
	; GCN-NEXT: v_mul_lo_u32 v2, s4, v1			; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s4, v0			; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s5, v0			; GCN-NEXT: v_mul_lo_u32 v5, s5, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s4, v0			; GCN-NEXT: v_mul_lo_u32 v4, s4, v0
	; GCN-NEXT: s_addc_u32 s3, s3, s12			; GCN-NEXT: s_addc_u32 s3, s3, s12
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v4			; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s10, v1			; GCN-NEXT: v_mul_lo_u32 v2, s10, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s10, v0			; GCN-NEXT: v_mul_hi_u32 v3, s10, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s11, v0			; GCN-NEXT: v_mul_lo_u32 v4, s11, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s11			; GCN-NEXT: v_mov_b32_e32 v5, s11
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, s10, v0			; GCN-NEXT: v_mul_lo_u32 v3, s10, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3			; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s10, v3
	; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v4
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v5
	▲ Show 20 Lines • Show All 408 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: s_or_b32 s4, s4, 1			; GCN-IR-NEXT: s_or_b32 s4, s4, 1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s4			; GCN-IR-NEXT: v_mov_b32_e32 v3, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 40			%1 = ashr i64 %x, 40
	%2 = ashr i64 %y, 40			%2 = ashr i64 %y, 40
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s0			; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 32			%1 = ashr i64 %x, 32
	%2 = ashr i64 %y, 32			%2 = ashr i64 %y, 32
	%result = sdiv i64 %1, %2			%result = sdiv i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	Show All 19 Lines
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv31_64:			; GCN-IR-LABEL: s_test_sdiv31_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 23
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv23_64:			; GCN-IR-LABEL: s_test_sdiv23_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_or_b32 s4, s4, 1			; GCN-NEXT: s_or_b32 s4, s4, 1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_mov_b32_e32 v3, s4			; GCN-NEXT: v_mov_b32_e32 v3, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv25_64:			; GCN-IR-LABEL: s_test_sdiv25_64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v5, s4			; GCN-IR-NEXT: v_mov_b32_e32 v5, s4
	; GCN-IR-NEXT: v_mul_f32_e32 v4, v3, v4			; GCN-IR-NEXT: v_mul_f32_e32 v4, v3, v4
	; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4			; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4
	; GCN-IR-NEXT: v_mad_f32 v3, -v4, v2, v3			; GCN-IR-NEXT: v_mad_f32 v3, -v4, v2, v3
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v4, v4			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v4, v4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v2, 0, v5, vcc
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-IR-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-IR-NEXT: v_bfe_i32 v2, v2, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v2, v2, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 31, v2			; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 31, v2
	; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr <2 x i64> %x, <i64 40, i64 40>			%1 = ashr <2 x i64> %x, <i64 40, i64 40>
	%2 = ashr <2 x i64> %y, <i64 40, i64 40>			%2 = ashr <2 x i64> %y, <i64 40, i64 40>
	%result = sdiv <2 x i64> %1, %2			%result = sdiv <2 x i64> %1, %2
	▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s4, v1			; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s4, v0			; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s5, v0			; GCN-NEXT: v_mul_lo_u32 v5, s5, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s4, v0			; GCN-NEXT: v_mul_lo_u32 v4, s4, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 32 Lines
	; GCN-NEXT: v_mul_hi_u32 v0, v0, 24			; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
	; GCN-NEXT: v_mul_hi_u32 v1, v1, 24			; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
	; GCN-NEXT: v_mov_b32_e32 v4, s3			; GCN-NEXT: v_mov_b32_e32 v4, s3
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s3, v0			; GCN-NEXT: v_mul_lo_u32 v1, s3, v0
	; GCN-NEXT: v_mul_hi_u32 v2, s2, v0			; GCN-NEXT: v_mul_hi_u32 v2, s2, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, s2, v0			; GCN-NEXT: v_mul_lo_u32 v2, s2, v0
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, 24, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, 24, v2
	; GCN-NEXT: v_subb_u32_e64 v3, s[0:1], v3, v4, vcc			; GCN-NEXT: v_subb_u32_e64 v3, s[0:1], v3, v4, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2
	; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	▲ Show 20 Lines • Show All 618 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_k_num_i64:			; GCN-IR-LABEL: s_test_sdiv24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	Show All 10 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s0			; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%x.shr = ashr i64 %x, 40			%x.shr = ashr i64 %x, 40
	%result = sdiv i64 24, %x.shr			%result = sdiv i64 24, %x.shr
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	Show All 14 Lines
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s0, s0, 1
	; GCN-NEXT: v_mul_f32_e32 v1, 0x38331158, v0			; GCN-NEXT: v_mul_f32_e32 v1, 0x38331158, v0
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v0, -v1, s8, v0			; GCN-NEXT: v_mad_f32 v0, -v1, s8, v0
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s8			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s8
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v2, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_sdiv24_k_den_i64:			; GCN-IR-LABEL: s_test_sdiv24_k_den_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

Show First 20 Lines • Show All 481 Lines • ▼ Show 20 Lines	entry:
%mul2 = mul <2 x i16> %mul, %b		%mul2 = mul <2 x i16> %mul, %b
store <2 x i16> %mul2, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %mul2, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}add_bb_v2i16:		; GCN-LABEL: {{^}}add_bb_v2i16:
; NOSDWA-NOT: v_add_{{(_co)?}}_u32_sdwa		; NOSDWA-NOT: v_add_{{(_co)?}}_u32_sdwa

; VI: v_add_u32_sdwa v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI: v_readfirstlane_b32 [[LO:s[0-9]+]]
		; VI: v_readfirstlane_b32 [[HI:s[0-9]+]]
		; VI: s_lshr_b32 [[LOSH:s[0-9]+]], [[LO]], 16
		; VI: s_lshr_b32 [[HISH:s[0-9]+]], [[HI]], 16

; GFX9_10: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GFX9_10: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

define amdgpu_kernel void @add_bb_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) #0 {		define amdgpu_kernel void @add_bb_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) #0 {
entry:		entry:
%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4		%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4
%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4		%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4
br label %add_label		br label %add_label
▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.ll

	Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16			; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshl_b32_e32 v3, v3, v7			; SI-NEXT: v_lshlrev_b32_e32 v3, v7, v3
	; SI-NEXT: v_lshl_b32_e32 v2, v2, v6			; SI-NEXT: v_lshlrev_b32_e32 v2, v6, v2
	; SI-NEXT: v_lshl_b32_e32 v1, v1, v5			; SI-NEXT: v_lshlrev_b32_e32 v1, v5, v1
	; SI-NEXT: v_lshl_b32_e32 v0, v0, v4			; SI-NEXT: v_lshl_b32_e32 v0, v0, v4
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: shl_v4i32:			; VI-LABEL: shl_v4i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 2,128 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sra.ll

	Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16			; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_ashr_i32_e32 v3, v3, v7			; SI-NEXT: v_ashrrev_i32_e32 v3, v7, v3
	; SI-NEXT: v_ashr_i32_e32 v2, v2, v6			; SI-NEXT: v_ashrrev_i32_e32 v2, v6, v2
	; SI-NEXT: v_ashr_i32_e32 v1, v1, v5			; SI-NEXT: v_ashrrev_i32_e32 v1, v5, v1
	; SI-NEXT: v_ashr_i32_e32 v0, v0, v4			; SI-NEXT: v_ashr_i32_e32 v0, v0, v4
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: ashr_v4i32:			; VI-LABEL: ashr_v4i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s11, s7			; SI-NEXT: s_mov_b32 s11, s7
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_bfe_i32 v2, v0, 0, 16			; SI-NEXT: v_readfirstlane_b32 s0, v0
	; SI-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; SI-NEXT: v_readfirstlane_b32 s1, v1
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; SI-NEXT: s_sext_i32_i16 s2, s0
	; SI-NEXT: v_ashrrev_i32_e32 v0, v3, v0			; SI-NEXT: s_ashr_i32 s0, s0, 16
	; SI-NEXT: v_ashrrev_i32_e32 v1, v1, v2			; SI-NEXT: s_lshr_b32 s3, s1, 16
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: s_ashr_i32 s0, s0, s3
	; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1			; SI-NEXT: s_ashr_i32 s1, s2, s1
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: s_lshl_b32 s0, s0, 16
				; SI-NEXT: s_and_b32 s1, s1, 0xffff
				; SI-NEXT: s_or_b32 s0, s1, s0
				; SI-NEXT: v_mov_b32_e32 v0, s0
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: ashr_v2i16:			; VI-LABEL: ashr_v2i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_mov_b32 s10, s6			; VI-NEXT: s_mov_b32 s10, s6
	; VI-NEXT: s_mov_b32 s11, s7			; VI-NEXT: s_mov_b32 s11, s7
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s8, s2			; VI-NEXT: s_mov_b32 s8, s2
	; VI-NEXT: s_mov_b32 s9, s3			; VI-NEXT: s_mov_b32 s9, s3
	; VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0			; VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ashrrev_i32_sdwa v2, sext(v1), sext(v0) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0			; VI-NEXT: v_readfirstlane_b32 s0, v0
	; VI-NEXT: v_ashrrev_i32_sdwa v0, sext(v1), sext(v0) dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_readfirstlane_b32 s1, v1
	; VI-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: s_ashr_i32 s2, s0, 16
				; VI-NEXT: s_sext_i32_i16 s0, s0
				; VI-NEXT: s_ashr_i32 s3, s1, 16
				; VI-NEXT: s_sext_i32_i16 s1, s1
				; VI-NEXT: s_ashr_i32 s0, s0, s1
				; VI-NEXT: s_ashr_i32 s1, s2, s3
				; VI-NEXT: s_lshl_b32 s1, s1, 16
				; VI-NEXT: s_and_b32 s0, s0, 0xffff
				; VI-NEXT: s_or_b32 s0, s0, s1
				; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: ashr_v2i16:			; EG-LABEL: ashr_v2i16:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 14, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 14, @9, KC0[CB0:0-32], KC1[]
	Show All 40 Lines
	; SI-NEXT: s_mov_b32 s11, s7			; SI-NEXT: s_mov_b32 s11, s7
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_bfe_i32 v4, v0, 0, 16			; SI-NEXT: v_readfirstlane_b32 s0, v3
	; SI-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; SI-NEXT: v_readfirstlane_b32 s1, v2
	; SI-NEXT: v_bfe_i32 v5, v1, 0, 16			; SI-NEXT: v_readfirstlane_b32 s2, v1
	; SI-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; SI-NEXT: v_readfirstlane_b32 s3, v0
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; SI-NEXT: s_sext_i32_i16 s8, s3
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; SI-NEXT: s_ashr_i32 s3, s3, 16
	; SI-NEXT: v_ashr_i32_e32 v1, v1, v7			; SI-NEXT: s_sext_i32_i16 s9, s2
	; SI-NEXT: v_ashr_i32_e32 v3, v5, v3			; SI-NEXT: s_ashr_i32 s2, s2, 16
	; SI-NEXT: v_ashr_i32_e32 v0, v0, v6			; SI-NEXT: s_lshr_b32 s10, s1, 16
	; SI-NEXT: v_ashr_i32_e32 v2, v4, v2			; SI-NEXT: s_lshr_b32 s11, s0, 16
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: s_ashr_i32 s2, s2, s11
	; SI-NEXT: v_and_b32_e32 v3, 0xffff, v3			; SI-NEXT: s_ashr_i32 s0, s9, s0
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: s_ashr_i32 s3, s3, s10
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: s_ashr_i32 s1, s8, s1
	; SI-NEXT: v_or_b32_e32 v1, v3, v1			; SI-NEXT: s_lshl_b32 s2, s2, 16
	; SI-NEXT: v_or_b32_e32 v0, v2, v0			; SI-NEXT: s_and_b32 s0, s0, 0xffff
				; SI-NEXT: s_lshl_b32 s3, s3, 16
				; SI-NEXT: s_and_b32 s1, s1, 0xffff
				; SI-NEXT: s_or_b32 s0, s0, s2
				; SI-NEXT: s_or_b32 s1, s1, s3
				; SI-NEXT: v_mov_b32_e32 v0, s1
				; SI-NEXT: v_mov_b32_e32 v1, s0
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: ashr_v4i16:			; VI-LABEL: ashr_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_mov_b32 s10, s6			; VI-NEXT: s_mov_b32 s10, s6
	; VI-NEXT: s_mov_b32 s11, s7			; VI-NEXT: s_mov_b32 s11, s7
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s8, s2			; VI-NEXT: s_mov_b32 s8, s2
	; VI-NEXT: s_mov_b32 s9, s3			; VI-NEXT: s_mov_b32 s9, s3
	; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_ashrrev_i32_sdwa v4, sext(v2), sext(v0) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0			; VI-NEXT: v_readfirstlane_b32 s0, v2
	; VI-NEXT: v_ashrrev_i32_sdwa v0, sext(v2), sext(v0) dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_readfirstlane_b32 s1, v3
	; VI-NEXT: v_ashrrev_i32_sdwa v2, sext(v3), sext(v1) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0			; VI-NEXT: v_readfirstlane_b32 s2, v0
	; VI-NEXT: v_ashrrev_i32_sdwa v1, sext(v3), sext(v1) dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-NEXT: v_readfirstlane_b32 s3, v1
	; VI-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: s_ashr_i32 s8, s3, 16
	; VI-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI-NEXT: s_sext_i32_i16 s3, s3
				; VI-NEXT: s_ashr_i32 s9, s2, 16
				; VI-NEXT: s_sext_i32_i16 s2, s2
				; VI-NEXT: s_ashr_i32 s10, s1, 16
				; VI-NEXT: s_sext_i32_i16 s1, s1
				; VI-NEXT: s_ashr_i32 s11, s0, 16
				; VI-NEXT: s_sext_i32_i16 s0, s0
				; VI-NEXT: s_ashr_i32 s0, s2, s0
				; VI-NEXT: s_ashr_i32 s2, s9, s11
				; VI-NEXT: s_ashr_i32 s1, s3, s1
				; VI-NEXT: s_ashr_i32 s3, s8, s10
				; VI-NEXT: s_lshl_b32 s3, s3, 16
				; VI-NEXT: s_and_b32 s1, s1, 0xffff
				; VI-NEXT: s_lshl_b32 s2, s2, 16
				; VI-NEXT: s_and_b32 s0, s0, 0xffff
				; VI-NEXT: s_or_b32 s1, s1, s3
				; VI-NEXT: s_or_b32 s0, s0, s2
				; VI-NEXT: v_mov_b32_e32 v0, s0
				; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: ashr_v4i16:			; EG-LABEL: ashr_v4i16:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
	; EG-NEXT: TEX 0 @6			; EG-NEXT: TEX 0 @6
	; EG-NEXT: ALU 58, @9, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 58, @9, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 637 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem64.ll

	Show All 22 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v0			; GCN-NEXT: v_mul_lo_u32 v5, s1, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s0, v0			; GCN-NEXT: v_mul_lo_u32 v4, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 40 Lines
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s12, v1			; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
	; GCN-NEXT: v_mul_hi_u32 v2, s12, v0			; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
	; GCN-NEXT: v_mul_lo_u32 v3, s13, v0			; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s12, v0			; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1
	; GCN-NEXT: v_mov_b32_e32 v3, s13			; GCN-NEXT: v_mov_b32_e32 v3, s13
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2			; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
	; GCN-IR-NEXT: .LBB0_6: ; %udiv-end			; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1			; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0			; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
	; GCN-IR-NEXT: s_mov_b32 s11, 0xf000			; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s10, -1			; GCN-IR-NEXT: s_mov_b32 s10, -1
	; GCN-IR-NEXT: s_mov_b32 s8, s0			; GCN-IR-NEXT: s_mov_b32 s8, s0
	; GCN-IR-NEXT: s_mov_b32 s9, s1			; GCN-IR-NEXT: s_mov_b32 s9, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 449 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v3, s3			; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	Show All 15 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s3			; GCN-IR-NEXT: v_mov_b32_e32 v3, s3
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 25
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 39			%1 = ashr i64 %x, 39
	Show All 22 Lines
	; GCN-NEXT: v_mov_b32_e32 v3, s3			; GCN-NEXT: v_mov_b32_e32 v3, s3
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 31
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	Show All 15 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s3			; GCN-IR-NEXT: v_mov_b32_e32 v3, s3
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 31
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 33			%1 = ashr i64 %x, 33
	Show All 21 Lines
	; GCN-NEXT: v_mov_b32_e32 v3, s2			; GCN-NEXT: v_mov_b32_e32 v3, s2
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s3, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s3, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_srem32_64:			; GCN-IR-LABEL: s_test_srem32_64:
	Show All 12 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s2			; GCN-IR-NEXT: v_mov_b32_e32 v3, s2
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, v1, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1			; GCN-IR-NEXT: v_mad_f32 v1, -v2, v0, v1
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s3, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s3, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 32			%1 = ashr i64 %x, 32
	%2 = ashr i64 %y, 32			%2 = ashr i64 %y, 32
	Show All 33 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v0			; GCN-NEXT: v_mul_lo_u32 v5, s1, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s0, v0			; GCN-NEXT: v_mul_lo_u32 v4, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v4			; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s12, v1			; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
	; GCN-NEXT: v_mul_hi_u32 v2, s12, v0			; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
	; GCN-NEXT: v_mul_lo_u32 v3, s13, v0			; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s12, v0			; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s15, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s15, v1
	; GCN-NEXT: v_mov_b32_e32 v3, s13			; GCN-NEXT: v_mov_b32_e32 v3, s13
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s14, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s14, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s7			; GCN-IR-NEXT: v_mov_b32_e32 v1, s7
	; GCN-IR-NEXT: s_branch .LBB8_6			; GCN-IR-NEXT: s_branch .LBB8_6
	; GCN-IR-NEXT: .LBB8_5:			; GCN-IR-NEXT: .LBB8_5:
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s3			; GCN-IR-NEXT: v_mov_b32_e32 v0, s3
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]			; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2			; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]
	; GCN-IR-NEXT: .LBB8_6: ; %udiv-end			; GCN-IR-NEXT: .LBB8_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s8, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s8, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s8, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s9, v0			; GCN-IR-NEXT: v_mul_lo_u32 v1, s8, v1
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s8, v0
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_readfirstlane_b32 s10, v2
				; GCN-IR-NEXT: v_mul_lo_u32 v2, s9, v0
				; GCN-IR-NEXT: v_mul_lo_u32 v0, s8, v0
				; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, s10, v1
				; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0			; GCN-IR-NEXT: v_xor_b32_e32 v0, s0, v0
	; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1			; GCN-IR-NEXT: v_xor_b32_e32 v1, s1, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s1			; GCN-IR-NEXT: v_mov_b32_e32 v2, s1
	; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0			; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s0, v0
	; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = ashr i64 %x, 31			%1 = ashr i64 %x, 31
	%2 = ashr i64 %y, 31			%2 = ashr i64 %y, 31
	%result = srem i64 %1, %2			%result = srem i64 %1, %2
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]			; GCN-IR-NEXT: v_cndmask_b32_e64 v1, v0, 0, s[14:15]
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s4			; GCN-IR-NEXT: v_mov_b32_e32 v0, s4
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[14:15]
	; GCN-IR-NEXT: .LBB9_6: ; %udiv-end			; GCN-IR-NEXT: .LBB9_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s6, v1			; GCN-IR-NEXT: v_mul_lo_u32 v1, s6, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s6, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s6, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s7, v0			; GCN-IR-NEXT: v_mul_lo_u32 v3, s7, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s6, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, s6, v0
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s5			; GCN-IR-NEXT: v_mov_b32_e32 v2, s5
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: v_xor_b32_e32 v0, s2, v0			; GCN-IR-NEXT: v_xor_b32_e32 v0, s2, v0
	; GCN-IR-NEXT: v_xor_b32_e32 v1, s3, v1			; GCN-IR-NEXT: v_xor_b32_e32 v1, s3, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
	; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_subrev_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v1, v2, vcc
	Show All 34 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s2, v1			; GCN-NEXT: v_mul_lo_u32 v2, s2, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s2, v0			; GCN-NEXT: v_mul_hi_u32 v3, s2, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s3, v0			; GCN-NEXT: v_mul_lo_u32 v5, s3, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s2, v0			; GCN-NEXT: v_mul_lo_u32 v4, s2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 31 Lines
	; GCN-NEXT: v_mul_hi_u32 v0, v0, 24			; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
	; GCN-NEXT: v_mul_hi_u32 v1, v1, 24			; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
	; GCN-NEXT: v_mov_b32_e32 v3, s9			; GCN-NEXT: v_mov_b32_e32 v3, s9
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s9, v0			; GCN-NEXT: v_mul_lo_u32 v1, s9, v0
	; GCN-NEXT: v_mul_hi_u32 v2, s8, v0			; GCN-NEXT: v_mul_hi_u32 v2, s8, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s8, v0			; GCN-NEXT: v_mul_lo_u32 v0, s8, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s8, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s9, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s8, v4
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]
	; GCN-IR-NEXT: .LBB10_6: ; %udiv-end			; GCN-IR-NEXT: .LBB10_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1			; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0			; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = srem i64 24, %x			%result = srem i64 24, %x
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	▲ Show 20 Lines • Show All 505 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v2, -v1, v0, s6			; GCN-NEXT: v_mad_f32 v2, -v1, v0, s6
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_srem24_k_num_i64:			; GCN-IR-LABEL: s_test_srem24_k_num_i64:
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v1, s3			; GCN-NEXT: v_mov_b32_e32 v1, s3
	; GCN-NEXT: v_mul_f32_e32 v2, 0x38331158, v0			; GCN-NEXT: v_mul_f32_e32 v2, 0x38331158, v0
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v0, -v2, s4, v0			; GCN-NEXT: v_mad_f32 v0, -v2, s4, v0
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc
	; GCN-NEXT: s_movk_i32 s3, 0x5b7f			; GCN-NEXT: s_movk_i32 s3, 0x5b7f
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s3			; GCN-NEXT: v_mul_lo_u32 v0, v0, s3
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	Show All 12 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v1, s3			; GCN-IR-NEXT: v_mov_b32_e32 v1, s3
	; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x38331158, v0			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x38331158, v0
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v0, -v2, s4, v0			; GCN-IR-NEXT: v_mad_f32 v0, -v2, s4, v0
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, s4
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v1, vcc
	; GCN-IR-NEXT: s_movk_i32 s3, 0x5b7f			; GCN-IR-NEXT: s_movk_i32 s3, 0x5b7f
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s3			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s3
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srl.ll

	Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16			; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshr_b32_e32 v3, v3, v7			; SI-NEXT: v_lshr_b32_e32 v3, v3, v7
	; SI-NEXT: v_lshr_b32_e32 v2, v2, v6			; SI-NEXT: v_lshrrev_b32_e32 v2, v6, v2
	; SI-NEXT: v_lshr_b32_e32 v1, v1, v5			; SI-NEXT: v_lshrrev_b32_e32 v1, v5, v1
	; SI-NEXT: v_lshr_b32_e32 v0, v0, v4			; SI-NEXT: v_lshrrev_b32_e32 v0, v4, v0
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: lshr_v4i32:			; VI-LABEL: lshr_v4i32:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x24
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0			; VI-NEXT: s_load_dwordx8 s[0:7], s[10:11], 0x0
	▲ Show 20 Lines • Show All 325 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.ll

Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_sub_imm_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%a = load i32, i32 addrspace(1)* %in		%a = load i32, i32 addrspace(1)* %in
%result = sub i32 123, %a		%result = sub i32 123, %a
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_sub_v2i32:		; GCN-LABEL: {{^}}test_sub_v2i32:
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_subrev_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}

; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
define amdgpu_kernel void @test_sub_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in) {		define amdgpu_kernel void @test_sub_v2i32(<2 x i32> addrspace(1)* %out, <2 x i32> addrspace(1)* %in) {
%b_ptr = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %in, i32 1		%b_ptr = getelementptr <2 x i32>, <2 x i32> addrspace(1)* %in, i32 1
%a = load <2 x i32>, <2 x i32> addrspace(1) * %in		%a = load <2 x i32>, <2 x i32> addrspace(1) * %in
%b = load <2 x i32>, <2 x i32> addrspace(1) * %b_ptr		%b = load <2 x i32>, <2 x i32> addrspace(1) * %b_ptr
%result = sub <2 x i32> %a, %b		%result = sub <2 x i32> %a, %b
store <2 x i32> %result, <2 x i32> addrspace(1)* %out		store <2 x i32> %result, <2 x i32> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_sub_v4i32:		; GCN-LABEL: {{^}}test_sub_v4i32:
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_subrev_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}
; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}		; SI: v_sub_i32_e32 v{{[0-9]+, vcc, v[0-9]+, v[0-9]+}}

; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}		; GFX9: v_sub_u32_e32 v{{[0-9]+, v[0-9]+, v[0-9]+}}
▲ Show 20 Lines • Show All 169 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv.ll

	Show All 21 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_cvt_f32_u32_e32 v2, v1			; SI-NEXT: v_cvt_f32_u32_e32 v2, v1
	; SI-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; SI-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; SI-NEXT: v_rcp_iflag_f32_e32 v2, v2			; SI-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; SI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; SI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; SI-NEXT: v_cvt_u32_f32_e32 v2, v2			; SI-NEXT: v_cvt_u32_f32_e32 v2, v2
	; SI-NEXT: v_mul_lo_u32 v3, v3, v2			; SI-NEXT: v_mul_lo_u32 v3, v3, v2
	; SI-NEXT: v_mul_hi_u32 v3, v2, v3			; SI-NEXT: v_mul_hi_u32 v3, v2, v3
	; SI-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; SI-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; SI-NEXT: v_mul_hi_u32 v2, v0, v2			; SI-NEXT: v_mul_hi_u32 v2, v0, v2
	; SI-NEXT: v_mul_lo_u32 v3, v2, v1			; SI-NEXT: v_mul_lo_u32 v3, v2, v1
	; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v2			; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v2
	; SI-NEXT: v_subrev_i32_e32 v0, vcc, v3, v0			; SI-NEXT: v_subrev_i32_e32 v0, vcc, v3, v0
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; SI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v3, vcc, v1, v0			; SI-NEXT: v_subrev_i32_e32 v3, vcc, v1, v0
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	Show All 19 Lines
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_u32_e32 v2, v1			; VI-NEXT: v_cvt_f32_u32_e32 v2, v1
	; VI-NEXT: v_sub_u32_e32 v3, vcc, 0, v1			; VI-NEXT: v_sub_u32_e32 v3, vcc, 0, v1
	; VI-NEXT: v_rcp_iflag_f32_e32 v2, v2			; VI-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; VI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; VI-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v2			; VI-NEXT: v_cvt_u32_f32_e32 v2, v2
	; VI-NEXT: v_mul_lo_u32 v3, v3, v2			; VI-NEXT: v_mul_lo_u32 v3, v3, v2
	; VI-NEXT: v_mul_hi_u32 v3, v2, v3			; VI-NEXT: v_mul_hi_u32 v3, v2, v3
	; VI-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; VI-NEXT: v_mul_hi_u32 v2, v0, v2			; VI-NEXT: v_mul_hi_u32 v2, v0, v2
	; VI-NEXT: v_mul_lo_u32 v3, v2, v1			; VI-NEXT: v_mul_lo_u32 v3, v2, v1
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, v3, v0			; VI-NEXT: v_subrev_u32_e32 v0, vcc, v3, v0
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0			; VI-NEXT: v_subrev_u32_e32 v3, vcc, v1, v0
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	Show All 13 Lines
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, v1			; GCN-NEXT: v_cvt_f32_u32_e32 v2, v1
	; GCN-NEXT: v_sub_u32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_u32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GCN-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v3, v2			; GCN-NEXT: v_mul_lo_u32 v3, v3, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v2, v3			; GCN-NEXT: v_mul_hi_u32 v3, v2, v3
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v0, v2			; GCN-NEXT: v_mul_hi_u32 v4, v0, v2
	; GCN-NEXT: v_mov_b32_e32 v2, s0			; GCN-NEXT: v_mov_b32_e32 v2, s0
	; GCN-NEXT: v_mov_b32_e32 v3, s1			; GCN-NEXT: v_mov_b32_e32 v3, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v1			; GCN-NEXT: v_mul_lo_u32 v5, v4, v1
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v5, v0			; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v5, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v1
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_cvt_f32_u32_e32 v0, s3			; SI-NEXT: v_cvt_f32_u32_e32 v0, s3
	; SI-NEXT: s_sub_i32 s4, 0, s3			; SI-NEXT: s_sub_i32 s4, 0, s3
	; SI-NEXT: v_rcp_iflag_f32_e32 v0, v0			; SI-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; SI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; SI-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; SI-NEXT: v_cvt_u32_f32_e32 v0, v0			; SI-NEXT: v_cvt_u32_f32_e32 v0, v0
	; SI-NEXT: v_mul_lo_u32 v1, s4, v0			; SI-NEXT: v_mul_lo_u32 v1, s4, v0
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: v_mul_hi_u32 v1, v0, v1			; SI-NEXT: v_mul_hi_u32 v1, v0, v1
	; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; SI-NEXT: v_mul_hi_u32 v0, s2, v0			; SI-NEXT: v_mul_hi_u32 v0, s2, v0
	; SI-NEXT: v_mul_lo_u32 v1, v0, s3			; SI-NEXT: v_mul_lo_u32 v1, v0, s3
	; SI-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; SI-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; SI-NEXT: v_sub_i32_e32 v1, vcc, s2, v1			; SI-NEXT: v_sub_i32_e32 v1, vcc, s2, v1
	; SI-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1			; SI-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v1
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1			; SI-NEXT: v_subrev_i32_e32 v2, vcc, s3, v1
	; SI-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v1, v1, v2, s[0:1]
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: s_udiv_i32:			; GFX1030-LABEL: s_udiv_i32:
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8			; GFX1030-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x8
				; GFX1030-NEXT: v_mov_b32_e32 v3, 0
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s1			; GFX1030-NEXT: v_cvt_f32_u32_e32 v0, s1
	; GFX1030-NEXT: s_sub_i32 s2, 0, s1			; GFX1030-NEXT: s_sub_i32 s3, 0, s1
	; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX1030-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX1030-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX1030-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX1030-NEXT: v_mul_lo_u32 v1, s2, v0			; GFX1030-NEXT: v_readfirstlane_b32 s2, v0
				; GFX1030-NEXT: s_mul_i32 s3, s3, s2
				; GFX1030-NEXT: s_mul_hi_u32 s3, s2, s3
				; GFX1030-NEXT: s_add_i32 s2, s2, s3
				; GFX1030-NEXT: s_mul_hi_u32 s6, s0, s2
				; GFX1030-NEXT: s_mul_i32 s2, s6, s1
				; GFX1030-NEXT: s_sub_i32 s0, s0, s2
	; GFX1030-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0			; GFX1030-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x0
	; GFX1030-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX1030-NEXT: s_cmp_ge_u32 s0, s1
	; GFX1030-NEXT: v_add_nc_u32_e32 v0, v0, v1			; GFX1030-NEXT: s_cselect_b32 vcc_lo, -1, 0
	; GFX1030-NEXT: v_mul_hi_u32 v0, s0, v0			; GFX1030-NEXT: s_add_i32 s7, s6, 1
	; GFX1030-NEXT: v_mul_lo_u32 v1, v0, s1			; GFX1030-NEXT: s_sub_i32 s4, s0, s1
	; GFX1030-NEXT: v_add_nc_u32_e32 v2, 1, v0			; GFX1030-NEXT: v_mov_b32_e32 v0, s7
	; GFX1030-NEXT: v_sub_nc_u32_e32 v1, s0, v1			; GFX1030-NEXT: v_mov_b32_e32 v1, s4
	; GFX1030-NEXT: v_subrev_nc_u32_e32 v3, s1, v1			; GFX1030-NEXT: v_cndmask_b32_e32 v0, s6, v0, vcc_lo
	; GFX1030-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v1			; GFX1030-NEXT: v_cndmask_b32_e32 v1, s0, v1, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX1030-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc_lo
	; GFX1030-NEXT: v_mov_b32_e32 v3, 0
	; GFX1030-NEXT: v_add_nc_u32_e32 v2, 1, v0			; GFX1030-NEXT: v_add_nc_u32_e32 v2, 1, v0
	; GFX1030-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v1			; GFX1030-NEXT: v_cmp_le_u32_e32 vcc_lo, s1, v1
	; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo			; GFX1030-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc_lo
	; GFX1030-NEXT: s_waitcnt lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1030-NEXT: global_store_dword v3, v0, s[2:3]			; GFX1030-NEXT: global_store_dword v3, v0, s[2:3]
	; GFX1030-NEXT: s_endpgm			; GFX1030-NEXT: s_endpgm
	;			;
	; EG-LABEL: s_udiv_i32:			; EG-LABEL: s_udiv_i32:
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	; SI-NEXT: v_mul_hi_u32 v4, v0, v4			; SI-NEXT: v_mul_hi_u32 v4, v0, v4
	; SI-NEXT: v_mul_hi_u32 v5, v1, v5			; SI-NEXT: v_mul_hi_u32 v5, v1, v5
	; SI-NEXT: v_mul_lo_u32 v6, v4, v2			; SI-NEXT: v_mul_lo_u32 v6, v4, v2
	; SI-NEXT: v_mul_lo_u32 v8, v5, v3			; SI-NEXT: v_mul_lo_u32 v8, v5, v3
	; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v4			; SI-NEXT: v_add_i32_e32 v7, vcc, 1, v4
	; SI-NEXT: v_subrev_i32_e32 v0, vcc, v6, v0			; SI-NEXT: v_subrev_i32_e32 v0, vcc, v6, v0
	; SI-NEXT: v_subrev_i32_e32 v1, vcc, v8, v1			; SI-NEXT: v_sub_i32_e32 v1, vcc, v1, v8
	; SI-NEXT: v_add_i32_e32 v9, vcc, 1, v5			; SI-NEXT: v_add_i32_e32 v9, vcc, 1, v5
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; SI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0			; SI-NEXT: v_subrev_i32_e32 v6, vcc, v2, v0
	; SI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; SI-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1			; SI-NEXT: v_subrev_i32_e32 v7, vcc, v3, v1
	; SI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	Show All 37 Lines
	; VI-NEXT: v_mul_hi_u32 v7, v5, v7			; VI-NEXT: v_mul_hi_u32 v7, v5, v7
	; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4
	; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5			; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5
	; VI-NEXT: v_mul_hi_u32 v4, v0, v4			; VI-NEXT: v_mul_hi_u32 v4, v0, v4
	; VI-NEXT: v_mul_hi_u32 v5, v1, v5			; VI-NEXT: v_mul_hi_u32 v5, v1, v5
	; VI-NEXT: v_mul_lo_u32 v6, v4, v2			; VI-NEXT: v_mul_lo_u32 v6, v4, v2
	; VI-NEXT: v_mul_lo_u32 v8, v5, v3			; VI-NEXT: v_mul_lo_u32 v8, v5, v3
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v4
	; VI-NEXT: v_subrev_u32_e32 v0, vcc, v6, v0			; VI-NEXT: v_sub_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_subrev_u32_e32 v1, vcc, v8, v1			; VI-NEXT: v_subrev_u32_e32 v1, vcc, v8, v1
	; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v9, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v4, v4, v7, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v6, vcc, v2, v0			; VI-NEXT: v_sub_u32_e32 v6, vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v5, v5, v9, s[2:3]
	; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1			; VI-NEXT: v_subrev_u32_e32 v7, vcc, v3, v1
	; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[0:1]
	; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; VI-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]			; VI-NEXT: v_cndmask_b32_e64 v1, v1, v7, s[2:3]
	; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5			; VI-NEXT: v_add_u32_e32 v7, vcc, 1, v5
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
	Show All 28 Lines
	; GCN-NEXT: v_mul_hi_u32 v8, v7, v8			; GCN-NEXT: v_mul_hi_u32 v8, v7, v8
	; GCN-NEXT: v_add_u32_e32 v6, vcc, v9, v6			; GCN-NEXT: v_add_u32_e32 v6, vcc, v9, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v6			; GCN-NEXT: v_mul_hi_u32 v6, v0, v6
	; GCN-NEXT: v_add_u32_e32 v7, vcc, v8, v7			; GCN-NEXT: v_add_u32_e32 v7, vcc, v8, v7
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v7			; GCN-NEXT: v_mul_hi_u32 v7, v1, v7
	; GCN-NEXT: v_mul_lo_u32 v8, v6, v2			; GCN-NEXT: v_mul_lo_u32 v8, v6, v2
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v6
	; GCN-NEXT: v_mul_lo_u32 v10, v7, v3			; GCN-NEXT: v_mul_lo_u32 v10, v7, v3
	; GCN-NEXT: v_subrev_u32_e32 v0, vcc, v8, v0			; GCN-NEXT: v_sub_u32_e32 v0, vcc, v0, v8
	; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v11, vcc, 1, v7
	; GCN-NEXT: v_subrev_u32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_subrev_u32_e32 v1, vcc, v10, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v3
	; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, v6, v9, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v8, vcc, v2, v0			; GCN-NEXT: v_sub_u32_e32 v8, vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[2:3]
	; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1			; GCN-NEXT: v_subrev_u32_e32 v9, vcc, v3, v1
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v8, s[0:1]
	; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6			; GCN-NEXT: v_add_u32_e32 v8, vcc, 1, v6
	; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[2:3]
	; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7			; GCN-NEXT: v_add_u32_e32 v9, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
	; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc
	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_hi_u32 v9, v5, v9			; SI-NEXT: v_mul_hi_u32 v9, v5, v9
	; SI-NEXT: v_mul_hi_u32 v10, v6, v10			; SI-NEXT: v_mul_hi_u32 v10, v6, v10
	; SI-NEXT: v_mul_hi_u32 v11, v7, v11			; SI-NEXT: v_mul_hi_u32 v11, v7, v11
	; SI-NEXT: v_mul_lo_u32 v12, v8, v0			; SI-NEXT: v_mul_lo_u32 v12, v8, v0
	; SI-NEXT: v_mul_lo_u32 v14, v9, v1			; SI-NEXT: v_mul_lo_u32 v14, v9, v1
	; SI-NEXT: v_mul_lo_u32 v16, v10, v2			; SI-NEXT: v_mul_lo_u32 v16, v10, v2
	; SI-NEXT: v_mul_lo_u32 v18, v11, v3			; SI-NEXT: v_mul_lo_u32 v18, v11, v3
	; SI-NEXT: v_subrev_i32_e32 v4, vcc, v12, v4			; SI-NEXT: v_subrev_i32_e32 v4, vcc, v12, v4
	; SI-NEXT: v_subrev_i32_e32 v5, vcc, v14, v5			; SI-NEXT: v_sub_i32_e32 v5, vcc, v5, v14
	; SI-NEXT: v_subrev_i32_e32 v6, vcc, v16, v6			; SI-NEXT: v_sub_i32_e32 v6, vcc, v6, v16
	; SI-NEXT: v_subrev_i32_e32 v7, vcc, v18, v7			; SI-NEXT: v_sub_i32_e32 v7, vcc, v7, v18
	; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v8			; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v8
	; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v9			; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v9
	; SI-NEXT: v_add_i32_e32 v17, vcc, 1, v10			; SI-NEXT: v_add_i32_e32 v17, vcc, 1, v10
	; SI-NEXT: v_add_i32_e32 v19, vcc, 1, v11			; SI-NEXT: v_add_i32_e32 v19, vcc, 1, v11
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; SI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; SI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; SI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; SI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; SI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	; SI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v8, v8, v13, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v12, vcc, v0, v4			; SI-NEXT: v_subrev_i32_e32 v12, vcc, v0, v4
	; SI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v9, v9, v15, s[2:3]
	; SI-NEXT: v_subrev_i32_e32 v13, vcc, v1, v5			; SI-NEXT: v_subrev_i32_e32 v13, vcc, v1, v5
	; SI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v10, v10, v17, s[4:5]
	; SI-NEXT: v_subrev_i32_e32 v14, vcc, v2, v6			; SI-NEXT: v_sub_i32_e32 v14, vcc, v6, v2
	; SI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]			; SI-NEXT: v_cndmask_b32_e64 v11, v11, v19, s[6:7]
	; SI-NEXT: v_subrev_i32_e32 v15, vcc, v3, v7			; SI-NEXT: v_sub_i32_e32 v15, vcc, v7, v3
	; SI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v4, v4, v12, s[0:1]
	; SI-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; SI-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; SI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]			; SI-NEXT: v_cndmask_b32_e64 v5, v5, v13, s[2:3]
	; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v9			; SI-NEXT: v_add_i32_e32 v13, vcc, 1, v9
	; SI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]			; SI-NEXT: v_cndmask_b32_e64 v6, v6, v14, s[4:5]
	; SI-NEXT: v_add_i32_e32 v14, vcc, 1, v10			; SI-NEXT: v_add_i32_e32 v14, vcc, 1, v10
	; SI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]			; SI-NEXT: v_cndmask_b32_e64 v7, v7, v15, s[6:7]
	; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v11			; SI-NEXT: v_add_i32_e32 v15, vcc, 1, v11
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mul_lo_u32 v11, v11, v10			; VI-NEXT: v_mul_lo_u32 v11, v11, v10
	; VI-NEXT: v_mul_lo_u32 v13, v13, v12			; VI-NEXT: v_mul_lo_u32 v13, v13, v12
	; VI-NEXT: v_mul_lo_u32 v15, v15, v14			; VI-NEXT: v_mul_lo_u32 v15, v15, v14
	; VI-NEXT: v_mul_hi_u32 v9, v8, v9			; VI-NEXT: v_mul_hi_u32 v9, v8, v9
	; VI-NEXT: v_mul_hi_u32 v11, v10, v11			; VI-NEXT: v_mul_hi_u32 v11, v10, v11
	; VI-NEXT: v_mul_hi_u32 v13, v12, v13			; VI-NEXT: v_mul_hi_u32 v13, v12, v13
	; VI-NEXT: v_mul_hi_u32 v15, v14, v15			; VI-NEXT: v_mul_hi_u32 v15, v14, v15
	; VI-NEXT: v_add_u32_e32 v8, vcc, v9, v8			; VI-NEXT: v_add_u32_e32 v8, vcc, v9, v8
	; VI-NEXT: v_add_u32_e32 v9, vcc, v11, v10			; VI-NEXT: v_add_u32_e32 v9, vcc, v10, v11
	; VI-NEXT: v_add_u32_e32 v10, vcc, v13, v12			; VI-NEXT: v_add_u32_e32 v10, vcc, v12, v13
	; VI-NEXT: v_add_u32_e32 v11, vcc, v15, v14			; VI-NEXT: v_add_u32_e32 v11, vcc, v15, v14
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_mul_hi_u32 v8, v4, v8			; VI-NEXT: v_mul_hi_u32 v8, v4, v8
	; VI-NEXT: v_mul_hi_u32 v9, v5, v9			; VI-NEXT: v_mul_hi_u32 v9, v5, v9
	; VI-NEXT: v_mul_hi_u32 v10, v6, v10			; VI-NEXT: v_mul_hi_u32 v10, v6, v10
	; VI-NEXT: v_mul_hi_u32 v11, v7, v11			; VI-NEXT: v_mul_hi_u32 v11, v7, v11
	; VI-NEXT: v_mul_lo_u32 v12, v8, v0			; VI-NEXT: v_mul_lo_u32 v12, v8, v0
	; VI-NEXT: v_mul_lo_u32 v14, v9, v1			; VI-NEXT: v_mul_lo_u32 v14, v9, v1
	; VI-NEXT: v_mul_lo_u32 v16, v10, v2			; VI-NEXT: v_mul_lo_u32 v16, v10, v2
	; VI-NEXT: v_mul_lo_u32 v18, v11, v3			; VI-NEXT: v_mul_lo_u32 v18, v11, v3
	; VI-NEXT: v_subrev_u32_e32 v4, vcc, v12, v4			; VI-NEXT: v_sub_u32_e32 v4, vcc, v4, v12
	; VI-NEXT: v_subrev_u32_e32 v5, vcc, v14, v5			; VI-NEXT: v_subrev_u32_e32 v5, vcc, v14, v5
	; VI-NEXT: v_subrev_u32_e32 v6, vcc, v16, v6			; VI-NEXT: v_subrev_u32_e32 v6, vcc, v16, v6
	; VI-NEXT: v_subrev_u32_e32 v7, vcc, v18, v7			; VI-NEXT: v_sub_u32_e32 v7, vcc, v7, v18
	; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8			; VI-NEXT: v_add_u32_e32 v13, vcc, 1, v8
	; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9			; VI-NEXT: v_add_u32_e32 v15, vcc, 1, v9
	; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10			; VI-NEXT: v_add_u32_e32 v17, vcc, 1, v10
	; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11			; VI-NEXT: v_add_u32_e32 v19, vcc, 1, v11
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; VI-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; VI-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; VI-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_lo_u32 v13, v13, v12			; GCN-NEXT: v_mul_lo_u32 v13, v13, v12
	; GCN-NEXT: v_mul_lo_u32 v15, v15, v14			; GCN-NEXT: v_mul_lo_u32 v15, v15, v14
	; GCN-NEXT: v_mul_lo_u32 v17, v17, v16			; GCN-NEXT: v_mul_lo_u32 v17, v17, v16
	; GCN-NEXT: v_mul_hi_u32 v11, v10, v11			; GCN-NEXT: v_mul_hi_u32 v11, v10, v11
	; GCN-NEXT: v_mul_hi_u32 v13, v12, v13			; GCN-NEXT: v_mul_hi_u32 v13, v12, v13
	; GCN-NEXT: v_mul_hi_u32 v15, v14, v15			; GCN-NEXT: v_mul_hi_u32 v15, v14, v15
	; GCN-NEXT: v_mul_hi_u32 v17, v16, v17			; GCN-NEXT: v_mul_hi_u32 v17, v16, v17
	; GCN-NEXT: v_add_u32_e32 v10, vcc, v11, v10			; GCN-NEXT: v_add_u32_e32 v10, vcc, v11, v10
	; GCN-NEXT: v_add_u32_e32 v11, vcc, v13, v12			; GCN-NEXT: v_add_u32_e32 v11, vcc, v12, v13
	; GCN-NEXT: v_add_u32_e32 v12, vcc, v15, v14			; GCN-NEXT: v_add_u32_e32 v12, vcc, v14, v15
	; GCN-NEXT: v_add_u32_e32 v13, vcc, v17, v16			; GCN-NEXT: v_add_u32_e32 v13, vcc, v17, v16
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mul_hi_u32 v10, v4, v10			; GCN-NEXT: v_mul_hi_u32 v10, v4, v10
	; GCN-NEXT: v_mul_hi_u32 v11, v5, v11			; GCN-NEXT: v_mul_hi_u32 v11, v5, v11
	; GCN-NEXT: v_mul_hi_u32 v12, v6, v12			; GCN-NEXT: v_mul_hi_u32 v12, v6, v12
	; GCN-NEXT: v_mul_hi_u32 v13, v7, v13			; GCN-NEXT: v_mul_hi_u32 v13, v7, v13
	; GCN-NEXT: v_mul_lo_u32 v14, v10, v0			; GCN-NEXT: v_mul_lo_u32 v14, v10, v0
	; GCN-NEXT: v_mul_lo_u32 v16, v11, v1			; GCN-NEXT: v_mul_lo_u32 v16, v11, v1
	; GCN-NEXT: v_mul_lo_u32 v18, v12, v2			; GCN-NEXT: v_mul_lo_u32 v18, v12, v2
	; GCN-NEXT: v_mul_lo_u32 v19, v13, v3			; GCN-NEXT: v_mul_lo_u32 v19, v13, v3
	; GCN-NEXT: v_subrev_u32_e32 v4, vcc, v14, v4			; GCN-NEXT: v_sub_u32_e32 v4, vcc, v4, v14
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v16, v5			; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v16, v5
	; GCN-NEXT: v_subrev_u32_e32 v6, vcc, v18, v6			; GCN-NEXT: v_subrev_u32_e32 v6, vcc, v18, v6
	; GCN-NEXT: v_subrev_u32_e32 v7, vcc, v19, v7			; GCN-NEXT: v_sub_u32_e32 v7, vcc, v7, v19
	; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10			; GCN-NEXT: v_add_u32_e32 v15, vcc, 1, v10
	; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11			; GCN-NEXT: v_add_u32_e32 v17, vcc, 1, v11
	; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12			; GCN-NEXT: v_add_u32_e32 v14, vcc, 1, v12
	; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13			; GCN-NEXT: v_add_u32_e32 v16, vcc, 1, v13
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v4, v0
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1			; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v5, v1
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v2
	; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[6:7], v7, v3
	▲ Show 20 Lines • Show All 991 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; SI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; SI-NEXT: v_cvt_u32_f32_e32 v1, v1			; SI-NEXT: v_cvt_u32_f32_e32 v1, v1
	; SI-NEXT: v_mul_lo_u32 v4, v4, v1			; SI-NEXT: v_mul_lo_u32 v4, v4, v1
	; SI-NEXT: v_mul_hi_u32 v4, v1, v4			; SI-NEXT: v_mul_hi_u32 v4, v1, v4
	; SI-NEXT: v_add_i32_e32 v1, vcc, v4, v1			; SI-NEXT: v_add_i32_e32 v1, vcc, v4, v1
	; SI-NEXT: v_mul_hi_u32 v1, v2, v1			; SI-NEXT: v_mul_hi_u32 v1, v2, v1
	; SI-NEXT: v_mul_lo_u32 v3, v1, v0			; SI-NEXT: v_mul_lo_u32 v3, v1, v0
	; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v1			; SI-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; SI-NEXT: v_subrev_i32_e32 v2, vcc, v3, v2			; SI-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
	; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0			; SI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0
	; SI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; SI-NEXT: v_subrev_i32_e32 v3, vcc, v0, v2			; SI-NEXT: v_sub_i32_e32 v3, vcc, v2, v0
	; SI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; SI-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; SI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0			; SI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; SI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc
	; SI-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	Show All 23 Lines
	; VI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; VI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; VI-NEXT: v_rcp_iflag_f32_e32 v1, v1			; VI-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_or_b32_e32 v2, v3, v2			; VI-NEXT: v_or_b32_e32 v2, v3, v2
	; VI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; VI-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; VI-NEXT: v_cvt_u32_f32_e32 v1, v1			; VI-NEXT: v_cvt_u32_f32_e32 v1, v1
	; VI-NEXT: v_mul_lo_u32 v4, v4, v1			; VI-NEXT: v_mul_lo_u32 v4, v4, v1
	; VI-NEXT: v_mul_hi_u32 v4, v1, v4			; VI-NEXT: v_mul_hi_u32 v4, v1, v4
	; VI-NEXT: v_add_u32_e32 v1, vcc, v4, v1			; VI-NEXT: v_add_u32_e32 v1, vcc, v1, v4
	; VI-NEXT: v_mul_hi_u32 v1, v2, v1			; VI-NEXT: v_mul_hi_u32 v1, v2, v1
	; VI-NEXT: v_mul_lo_u32 v3, v1, v0			; VI-NEXT: v_mul_lo_u32 v3, v1, v0
	; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v4, vcc, 1, v1
	; VI-NEXT: v_subrev_u32_e32 v2, vcc, v3, v2			; VI-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
	; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0			; VI-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v0
	; VI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v0, v2			; VI-NEXT: v_sub_u32_e32 v3, vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; VI-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1			; VI-NEXT: v_add_u32_e32 v3, vcc, 1, v1
	; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0			; VI-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
	; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, v1, v3, vcc
	; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	Show All 29 Lines
	; GCN-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GCN-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_or_b32_e32 v2, v0, v2			; GCN-NEXT: v_or_b32_e32 v2, v0, v2
	; GCN-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_mul_lo_u32 v4, v4, v1			; GCN-NEXT: v_mul_lo_u32 v4, v4, v1
	; GCN-NEXT: v_mul_hi_u32 v4, v1, v4			; GCN-NEXT: v_mul_hi_u32 v4, v1, v4
	; GCN-NEXT: v_add_u32_e32 v0, vcc, v4, v1			; GCN-NEXT: v_add_u32_e32 v0, vcc, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v2, v0			; GCN-NEXT: v_mul_hi_u32 v4, v2, v0
	; GCN-NEXT: v_mov_b32_e32 v0, s0			; GCN-NEXT: v_mov_b32_e32 v0, s0
	; GCN-NEXT: v_mov_b32_e32 v1, s1			; GCN-NEXT: v_mov_b32_e32 v1, s1
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v3			; GCN-NEXT: v_mul_lo_u32 v5, v4, v3
	; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v6, vcc, 1, v4
	; GCN-NEXT: v_subrev_u32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_sub_u32_e32 v2, vcc, v2, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v3			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v2, v3
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	; GCN-NEXT: v_subrev_u32_e32 v5, vcc, v3, v2			; GCN-NEXT: v_sub_u32_e32 v5, vcc, v2, v3
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; GCN-NEXT: v_add_u32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v3
	; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v4, v5, vcc
	; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2			; GCN-NEXT: v_and_b32_e32 v2, 0xffffff, v2
	; GCN-NEXT: flat_store_dword v[0:1], v2			; GCN-NEXT: flat_store_dword v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_rcp_iflag_f32_e32 v4, v2			; SI-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; SI-NEXT: v_or_b32_e32 v0, 1, v0			; SI-NEXT: v_or_b32_e32 v0, 1, v0
	; SI-NEXT: v_mul_f32_e32 v1, v3, v4			; SI-NEXT: v_mul_f32_e32 v1, v3, v4
	; SI-NEXT: v_trunc_f32_e32 v1, v1			; SI-NEXT: v_trunc_f32_e32 v1, v1
	; SI-NEXT: v_mad_f32 v3, -v1, v2, v3			; SI-NEXT: v_mad_f32 v3, -v1, v2, v3
	; SI-NEXT: v_cvt_i32_f32_e32 v1, v1			; SI-NEXT: v_cvt_i32_f32_e32 v1, v1
	; SI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; SI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; SI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; SI-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; SI-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0			; SI-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fdiv_test_denormals:			; VI-LABEL: fdiv_test_denormals:
	; VI: ; %bb.0: ; %bb			; VI: ; %bb.0: ; %bb
	; VI-NEXT: s_mov_b32 s0, 0			; VI-NEXT: s_mov_b32 s0, 0
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	Show All 9 Lines
	; VI-NEXT: v_rcp_iflag_f32_e32 v4, v2			; VI-NEXT: v_rcp_iflag_f32_e32 v4, v2
	; VI-NEXT: v_or_b32_e32 v0, 1, v0			; VI-NEXT: v_or_b32_e32 v0, 1, v0
	; VI-NEXT: v_mul_f32_e32 v1, v3, v4			; VI-NEXT: v_mul_f32_e32 v1, v3, v4
	; VI-NEXT: v_trunc_f32_e32 v1, v1			; VI-NEXT: v_trunc_f32_e32 v1, v1
	; VI-NEXT: v_mad_f32 v3, -v1, v2, v3			; VI-NEXT: v_mad_f32 v3, -v1, v2, v3
	; VI-NEXT: v_cvt_i32_f32_e32 v1, v1			; VI-NEXT: v_cvt_i32_f32_e32 v1, v1
	; VI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|			; VI-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v2\|
	; VI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; VI-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; VI-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0			; VI-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GCN-LABEL: fdiv_test_denormals:			; GCN-LABEL: fdiv_test_denormals:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: flat_load_sbyte v2, v[0:1]			; GCN-NEXT: flat_load_sbyte v2, v[0:1]
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: flat_load_sbyte v3, v[0:1]			; GCN-NEXT: flat_load_sbyte v3, v[0:1]
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: v_cvt_f32_i32_e32 v4, v2			; GCN-NEXT: v_cvt_f32_i32_e32 v4, v2
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cvt_f32_i32_e32 v5, v3			; GCN-NEXT: v_cvt_f32_i32_e32 v5, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-NEXT: v_xor_b32_e32 v2, v3, v2			; GCN-NEXT: v_xor_b32_e32 v2, v3, v2
	; GCN-NEXT: v_ashrrev_i32_e32 v2, 30, v2			; GCN-NEXT: v_ashrrev_i32_e32 v2, 30, v2
	; GCN-NEXT: v_or_b32_e32 v2, 1, v2			; GCN-NEXT: v_or_b32_e32 v2, 1, v2
	; GCN-NEXT: v_mul_f32_e32 v3, v5, v6			; GCN-NEXT: v_mul_f32_e32 v3, v5, v6
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mad_f32 v5, -v3, v4, v5			; GCN-NEXT: v_mad_f32 v5, -v3, v4, v5
	; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_i32_f32_e32 v3, v3
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|
	; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, 0, v2, vcc
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v2, v3
	; GCN-NEXT: flat_store_byte v[0:1], v2			; GCN-NEXT: flat_store_byte v[0:1], v2
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GFX1030-LABEL: fdiv_test_denormals:			; GFX1030-LABEL: fdiv_test_denormals:
	; GFX1030: ; %bb.0: ; %bb			; GFX1030: ; %bb.0: ; %bb
	; GFX1030-NEXT: global_load_sbyte v2, v[0:1], off			; GFX1030-NEXT: global_load_sbyte v2, v[0:1], off
	; GFX1030-NEXT: v_mov_b32_e32 v0, 0			; GFX1030-NEXT: v_mov_b32_e32 v0, 0
	; GFX1030-NEXT: v_mov_b32_e32 v1, 0			; GFX1030-NEXT: v_mov_b32_e32 v1, 0
	▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; VI-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; VI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; VI-NEXT: v_trunc_f32_e32 v3, v3			; VI-NEXT: v_trunc_f32_e32 v3, v3
	; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; VI-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; VI-NEXT: v_cvt_u32_f32_e32 v6, v2			; VI-NEXT: v_cvt_u32_f32_e32 v6, v2
	; VI-NEXT: v_cvt_u32_f32_e32 v7, v3			; VI-NEXT: v_cvt_u32_f32_e32 v7, v3
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; VI-NEXT: v_mul_lo_u32 v4, v7, s6			; VI-NEXT: v_mul_lo_u32 v4, v7, s6
	; VI-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; VI-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; VI-NEXT: v_add_u32_e32 v8, vcc, v4, v3			; VI-NEXT: v_add_u32_e32 v8, vcc, v4, v3
	; VI-NEXT: v_mul_hi_u32 v5, v6, v2			; VI-NEXT: v_mul_hi_u32 v5, v6, v2
	; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0			; VI-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0
	; VI-NEXT: v_add_u32_e32 v9, vcc, v5, v3			; VI-NEXT: v_add_u32_e32 v9, vcc, v5, v3
	; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; VI-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; VI-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc			; VI-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc
	; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0			; VI-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0
	; VI-NEXT: v_add_u32_e32 v2, vcc, v9, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, v9, v2
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
	; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v6, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v7, v3
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v6, s6, 0
	; GCN-NEXT: v_mul_lo_u32 v4, v7, s6			; GCN-NEXT: v_mul_lo_u32 v4, v7, s6
	; GCN-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; GCN-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; GCN-NEXT: v_add_u32_e32 v8, vcc, v4, v3			; GCN-NEXT: v_add_u32_e32 v8, vcc, v4, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v6, v2			; GCN-NEXT: v_mul_hi_u32 v5, v6, v2
	; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0			; GCN-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v8, 0
	; GCN-NEXT: v_add_u32_e32 v9, vcc, v5, v3			; GCN-NEXT: v_add_u32_e32 v9, vcc, v5, v3
	; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0			; GCN-NEXT: v_mad_u64_u32 v[2:3], s[4:5], v7, v2, 0
	; GCN-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v10, vcc, 0, v4, vcc
	; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0			; GCN-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v7, v8, 0
	; GCN-NEXT: v_add_u32_e32 v2, vcc, v9, v2			; GCN-NEXT: v_add_u32_e32 v2, vcc, v9, v2
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX1030: ; %bb.0:			; GFX1030: ; %bb.0:
	; GFX1030-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX1030-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX1030-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1030-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1030-NEXT: s_mov_b32 s4, 0x346d900			; GFX1030-NEXT: s_mov_b32 s4, 0x346d900
	; GFX1030-NEXT: s_add_u32 s4, 0x4237, s4			; GFX1030-NEXT: s_add_u32 s4, 0x4237, s4
	; GFX1030-NEXT: s_addc_u32 s5, 0, 0			; GFX1030-NEXT: s_addc_u32 s5, 0, 0
	; GFX1030-NEXT: v_add_co_u32 v2, s4, 0xa9000000, s4			; GFX1030-NEXT: v_add_co_u32 v2, s4, 0xa9000000, s4
	; GFX1030-NEXT: s_cmpk_lg_u32 s4, 0x0			; GFX1030-NEXT: s_cmpk_lg_u32 s4, 0x0
	; GFX1030-NEXT: s_addc_u32 s4, s5, 0xa7c5			; GFX1030-NEXT: s_addc_u32 s5, s5, 0xa7c5
	; GFX1030-NEXT: v_mul_hi_u32 v3, 0xfffe7960, v2			; GFX1030-NEXT: v_readfirstlane_b32 s4, v2
	; GFX1030-NEXT: v_mul_lo_u32 v4, 0xfffe7960, v2			; GFX1030-NEXT: s_mul_i32 s6, s5, 0xfffe7960
	; GFX1030-NEXT: s_mul_i32 s5, s4, 0xfffe7960			; GFX1030-NEXT: s_mul_hi_u32 s7, s4, 0xfffe7960
	; GFX1030-NEXT: v_sub_nc_u32_e32 v3, v3, v2			; GFX1030-NEXT: s_mul_i32 s8, s4, 0xfffe7960
	; GFX1030-NEXT: v_mul_hi_u32 v5, v2, v4			; GFX1030-NEXT: s_sub_i32 s7, s7, s4
	; GFX1030-NEXT: v_mul_hi_u32 v8, s4, v4			; GFX1030-NEXT: s_mul_hi_u32 s9, s4, s8
	; GFX1030-NEXT: v_mul_lo_u32 v4, s4, v4			; GFX1030-NEXT: s_add_i32 s7, s7, s6
	; GFX1030-NEXT: v_add_nc_u32_e32 v3, s5, v3			; GFX1030-NEXT: s_mul_hi_u32 s10, s5, s8
	; GFX1030-NEXT: v_mul_lo_u32 v6, v2, v3			; GFX1030-NEXT: s_mul_i32 s6, s5, s8
	; GFX1030-NEXT: v_mul_hi_u32 v7, v2, v3			; GFX1030-NEXT: s_mul_hi_u32 s8, s4, s7
	; GFX1030-NEXT: v_mul_hi_u32 v9, s4, v3			; GFX1030-NEXT: s_mul_i32 s4, s4, s7
	; GFX1030-NEXT: v_mul_lo_u32 v3, s4, v3			; GFX1030-NEXT: s_mul_hi_u32 s11, s5, s7
	; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v5, v6			; GFX1030-NEXT: s_add_u32 s4, s9, s4
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v7, vcc_lo			; GFX1030-NEXT: s_addc_u32 s8, 0, s8
	; GFX1030-NEXT: v_add_co_u32 v4, vcc_lo, v5, v4			; GFX1030-NEXT: s_add_u32 s4, s4, s6
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, v6, v8, vcc_lo			; GFX1030-NEXT: s_mul_i32 s7, s5, s7
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v5, vcc_lo, 0, v9, vcc_lo			; GFX1030-NEXT: s_addc_u32 s4, s8, s10
	; GFX1030-NEXT: v_add_co_u32 v3, vcc_lo, v4, v3			; GFX1030-NEXT: s_addc_u32 s6, s11, 0
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v4, vcc_lo, 0, v5, vcc_lo			; GFX1030-NEXT: s_add_u32 s4, s4, s7
	; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v2, v3			; GFX1030-NEXT: s_addc_u32 s6, 0, s6
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, s4, v4, vcc_lo			; GFX1030-NEXT: v_add_co_u32 v4, s4, v2, s4
	; GFX1030-NEXT: v_mul_hi_u32 v8, v0, v5			; GFX1030-NEXT: s_cmpk_lg_u32 s4, 0x0
	; GFX1030-NEXT: v_mad_u64_u32 v[4:5], null, v1, v5, 0			; GFX1030-NEXT: s_addc_u32 s4, s5, s6
	; GFX1030-NEXT: v_mad_u64_u32 v[2:3], null, v0, v6, 0			; GFX1030-NEXT: v_mul_hi_u32 v8, v0, v4
	; GFX1030-NEXT: v_mad_u64_u32 v[6:7], null, v1, v6, 0			; GFX1030-NEXT: v_mad_u64_u32 v[2:3], null, v0, s4, 0
				; GFX1030-NEXT: v_mad_u64_u32 v[4:5], null, v1, v4, 0
				; GFX1030-NEXT: v_mad_u64_u32 v[6:7], null, v1, s4, 0
	; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v8, v2			; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v8, v2
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v3, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4			; GFX1030-NEXT: v_add_co_u32 v2, vcc_lo, v2, v4
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v2, vcc_lo, v3, v5, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v2, vcc_lo, v3, v5, vcc_lo
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v7, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, 0, v7, vcc_lo
	; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v2, v6			; GFX1030-NEXT: v_add_co_u32 v5, vcc_lo, v2, v6
	; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v3, vcc_lo			; GFX1030-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, 0, v3, vcc_lo
	; GFX1030-NEXT: v_mad_u64_u32 v[2:3], null, 0x186a0, v5, 0			; GFX1030-NEXT: v_mad_u64_u32 v[2:3], null, 0x186a0, v5, 0
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/udiv64.ll

	Show All 20 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s4, v1			; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s4, v0			; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s5, v0			; GCN-NEXT: v_mul_lo_u32 v5, s5, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s4, v0			; GCN-NEXT: v_mul_lo_u32 v4, s4, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v2, s8, v1			; GCN-NEXT: v_mul_lo_u32 v2, s8, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s8, v0			; GCN-NEXT: v_mul_hi_u32 v3, s8, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s9, v0			; GCN-NEXT: v_mul_lo_u32 v4, s9, v0
	; GCN-NEXT: v_mov_b32_e32 v5, s9			; GCN-NEXT: v_mov_b32_e32 v5, s9
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, s8, v0			; GCN-NEXT: v_mul_lo_u32 v3, s8, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2			; GCN-NEXT: v_sub_i32_e32 v4, vcc, s3, v2
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3			; GCN-NEXT: v_sub_i32_e32 v3, vcc, s2, v3
	; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc			; GCN-NEXT: v_subb_u32_e64 v4, s[0:1], v4, v5, vcc
	; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v3			; GCN-NEXT: v_subrev_i32_e64 v5, s[0:1], s8, v3
	; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v4, s[0:1], 0, v4, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v4
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v5
	▲ Show 20 Lines • Show All 599 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2			; GCN-NEXT: v_mac_f32_e32 v1, 0xcf800000, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_subb_u32 s1, 0, s1			; GCN-NEXT: s_subb_u32 s1, 0, s1
	; GCN-NEXT: v_mul_lo_u32 v3, s0, v2			; GCN-NEXT: v_mul_lo_u32 v3, s0, v2
	; GCN-NEXT: v_mul_hi_u32 v4, s0, v1			; GCN-NEXT: v_mul_hi_u32 v4, s0, v1
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v1			; GCN-NEXT: v_mul_lo_u32 v5, s1, v1
	; GCN-NEXT: v_mul_lo_u32 v6, s0, v1			; GCN-NEXT: v_mul_lo_u32 v6, s0, v1
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v3			; GCN-NEXT: v_mul_lo_u32 v4, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v5, v1, v6			; GCN-NEXT: v_mul_hi_u32 v5, v1, v6
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v3			; GCN-NEXT: v_mul_hi_u32 v7, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v3			; GCN-NEXT: v_mul_hi_u32 v8, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, v2, v3			; GCN-NEXT: v_mul_lo_u32 v3, v2, v3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GCN-NEXT: v_mul_lo_u32 v7, v2, v6			; GCN-NEXT: v_mul_lo_u32 v7, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v6			; GCN-NEXT: v_mul_hi_u32 v6, v2, v6
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v7
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, v5, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, v5, v6, vcc
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v8, vcc
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, v2, v4, vcc
	; GCN-NEXT: v_mul_lo_u32 v3, s0, v2			; GCN-NEXT: v_mul_lo_u32 v3, s0, v2
	; GCN-NEXT: v_mul_hi_u32 v4, s0, v1			; GCN-NEXT: v_mul_hi_u32 v4, s0, v1
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v1			; GCN-NEXT: v_mul_lo_u32 v5, s1, v1
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GCN-NEXT: v_mul_lo_u32 v4, s0, v1			; GCN-NEXT: v_mul_lo_u32 v4, s0, v1
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_mul_lo_u32 v7, v1, v3			; GCN-NEXT: v_mul_lo_u32 v7, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v4			; GCN-NEXT: v_mul_hi_u32 v8, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v1, v3			; GCN-NEXT: v_mul_hi_u32 v9, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v6, v2, v4			; GCN-NEXT: v_mul_hi_u32 v6, v2, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v2, v4			; GCN-NEXT: v_mul_lo_u32 v4, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v5, v2, v3			; GCN-NEXT: v_mul_hi_u32 v5, v2, v3
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v8, v7
	; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v8, vcc, 0, v9, vcc
	▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s4, v1			; GCN-NEXT: v_mul_lo_u32 v2, s4, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s4, v0			; GCN-NEXT: v_mul_hi_u32 v3, s4, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s5, v0			; GCN-NEXT: v_mul_lo_u32 v5, s5, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s4, v0			; GCN-NEXT: v_mul_lo_u32 v4, s4, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 32 Lines
	; GCN-NEXT: v_mul_hi_u32 v0, v0, 24			; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
	; GCN-NEXT: v_mul_hi_u32 v1, v1, 24			; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
	; GCN-NEXT: v_mov_b32_e32 v4, s3			; GCN-NEXT: v_mov_b32_e32 v4, s3
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s3, v0			; GCN-NEXT: v_mul_lo_u32 v1, s3, v0
	; GCN-NEXT: v_mul_hi_u32 v2, s2, v0			; GCN-NEXT: v_mul_hi_u32 v2, s2, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, s2, v0			; GCN-NEXT: v_mul_lo_u32 v2, s2, v0
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, 24, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, 24, v2
	; GCN-NEXT: v_subb_u32_e64 v3, s[0:1], v3, v4, vcc			; GCN-NEXT: v_subb_u32_e64 v3, s[0:1], v3, v4, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s2, v2
	; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3			; GCN-NEXT: v_cmp_le_u32_e64 s[0:1], s3, v3
	; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[0:1]
	▲ Show 20 Lines • Show All 381 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s4			; GCN-NEXT: v_mul_lo_u32 v4, v1, s4
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s4			; GCN-NEXT: v_mul_lo_u32 v3, v0, s4
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v3			; GCN-NEXT: v_mul_hi_u32 v5, v0, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v0, v2			; GCN-NEXT: v_mul_lo_u32 v4, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s4			; GCN-NEXT: v_mul_lo_u32 v3, v1, s4
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s4			; GCN-NEXT: v_mul_lo_u32 v4, v0, s4
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_mul_lo_u32 v3, v0, v2			; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v4			; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v4			; GCN-NEXT: v_mul_lo_u32 v6, v1, v4
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2			; GCN-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; GCN-NEXT: v_trunc_f32_e32 v3, v3			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3			; GCN-NEXT: v_mac_f32_e32 v2, 0xcf800000, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_mul_hi_u32 v4, v2, s4			; GCN-NEXT: v_mul_hi_u32 v4, v2, s4
	; GCN-NEXT: v_mul_lo_u32 v6, v3, s4			; GCN-NEXT: v_mul_lo_u32 v6, v3, s4
	; GCN-NEXT: v_mul_lo_u32 v5, v2, s4			; GCN-NEXT: v_mul_lo_u32 v5, v2, s4
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4			; GCN-NEXT: v_sub_i32_e32 v4, vcc, v4, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_mul_hi_u32 v7, v2, v5			; GCN-NEXT: v_mul_hi_u32 v7, v2, v5
	; GCN-NEXT: v_mul_lo_u32 v6, v2, v4			; GCN-NEXT: v_mul_lo_u32 v6, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v4			; GCN-NEXT: v_mul_hi_u32 v8, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v3, v4			; GCN-NEXT: v_mul_hi_u32 v9, v3, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v4			; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6			; GCN-NEXT: v_add_i32_e32 v6, vcc, v7, v6
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	; GCN-NEXT: v_mul_lo_u32 v8, v3, v5			; GCN-NEXT: v_mul_lo_u32 v8, v3, v5
	; GCN-NEXT: v_mul_hi_u32 v5, v3, v5			; GCN-NEXT: v_mul_hi_u32 v5, v3, v5
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8			; GCN-NEXT: v_add_i32_e32 v6, vcc, v6, v8
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, v7, v5, vcc
	; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc			; GCN-NEXT: v_addc_u32_e32 v6, vcc, 0, v9, vcc
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v3, v5, vcc
	; GCN-NEXT: v_mul_hi_u32 v4, v2, s4			; GCN-NEXT: v_mul_hi_u32 v4, v2, s4
	; GCN-NEXT: v_mul_lo_u32 v5, v3, s4			; GCN-NEXT: v_mul_lo_u32 v5, v3, s4
	; GCN-NEXT: v_mul_lo_u32 v6, v2, s4			; GCN-NEXT: v_mul_lo_u32 v6, v2, s4
	; GCN-NEXT: v_subrev_i32_e32 v4, vcc, v2, v4			; GCN-NEXT: v_sub_i32_e32 v4, vcc, v4, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v5
	; GCN-NEXT: v_mul_lo_u32 v5, v2, v4			; GCN-NEXT: v_mul_lo_u32 v5, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v7, v2, v6			; GCN-NEXT: v_mul_hi_u32 v7, v2, v6
	; GCN-NEXT: v_mul_hi_u32 v8, v2, v4			; GCN-NEXT: v_mul_hi_u32 v8, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v9, v3, v4			; GCN-NEXT: v_mul_hi_u32 v9, v3, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v3, v4			; GCN-NEXT: v_mul_lo_u32 v4, v3, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; GCN-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc			; GCN-NEXT: v_addc_u32_e32 v7, vcc, 0, v8, vcc
	▲ Show 20 Lines • Show All 331 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udivrem.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_sub_i32 s3, 0, s2			; GFX6-NEXT: s_sub_i32 s3, 0, s2
	; GFX6-NEXT: s_mov_b32 s11, s7			; GFX6-NEXT: s_mov_b32 s11, s7
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v1, s3, v0
	; GFX6-NEXT: s_load_dword s3, s[0:1], 0x1d			; GFX6-NEXT: s_load_dword s3, s[0:1], 0x1d
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s3, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v0, s2			; GFX6-NEXT: v_mul_lo_u32 v1, v0, s2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v2, vcc, 1, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s3, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s3, v1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v1			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v1
	Show All 17 Lines
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX8-NEXT: s_sub_i32 s2, 0, s6			; GFX8-NEXT: s_sub_i32 s2, 0, s6
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0			; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0			; GFX8-NEXT: v_mul_hi_u32 v2, s7, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s2			; GFX8-NEXT: v_mov_b32_e32 v0, s2
	; GFX8-NEXT: v_mov_b32_e32 v1, s3			; GFX8-NEXT: v_mov_b32_e32 v1, s3
	; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6			; GFX8-NEXT: v_mul_lo_u32 v3, v2, s6
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2			; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
	; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s7, v3			; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s7, v3
	; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3			; GFX8-NEXT: v_cmp_le_u32_e64 s[0:1], s6, v3
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_sub_i32 s2, 0, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s7, v1
	Show All 11 Lines
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v2:			; GFX8-LABEL: test_udivrem_v2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s7
	; GFX8-NEXT: s_sub_i32 s2, 0, s6			; GFX8-NEXT: s_sub_i32 s2, 0, s6
				; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s7
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; GFX8-NEXT: s_sub_i32 s2, 0, s7
	; GFX8-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v1
	; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX8-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0
	; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s7, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s7, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
				; GFX8-NEXT: v_readfirstlane_b32 s2, v0
				; GFX8-NEXT: s_mul_i32 s2, s2, s6
				; GFX8-NEXT: s_sub_i32 s2, s4, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s6
				; GFX8-NEXT: s_cmp_ge_u32 s2, s6
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s6
				; GFX8-NEXT: s_cmp_ge_u32 s2, s6
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: s_sub_i32 s3, 0, s7
				; GFX8-NEXT: v_mul_lo_u32 v0, s3, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
				; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
				; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0
				; GFX8-NEXT: v_mul_hi_u32 v1, s5, v0
				; GFX8-NEXT: v_mov_b32_e32 v0, s2
				; GFX8-NEXT: v_readfirstlane_b32 s2, v1
				; GFX8-NEXT: s_mul_i32 s2, s2, s7
				; GFX8-NEXT: s_sub_i32 s2, s5, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s7
				; GFX8-NEXT: s_cmp_ge_u32 s2, s7
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s7
				; GFX8-NEXT: s_cmp_ge_u32 s2, s7
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: v_mov_b32_e32 v1, s2
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	%result0 = udiv <2 x i32> %x, %y			%result0 = udiv <2 x i32> %x, %y
	store <2 x i32> %result0, <2 x i32> addrspace(1)* %out			store <2 x i32> %result0, <2 x i32> addrspace(1)* %out
	%result1 = urem <2 x i32> %x, %y			%result1 = urem <2 x i32> %x, %y
	store <2 x i32> %result1, <2 x i32> addrspace(1)* %out			store <2 x i32> %result1, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	Show All 16 Lines
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s10, v2			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s10, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s11
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s10, v2			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s10, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s11, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v4:			; GFX8-LABEL: test_udivrem_v4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX8-NEXT: s_sub_i32 s2, 0, s8			; GFX8-NEXT: s_sub_i32 s2, 0, s8
	; GFX8-NEXT: s_sub_i32 s3, 0, s9			; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s9
				; GFX8-NEXT: v_mov_b32_e32 v5, s1
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX8-NEXT: v_mov_b32_e32 v4, s0
	; GFX8-NEXT: v_cvt_f32_u32_e32 v3, s10			; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX8-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1			; GFX8-NEXT: v_mul_lo_u32 v1, s2, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX8-NEXT: s_sub_i32 s2, 0, s10
	; GFX8-NEXT: v_mul_lo_u32 v4, s3, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX8-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0
	; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, v4, v1			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX8-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX8-NEXT: s_mul_i32 s2, s2, s8
	; GFX8-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX8-NEXT: s_sub_i32 s2, s4, s2
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0			; GFX8-NEXT: s_sub_i32 s3, s2, s8
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0			; GFX8-NEXT: s_cmp_ge_u32 s2, s8
	; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1			; GFX8-NEXT: s_cselect_b32 s2, s3, s2
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX8-NEXT: s_sub_i32 s3, s2, s8
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: s_cmp_ge_u32 s2, s8
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0			; GFX8-NEXT: s_cselect_b32 s2, s3, s2
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX8-NEXT: s_sub_i32 s3, 0, s9
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_mul_lo_u32 v0, s3, v1
	; GFX8-NEXT: v_mul_lo_u32 v3, s2, v2			; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1			; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
	; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX8-NEXT: v_mul_hi_u32 v0, s5, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: s_sub_i32 s2, 0, s11			; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s11
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; GFX8-NEXT: v_readfirstlane_b32 s3, v0
	; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4			; GFX8-NEXT: s_mul_i32 s3, s3, s9
	; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX8-NEXT: s_sub_i32 s3, s5, s3
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1			; GFX8-NEXT: s_sub_i32 s4, s3, s9
	; GFX8-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX8-NEXT: s_cmp_ge_u32 s3, s9
	; GFX8-NEXT: v_mul_lo_u32 v5, s2, v3			; GFX8-NEXT: s_cselect_b32 s3, s4, s3
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX8-NEXT: s_sub_i32 s4, s3, s9
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: s_cmp_ge_u32 s3, s9
	; GFX8-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX8-NEXT: s_cselect_b32 s3, s4, s3
	; GFX8-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX8-NEXT: s_sub_i32 s4, 0, s10
	; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s6, v2			; GFX8-NEXT: v_mul_lo_u32 v0, s4, v1
	; GFX8-NEXT: v_add_u32_e32 v3, vcc, v4, v3			; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
	; GFX8-NEXT: v_subrev_u32_e32 v5, vcc, s10, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX8-NEXT: v_mul_hi_u32 v0, s6, v0
	; GFX8-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s10, v2			; GFX8-NEXT: v_readfirstlane_b32 s4, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v2			; GFX8-NEXT: s_mul_i32 s4, s4, s10
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX8-NEXT: s_sub_i32 s4, s6, s4
	; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s7, v3			; GFX8-NEXT: s_sub_i32 s5, s4, s10
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s11, v3			; GFX8-NEXT: s_cmp_ge_u32 s4, s10
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX8-NEXT: s_cselect_b32 s4, s5, s4
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX8-NEXT: s_sub_i32 s5, s4, s10
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s11, v3			; GFX8-NEXT: s_cmp_ge_u32 s4, s10
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX8-NEXT: s_cselect_b32 s4, s5, s4
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX8-NEXT: s_sub_i32 s5, 0, s11
	; GFX8-NEXT: v_mov_b32_e32 v5, s1			; GFX8-NEXT: v_mul_lo_u32 v0, s5, v1
	; GFX8-NEXT: v_mov_b32_e32 v4, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s4
				; GFX8-NEXT: v_mul_hi_u32 v0, v1, v0
				; GFX8-NEXT: v_add_u32_e32 v0, vcc, v1, v0
				; GFX8-NEXT: v_mul_hi_u32 v3, s7, v0
				; GFX8-NEXT: v_mov_b32_e32 v0, s2
				; GFX8-NEXT: v_mov_b32_e32 v1, s3
				; GFX8-NEXT: v_readfirstlane_b32 s2, v3
				; GFX8-NEXT: s_mul_i32 s2, s2, s11
				; GFX8-NEXT: s_sub_i32 s2, s7, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s11
				; GFX8-NEXT: s_cmp_ge_u32 s2, s11
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: s_sub_i32 s3, s2, s11
				; GFX8-NEXT: s_cmp_ge_u32 s2, s11
				; GFX8-NEXT: s_cselect_b32 s2, s3, s2
				; GFX8-NEXT: v_mov_b32_e32 v3, s2
	; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]			; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	%result0 = udiv <4 x i32> %x, %y			%result0 = udiv <4 x i32> %x, %y
	store <4 x i32> %result0, <4 x i32> addrspace(1)* %out			store <4 x i32> %result0, <4 x i32> addrspace(1)* %out
	%result1 = urem <4 x i32> %x, %y			%result1 = urem <4 x i32> %x, %y
	store <4 x i32> %result1, <4 x i32> addrspace(1)* %out			store <4 x i32> %result1, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/unstructured-cfg-def-use-issue.ll

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: llc -mtriple=amdgcn-amdhsa -verify-machineinstrs -simplifycfg-require-and-preserve-domtree=1 < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amdhsa -verify-machineinstrs -simplifycfg-require-and-preserve-domtree=1 < %s \| FileCheck -check-prefix=GCN %s
	; RUN: opt -S -si-annotate-control-flow -mtriple=amdgcn-amdhsa -verify-machineinstrs -simplifycfg-require-and-preserve-domtree=1 < %s \| FileCheck -check-prefix=SI-OPT %s			; RUN: opt -S -si-annotate-control-flow -mtriple=amdgcn-amdhsa -verify-machineinstrs -simplifycfg-require-and-preserve-domtree=1 < %s \| FileCheck -check-prefix=SI-OPT %s

	define hidden void @widget() {			define hidden void @widget() {
	; GCN-LABEL: widget:			; GCN-LABEL: widget:
	; GCN: ; %bb.0: ; %bb			; GCN: ; %bb.0: ; %bb
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: s_or_saveexec_b64 s[16:17], -1			; GCN-NEXT: s_or_saveexec_b64 s[16:17], -1
	; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s32 ; 4-byte Folded Spill			; GCN-NEXT: buffer_store_dword v40, off, s[0:3], s32 ; 4-byte Folded Spill
	; GCN-NEXT: s_mov_b64 exec, s[16:17]			; GCN-NEXT: s_mov_b64 exec, s[16:17]
	; GCN-NEXT: v_writelane_b32 v40, s33, 2			; GCN-NEXT: v_writelane_b32 v40, s33, 2
	; GCN-NEXT: s_mov_b32 s33, s32			; GCN-NEXT: s_mov_b32 s33, s32
	; GCN-NEXT: s_addk_i32 s32, 0x400			; GCN-NEXT: s_addk_i32 s32, 0x400
	; GCN-NEXT: v_writelane_b32 v40, s30, 0			; GCN-NEXT: v_writelane_b32 v40, s30, 0
	; GCN-NEXT: v_writelane_b32 v40, s31, 1			; GCN-NEXT: v_writelane_b32 v40, s31, 1
	; GCN-NEXT: v_mov_b32_e32 v0, 0			; GCN-NEXT: v_mov_b32_e32 v0, 0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: flat_load_dword v0, v[0:1]			; GCN-NEXT: flat_load_dword v0, v[0:1]
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cmp_gt_i32_e32 vcc, 21, v0			; GCN-NEXT: v_cmp_gt_i32_e32 vcc, 21, v0
				; GCN-NEXT: v_readfirstlane_b32 s15, v0
	; GCN-NEXT: s_cbranch_vccz .LBB0_3			; GCN-NEXT: s_cbranch_vccz .LBB0_3
	; GCN-NEXT: ; %bb.1: ; %bb4			; GCN-NEXT: ; %bb.1: ; %bb4
	; GCN-NEXT: v_cmp_ne_u32_e32 vcc, 9, v0			; GCN-NEXT: s_cmp_lg_u32 s15, 9
	; GCN-NEXT: s_cbranch_vccnz .LBB0_4			; GCN-NEXT: s_cbranch_scc1 .LBB0_4
	; GCN-NEXT: ; %bb.2: ; %bb7			; GCN-NEXT: ; %bb.2: ; %bb7
	; GCN-NEXT: s_getpc_b64 s[16:17]			; GCN-NEXT: s_getpc_b64 s[16:17]
	; GCN-NEXT: s_add_u32 s16, s16, wibble@rel32@lo+4			; GCN-NEXT: s_add_u32 s16, s16, wibble@rel32@lo+4
	; GCN-NEXT: s_addc_u32 s17, s17, wibble@rel32@hi+12			; GCN-NEXT: s_addc_u32 s17, s17, wibble@rel32@hi+12
	; GCN-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GCN-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GCN-NEXT: s_branch .LBB0_7			; GCN-NEXT: s_branch .LBB0_7
	; GCN-NEXT: .LBB0_3: ; %bb2			; GCN-NEXT: .LBB0_3: ; %bb2
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, 21, v0			; GCN-NEXT: s_cmp_eq_u32 s15, 21
	; GCN-NEXT: s_cbranch_vccnz .LBB0_6			; GCN-NEXT: s_cbranch_scc1 .LBB0_6
	; GCN-NEXT: .LBB0_4: ; %bb9			; GCN-NEXT: .LBB0_4: ; %bb9
	; GCN-NEXT: s_getpc_b64 s[16:17]			; GCN-NEXT: s_getpc_b64 s[16:17]
	; GCN-NEXT: s_add_u32 s16, s16, wibble@rel32@lo+4			; GCN-NEXT: s_add_u32 s16, s16, wibble@rel32@lo+4
	; GCN-NEXT: s_addc_u32 s17, s17, wibble@rel32@hi+12			; GCN-NEXT: s_addc_u32 s17, s17, wibble@rel32@hi+12
	; GCN-NEXT: s_swappc_b64 s[30:31], s[16:17]			; GCN-NEXT: s_swappc_b64 s[30:31], s[16:17]
	; GCN-NEXT: v_cmp_lt_f32_e32 vcc, 0, v0			; GCN-NEXT: v_cmp_lt_f32_e32 vcc, 0, v0
	; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GCN-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GCN-NEXT: s_cbranch_execnz .LBB0_7			; GCN-NEXT: s_cbranch_execnz .LBB0_7
	▲ Show 20 Lines • Show All 314 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/urem.ll

Show All 15 Lines	define amdgpu_kernel void @test_urem_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%result = urem i32 %a, %b		%result = urem i32 %a, %b
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_urem_i32_7:		; FUNC-LABEL: {{^}}test_urem_i32_7:
; SI: s_mov_b32 [[MAGIC:s[0-9]+]], 0x24924925		; SI: s_mov_b32 [[MAGIC:s[0-9]+]], 0x24924925
; SI: v_mul_hi_u32 {{v[0-9]+}}, {{v[0-9]+}}, [[MAGIC]]		; SI: v_mul_hi_u32 {{v[0-9]+}}, {{v[0-9]+}}, [[MAGIC]]
; SI: v_subrev_{{[iu]}}32
; SI: v_mul_lo_u32
; SI: v_sub_{{[iu]}}32		; SI: v_sub_{{[iu]}}32
		; SI: v_mul_lo_u32
		; SI: v_subrev_{{[iu]}}32
; SI: buffer_store_dword		; SI: buffer_store_dword
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_urem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @test_urem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%num = load i32, i32 addrspace(1) * %in		%num = load i32, i32 addrspace(1) * %in
%result = urem i32 %num, 7		%result = urem i32 %num, 7
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/urem64.ll

	Show All 22 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v0			; GCN-NEXT: v_mul_lo_u32 v5, s1, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s0, v0			; GCN-NEXT: v_mul_lo_u32 v4, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 40 Lines
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, v3, v0, vcc
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v5, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s12, v1			; GCN-NEXT: v_mul_lo_u32 v1, s12, v1
	; GCN-NEXT: v_mul_hi_u32 v2, s12, v0			; GCN-NEXT: v_mul_hi_u32 v2, s12, v0
	; GCN-NEXT: v_mul_lo_u32 v3, s13, v0			; GCN-NEXT: v_mul_lo_u32 v3, s13, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s12, v0			; GCN-NEXT: v_mul_lo_u32 v0, s12, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, s11, v1
	; GCN-NEXT: v_mov_b32_e32 v3, s13			; GCN-NEXT: v_mov_b32_e32 v3, s13
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s10, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s12, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s13, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2			; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[12:13]
	; GCN-IR-NEXT: .LBB0_6: ; %udiv-end			; GCN-IR-NEXT: .LBB0_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1			; GCN-IR-NEXT: v_mul_lo_u32 v1, s4, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s4, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0			; GCN-IR-NEXT: v_mul_lo_u32 v3, s5, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, s4, v0
	; GCN-IR-NEXT: s_mov_b32 s11, 0xf000			; GCN-IR-NEXT: s_mov_b32 s11, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s10, -1			; GCN-IR-NEXT: s_mov_b32 s10, -1
	; GCN-IR-NEXT: s_mov_b32 s8, s0			; GCN-IR-NEXT: s_mov_b32 s8, s0
	; GCN-IR-NEXT: s_mov_b32 s9, s1			; GCN-IR-NEXT: s_mov_b32 s9, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 513 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1			; GCN-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_mul_lo_u32 v2, s0, v1			; GCN-NEXT: v_mul_lo_u32 v2, s0, v1
	; GCN-NEXT: v_mul_hi_u32 v3, s0, v0			; GCN-NEXT: v_mul_hi_u32 v3, s0, v0
	; GCN-NEXT: v_mul_lo_u32 v5, s1, v0			; GCN-NEXT: v_mul_lo_u32 v5, s1, v0
	; GCN-NEXT: v_mul_lo_u32 v4, s0, v0			; GCN-NEXT: v_mul_lo_u32 v4, s0, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_mul_hi_u32 v3, v0, v4			; GCN-NEXT: v_mul_hi_u32 v3, v0, v4
	; GCN-NEXT: v_mul_lo_u32 v5, v0, v2			; GCN-NEXT: v_mul_lo_u32 v5, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v0, v2			; GCN-NEXT: v_mul_hi_u32 v7, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v1, v4			; GCN-NEXT: v_mul_hi_u32 v6, v1, v4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, v4			; GCN-NEXT: v_mul_lo_u32 v4, v1, v4
	; GCN-NEXT: v_mul_hi_u32 v8, v1, v2			; GCN-NEXT: v_mul_hi_u32 v8, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GCN-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	Show All 31 Lines
	; GCN-NEXT: v_mul_hi_u32 v0, v0, 24			; GCN-NEXT: v_mul_hi_u32 v0, v0, 24
	; GCN-NEXT: v_mul_hi_u32 v1, v1, 24			; GCN-NEXT: v_mul_hi_u32 v1, v1, 24
	; GCN-NEXT: v_mov_b32_e32 v3, s7			; GCN-NEXT: v_mov_b32_e32 v3, s7
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v1, vcc
	; GCN-NEXT: v_mul_lo_u32 v1, s7, v0			; GCN-NEXT: v_mul_lo_u32 v1, s7, v0
	; GCN-NEXT: v_mul_hi_u32 v2, s6, v0			; GCN-NEXT: v_mul_hi_u32 v2, s6, v0
	; GCN-NEXT: v_mul_lo_u32 v0, s6, v0			; GCN-NEXT: v_mul_lo_u32 v0, s6, v0
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1			; GCN-NEXT: v_sub_i32_e32 v2, vcc, 0, v1
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc			; GCN-NEXT: v_subb_u32_e64 v2, s[0:1], v2, v3, vcc
	; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0			; GCN-NEXT: v_subrev_i32_e64 v4, s[0:1], s6, v0
	; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]			; GCN-NEXT: v_subbrev_u32_e64 v5, s[2:3], 0, v2, s[0:1]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s7, v5
	; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[2:3]
	; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4			; GCN-NEXT: v_cmp_le_u32_e64 s[2:3], s6, v4
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, 24, 0, s[10:11]
	; GCN-IR-NEXT: .LBB6_6: ; %udiv-end			; GCN-IR-NEXT: .LBB6_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, s2, v1			; GCN-IR-NEXT: v_mul_lo_u32 v1, s2, v1
	; GCN-IR-NEXT: v_mul_hi_u32 v2, s2, v0			; GCN-IR-NEXT: v_mul_hi_u32 v2, s2, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v3, s3, v0			; GCN-IR-NEXT: v_mul_lo_u32 v3, s3, v0
	; GCN-IR-NEXT: v_mul_lo_u32 v0, s2, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, 0, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = urem i64 24, %x			%result = urem i64 24, %x
	Show All 17 Lines
	; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0			; GCN-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v4, v1, s4			; GCN-NEXT: v_mul_lo_u32 v4, v1, s4
	; GCN-NEXT: v_mul_lo_u32 v3, v0, s4			; GCN-NEXT: v_mul_lo_u32 v3, v0, s4
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v3			; GCN-NEXT: v_mul_hi_u32 v5, v0, v3
	; GCN-NEXT: v_mul_lo_u32 v4, v0, v2			; GCN-NEXT: v_mul_lo_u32 v4, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	; GCN-NEXT: v_mul_lo_u32 v6, v1, v3			; GCN-NEXT: v_mul_lo_u32 v6, v1, v3
	; GCN-NEXT: v_mul_hi_u32 v3, v1, v3			; GCN-NEXT: v_mul_hi_u32 v3, v1, v3
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GCN-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, v5, v3, vcc
	; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GCN-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GCN-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GCN-NEXT: v_mul_hi_u32 v2, v0, s4			; GCN-NEXT: v_mul_hi_u32 v2, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v3, v1, s4			; GCN-NEXT: v_mul_lo_u32 v3, v1, s4
	; GCN-NEXT: v_mul_lo_u32 v4, v0, s4			; GCN-NEXT: v_mul_lo_u32 v4, v0, s4
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: v_subrev_i32_e32 v2, vcc, v0, v2			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v0
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GCN-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GCN-NEXT: v_mul_lo_u32 v3, v0, v2			; GCN-NEXT: v_mul_lo_u32 v3, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v5, v0, v4			; GCN-NEXT: v_mul_hi_u32 v5, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v6, v0, v2			; GCN-NEXT: v_mul_hi_u32 v6, v0, v2
	; GCN-NEXT: v_mul_hi_u32 v7, v1, v2			; GCN-NEXT: v_mul_hi_u32 v7, v1, v2
	; GCN-NEXT: v_mul_lo_u32 v2, v1, v2			; GCN-NEXT: v_mul_lo_u32 v2, v1, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v5, v3
	; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc			; GCN-NEXT: v_addc_u32_e32 v5, vcc, 0, v6, vcc
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; GCN-IR-NEXT: v_mov_b32_e32 v0, s2			; GCN-IR-NEXT: v_mov_b32_e32 v0, s2
	; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[10:11]			; GCN-IR-NEXT: v_cndmask_b32_e64 v0, v0, 0, s[10:11]
	; GCN-IR-NEXT: .LBB7_6: ; %udiv-end			; GCN-IR-NEXT: .LBB7_6: ; %udiv-end
	; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, 24			; GCN-IR-NEXT: v_mul_lo_u32 v1, v1, 24
	; GCN-IR-NEXT: v_mul_hi_u32 v2, v0, 24			; GCN-IR-NEXT: v_mul_hi_u32 v2, v0, 24
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, 24			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, 24
	; GCN-IR-NEXT: s_mov_b32 s7, 0xf000			; GCN-IR-NEXT: s_mov_b32 s7, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s6, -1			; GCN-IR-NEXT: s_mov_b32 s6, -1
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v2, s3			; GCN-IR-NEXT: v_mov_b32_e32 v2, s3
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc			; GCN-IR-NEXT: v_subb_u32_e32 v1, vcc, v2, v1, vcc
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%result = urem i64 %x, 24			%result = urem i64 %x, 24
	▲ Show 20 Lines • Show All 503 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/usubo.ll

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_usubo_i64(i64 addrspace(1)* %out, i1 addrspace(1)* %carryout, i64 addrspace(1)* %a.ptr, i64 addrspace(1)* %b.ptr) #0 {
%val = extractvalue { i64, i1 } %usub, 0		%val = extractvalue { i64, i1 } %usub, 0
%carry = extractvalue { i64, i1 } %usub, 1		%carry = extractvalue { i64, i1 } %usub, 1
store i64 %val, i64 addrspace(1)* %out, align 8		store i64 %val, i64 addrspace(1)* %out, align 8
store i1 %carry, i1 addrspace(1)* %carryout		store i1 %carry, i1 addrspace(1)* %carryout
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_usubo_i16:		; FUNC-LABEL: {{^}}v_usubo_i16:
; SI: v_subrev_i32_e32		; SI: v_sub_i32_e32
; SI: v_and_b32		; SI: v_and_b32
; SI: v_cmp_ne_u32_e32		; SI: v_cmp_ne_u32_e32

; VI: v_sub_u16_e32		; VI: v_sub_u16_e32
; VI: v_cmp_gt_u16_e32		; VI: v_cmp_gt_u16_e32

; GFX9: v_sub_u16_e32		; GFX9: v_sub_u16_e32
; GFX9: v_cmp_gt_u16_e32		; GFX9: v_cmp_gt_u16_e32
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vgpr-liverange-ir.ll

Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines	define amdgpu_ps float @loop(i32 %z, float %v, i32 inreg %bound, float(float)* %extern_func, float(float)* %extern_func2) #0 {
; SI-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY killed $vgpr0		; SI-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY killed $vgpr0
; SI-NEXT: [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_GT_I32_e64 6, killed [[COPY5]], implicit $exec		; SI-NEXT: [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_GT_I32_e64 6, killed [[COPY5]], implicit $exec
; SI-NEXT: [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_GT_I32_e64_]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_GT_I32_e64_]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_BRANCH %bb.6		; SI-NEXT: S_BRANCH %bb.6
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.1.Flow:		; SI-NEXT: bb.1.Flow:
; SI-NEXT: successors: %bb.2(0x40000000), %bb.10(0x40000000)		; SI-NEXT: successors: %bb.2(0x40000000), %bb.10(0x40000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI undef %29:vgpr_32, %bb.0, %4, %bb.9		; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI undef %43:vgpr_32, %bb.0, %4, %bb.9
; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY4]], %bb.0, undef %45:vgpr_32, %bb.9		; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY4]], %bb.0, undef %45:vgpr_32, %bb.9
; SI-NEXT: [[PHI2:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.0, undef %47:vgpr_32, %bb.9		; SI-NEXT: [[PHI2:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.0, undef %47:vgpr_32, %bb.9
; SI-NEXT: [[PHI3:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, undef %49:vgpr_32, %bb.9		; SI-NEXT: [[PHI3:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, undef %49:vgpr_32, %bb.9
; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.10, implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.10, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_BRANCH %bb.2		; SI-NEXT: S_BRANCH %bb.2
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.2.if:		; SI-NEXT: bb.2.if:
; SI-NEXT: successors: %bb.3(0x80000000)		; SI-NEXT: successors: %bb.3(0x80000000)
▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines	define amdgpu_ps float @loop_with_use(i32 %z, float %v, i32 inreg %bound, float(float)* %extern_func, float(float)* %extern_func2) #0 {
; SI-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY killed $vgpr0		; SI-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY killed $vgpr0
; SI-NEXT: [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_GT_I32_e64 6, killed [[COPY5]], implicit $exec		; SI-NEXT: [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_GT_I32_e64 6, killed [[COPY5]], implicit $exec
; SI-NEXT: [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_GT_I32_e64_]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_GT_I32_e64_]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_BRANCH %bb.6		; SI-NEXT: S_BRANCH %bb.6
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.1.Flow:		; SI-NEXT: bb.1.Flow:
; SI-NEXT: successors: %bb.2(0x40000000), %bb.10(0x40000000)		; SI-NEXT: successors: %bb.2(0x40000000), %bb.10(0x40000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI undef %30:vgpr_32, %bb.0, %4, %bb.9		; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI undef %44:vgpr_32, %bb.0, %4, %bb.9
; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.0, undef %46:vgpr_32, %bb.9		; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.0, undef %46:vgpr_32, %bb.9
; SI-NEXT: [[PHI2:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, undef %48:vgpr_32, %bb.9		; SI-NEXT: [[PHI2:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, undef %48:vgpr_32, %bb.9
; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.10, implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.10, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_BRANCH %bb.2		; SI-NEXT: S_BRANCH %bb.2
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.2.if:		; SI-NEXT: bb.2.if:
; SI-NEXT: successors: %bb.3(0x80000000)		; SI-NEXT: successors: %bb.3(0x80000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @livevariables_update_missed_block(i8 addrspace(1)* %src1) {
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[COPY1]](s32), %bb.0, undef %51:vgpr_32, %bb.6		; SI-NEXT: [[PHI:%[0-9]+]]:vgpr_32 = PHI [[COPY1]](s32), %bb.0, undef %51:vgpr_32, %bb.6
; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.7, implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[SI_ELSE:%[0-9]+]]:sreg_32 = SI_ELSE killed [[SI_IF]], %bb.7, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_BRANCH %bb.1		; SI-NEXT: S_BRANCH %bb.1
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.6.sw.bb18:		; SI-NEXT: bb.6.sw.bb18:
; SI-NEXT: successors: %bb.5(0x80000000)		; SI-NEXT: successors: %bb.5(0x80000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI undef %39:vgpr_32, %bb.3, [[GLOBAL_LOAD_UBYTE1]], %bb.4		; SI-NEXT: [[PHI1:%[0-9]+]]:vgpr_32 = PHI undef %37:vgpr_32, %bb.3, [[GLOBAL_LOAD_UBYTE1]], %bb.4
; SI-NEXT: [[V_MOV_B2:%[0-9]+]]:vreg_64 = V_MOV_B64_PSEUDO 0, implicit $exec		; SI-NEXT: [[V_MOV_B2:%[0-9]+]]:vreg_64 = V_MOV_B64_PSEUDO 0, implicit $exec
; SI-NEXT: GLOBAL_STORE_BYTE killed [[V_MOV_B2]], killed [[PHI1]], 0, 0, implicit $exec :: (store (s8) into `i8 addrspace(1)* null`, addrspace 1)		; SI-NEXT: GLOBAL_STORE_BYTE killed [[V_MOV_B2]], killed [[PHI1]], 0, 0, implicit $exec :: (store (s8) into `i8 addrspace(1)* null`, addrspace 1)
; SI-NEXT: S_BRANCH %bb.5		; SI-NEXT: S_BRANCH %bb.5
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.7.UnifiedReturnBlock:		; SI-NEXT: bb.7.UnifiedReturnBlock:
; SI-NEXT: SI_END_CF killed [[SI_ELSE]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: SI_END_CF killed [[SI_ELSE]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: S_ENDPGM 0		; SI-NEXT: S_ENDPGM 0
entry:		entry:
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	define protected amdgpu_kernel void @nested_waterfalls(%tex* addrspace(1)* %tex.coerce) local_unnamed_addr {
; SI-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX4_1]].sub0		; SI-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY killed [[GLOBAL_LOAD_DWORDX4_1]].sub0
; SI-NEXT: [[REG_SEQUENCE2:%[0-9]+]]:vreg_256 = REG_SEQUENCE killed [[COPY9]], %subreg.sub0, killed [[COPY8]], %subreg.sub1, killed [[COPY7]], %subreg.sub2, killed [[COPY6]], %subreg.sub3, killed [[COPY5]], %subreg.sub4, killed [[COPY4]], %subreg.sub5, killed [[COPY3]], %subreg.sub6, killed [[COPY2]], %subreg.sub7		; SI-NEXT: [[REG_SEQUENCE2:%[0-9]+]]:vreg_256 = REG_SEQUENCE killed [[COPY9]], %subreg.sub0, killed [[COPY8]], %subreg.sub1, killed [[COPY7]], %subreg.sub2, killed [[COPY6]], %subreg.sub3, killed [[COPY5]], %subreg.sub4, killed [[COPY4]], %subreg.sub5, killed [[COPY3]], %subreg.sub6, killed [[COPY2]], %subreg.sub7
; SI-NEXT: [[GLOBAL_LOAD_DWORDX4_2:%[0-9]+]]:vreg_128 = GLOBAL_LOAD_DWORDX4 killed [[GLOBAL_LOAD_DWORDX2_]], 48, 0, implicit $exec :: (load (s128) from %ir.8, addrspace 4)		; SI-NEXT: [[GLOBAL_LOAD_DWORDX4_2:%[0-9]+]]:vreg_128 = GLOBAL_LOAD_DWORDX4 killed [[GLOBAL_LOAD_DWORDX2_]], 48, 0, implicit $exec :: (load (s128) from %ir.8, addrspace 4)
; SI-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_MOV_B32 $exec_lo		; SI-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_MOV_B32 $exec_lo
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.2:		; SI-NEXT: bb.2:
; SI-NEXT: successors: %bb.3(0x80000000)		; SI-NEXT: successors: %bb.3(0x80000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub0, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub0, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub1, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub1, implicit $exec
; SI-NEXT: [[REG_SEQUENCE3:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_]], %subreg.sub0, [[V_READFIRSTLANE_B32_1]], %subreg.sub1		; SI-NEXT: [[REG_SEQUENCE3:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_]], %subreg.sub0, [[V_READFIRSTLANE_B32_1]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE3]], [[REG_SEQUENCE2]].sub0_sub1, implicit $exec		; SI-NEXT: [[V_CMP_EQ_U64_e64_:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE3]], [[GLOBAL_LOAD_DWORDX4_2]].sub0_sub1, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_2:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub2, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_2:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub2, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub3, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_3:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub3, implicit $exec
; SI-NEXT: [[REG_SEQUENCE4:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_2]], %subreg.sub0, [[V_READFIRSTLANE_B32_3]], %subreg.sub1		; SI-NEXT: [[REG_SEQUENCE4:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_2]], %subreg.sub0, [[V_READFIRSTLANE_B32_3]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE4]], [[REG_SEQUENCE2]].sub2_sub3, implicit $exec		; SI-NEXT: [[V_CMP_EQ_U64_e64_1:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE4]], [[GLOBAL_LOAD_DWORDX4_2]].sub2_sub3, implicit $exec
; SI-NEXT: [[S_AND_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[V_CMP_EQ_U64_e64_]], killed [[V_CMP_EQ_U64_e64_1]], implicit-def dead $scc		; SI-NEXT: [[S_AND_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[V_CMP_EQ_U64_e64_]], killed [[V_CMP_EQ_U64_e64_1]], implicit-def dead $scc
; SI-NEXT: [[V_READFIRSTLANE_B32_4:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub4, implicit $exec		; SI-NEXT: [[REG_SEQUENCE5:%[0-9]+]]:sgpr_128 = REG_SEQUENCE killed [[V_READFIRSTLANE_B32_]], %subreg.sub0, killed [[V_READFIRSTLANE_B32_1]], %subreg.sub1, killed [[V_READFIRSTLANE_B32_2]], %subreg.sub2, killed [[V_READFIRSTLANE_B32_3]], %subreg.sub3
; SI-NEXT: [[V_READFIRSTLANE_B32_5:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub5, implicit $exec		; SI-NEXT: [[S_AND_SAVEEXEC_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_SAVEEXEC_B32 killed [[S_AND_B32_]], implicit-def $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: [[REG_SEQUENCE5:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_4]], %subreg.sub0, [[V_READFIRSTLANE_B32_5]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_2:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE5]], [[REG_SEQUENCE2]].sub4_sub5, implicit $exec
; SI-NEXT: [[S_AND_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[S_AND_B32_]], killed [[V_CMP_EQ_U64_e64_2]], implicit-def dead $scc
; SI-NEXT: [[V_READFIRSTLANE_B32_6:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub6, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_7:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub7, implicit $exec
; SI-NEXT: [[REG_SEQUENCE6:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_6]], %subreg.sub0, [[V_READFIRSTLANE_B32_7]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_3:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE6]], [[REG_SEQUENCE2]].sub6_sub7, implicit $exec
; SI-NEXT: [[S_AND_B32_2:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[S_AND_B32_1]], killed [[V_CMP_EQ_U64_e64_3]], implicit-def dead $scc
; SI-NEXT: [[REG_SEQUENCE7:%[0-9]+]]:sgpr_256 = REG_SEQUENCE killed [[V_READFIRSTLANE_B32_]], %subreg.sub0, killed [[V_READFIRSTLANE_B32_1]], %subreg.sub1, killed [[V_READFIRSTLANE_B32_2]], %subreg.sub2, killed [[V_READFIRSTLANE_B32_3]], %subreg.sub3, killed [[V_READFIRSTLANE_B32_4]], %subreg.sub4, killed [[V_READFIRSTLANE_B32_5]], %subreg.sub5, killed [[V_READFIRSTLANE_B32_6]], %subreg.sub6, killed [[V_READFIRSTLANE_B32_7]], %subreg.sub7
; SI-NEXT: [[S_AND_SAVEEXEC_B32_:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_SAVEEXEC_B32 killed [[S_AND_B32_2]], implicit-def $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.3:		; SI-NEXT: bb.3:
; SI-NEXT: successors: %bb.4(0x80000000)		; SI-NEXT: successors: %bb.4(0x80000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_MOV_B32 $exec_lo		; SI-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_MOV_B32 $exec_lo
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.4:		; SI-NEXT: bb.4:
; SI-NEXT: successors: %bb.5(0x80000000)		; SI-NEXT: successors: %bb.5(0x80000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[V_READFIRSTLANE_B32_8:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub0, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_4:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub0, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_9:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub1, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_5:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub1, implicit $exec
		; SI-NEXT: [[REG_SEQUENCE6:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_4]], %subreg.sub0, [[V_READFIRSTLANE_B32_5]], %subreg.sub1
		; SI-NEXT: [[V_CMP_EQ_U64_e64_2:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE6]], [[REG_SEQUENCE2]].sub0_sub1, implicit $exec
		; SI-NEXT: [[V_READFIRSTLANE_B32_6:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub2, implicit $exec
		; SI-NEXT: [[V_READFIRSTLANE_B32_7:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub3, implicit $exec
		; SI-NEXT: [[REG_SEQUENCE7:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_6]], %subreg.sub0, [[V_READFIRSTLANE_B32_7]], %subreg.sub1
		; SI-NEXT: [[V_CMP_EQ_U64_e64_3:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE7]], [[REG_SEQUENCE2]].sub2_sub3, implicit $exec
		; SI-NEXT: [[S_AND_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[V_CMP_EQ_U64_e64_2]], killed [[V_CMP_EQ_U64_e64_3]], implicit-def dead $scc
		; SI-NEXT: [[V_READFIRSTLANE_B32_8:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub4, implicit $exec
		; SI-NEXT: [[V_READFIRSTLANE_B32_9:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub5, implicit $exec
; SI-NEXT: [[REG_SEQUENCE8:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_8]], %subreg.sub0, [[V_READFIRSTLANE_B32_9]], %subreg.sub1		; SI-NEXT: [[REG_SEQUENCE8:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_8]], %subreg.sub0, [[V_READFIRSTLANE_B32_9]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_4:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE8]], [[GLOBAL_LOAD_DWORDX4_2]].sub0_sub1, implicit $exec		; SI-NEXT: [[V_CMP_EQ_U64_e64_4:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE8]], [[REG_SEQUENCE2]].sub4_sub5, implicit $exec
; SI-NEXT: [[V_READFIRSTLANE_B32_10:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub2, implicit $exec		; SI-NEXT: [[S_AND_B32_2:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[S_AND_B32_1]], killed [[V_CMP_EQ_U64_e64_4]], implicit-def dead $scc
; SI-NEXT: [[V_READFIRSTLANE_B32_11:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[GLOBAL_LOAD_DWORDX4_2]].sub3, implicit $exec		; SI-NEXT: [[V_READFIRSTLANE_B32_10:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub6, implicit $exec
		; SI-NEXT: [[V_READFIRSTLANE_B32_11:%[0-9]+]]:sgpr_32 = V_READFIRSTLANE_B32 [[REG_SEQUENCE2]].sub7, implicit $exec
; SI-NEXT: [[REG_SEQUENCE9:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_10]], %subreg.sub0, [[V_READFIRSTLANE_B32_11]], %subreg.sub1		; SI-NEXT: [[REG_SEQUENCE9:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[V_READFIRSTLANE_B32_10]], %subreg.sub0, [[V_READFIRSTLANE_B32_11]], %subreg.sub1
; SI-NEXT: [[V_CMP_EQ_U64_e64_5:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE9]], [[GLOBAL_LOAD_DWORDX4_2]].sub2_sub3, implicit $exec		; SI-NEXT: [[V_CMP_EQ_U64_e64_5:%[0-9]+]]:sreg_32_xm0_xexec = V_CMP_EQ_U64_e64 killed [[REG_SEQUENCE9]], [[REG_SEQUENCE2]].sub6_sub7, implicit $exec
; SI-NEXT: [[S_AND_B32_3:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[V_CMP_EQ_U64_e64_4]], killed [[V_CMP_EQ_U64_e64_5]], implicit-def dead $scc		; SI-NEXT: [[S_AND_B32_3:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_B32 killed [[S_AND_B32_2]], killed [[V_CMP_EQ_U64_e64_5]], implicit-def dead $scc
; SI-NEXT: [[REG_SEQUENCE10:%[0-9]+]]:sgpr_128 = REG_SEQUENCE killed [[V_READFIRSTLANE_B32_8]], %subreg.sub0, killed [[V_READFIRSTLANE_B32_9]], %subreg.sub1, killed [[V_READFIRSTLANE_B32_10]], %subreg.sub2, killed [[V_READFIRSTLANE_B32_11]], %subreg.sub3		; SI-NEXT: [[REG_SEQUENCE10:%[0-9]+]]:sgpr_256 = REG_SEQUENCE killed [[V_READFIRSTLANE_B32_4]], %subreg.sub0, killed [[V_READFIRSTLANE_B32_5]], %subreg.sub1, killed [[V_READFIRSTLANE_B32_6]], %subreg.sub2, killed [[V_READFIRSTLANE_B32_7]], %subreg.sub3, killed [[V_READFIRSTLANE_B32_8]], %subreg.sub4, killed [[V_READFIRSTLANE_B32_9]], %subreg.sub5, killed [[V_READFIRSTLANE_B32_10]], %subreg.sub6, killed [[V_READFIRSTLANE_B32_11]], %subreg.sub7
; SI-NEXT: [[S_AND_SAVEEXEC_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_SAVEEXEC_B32 killed [[S_AND_B32_3]], implicit-def $exec, implicit-def dead $scc, implicit $exec		; SI-NEXT: [[S_AND_SAVEEXEC_B32_1:%[0-9]+]]:sreg_32_xm0_xexec = S_AND_SAVEEXEC_B32 killed [[S_AND_B32_3]], implicit-def $exec, implicit-def dead $scc, implicit $exec
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.5:		; SI-NEXT: bb.5:
; SI-NEXT: successors: %bb.4(0x40000000), %bb.6(0x40000000)		; SI-NEXT: successors: %bb.4(0x40000000), %bb.6(0x40000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: [[IMAGE_SAMPLE_V1_V2_gfx10_:%[0-9]+]]:vgpr_32 = IMAGE_SAMPLE_V1_V2_gfx10 undef %27:vreg_64, [[REG_SEQUENCE7]], killed [[REG_SEQUENCE10]], 1, 1, 0, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32) from custom "ImageResource")		; SI-NEXT: [[IMAGE_SAMPLE_V1_V2_gfx10_:%[0-9]+]]:vgpr_32 = IMAGE_SAMPLE_V1_V2_gfx10 undef %27:vreg_64, killed [[REG_SEQUENCE10]], [[REG_SEQUENCE5]], 1, 1, 0, 0, 0, 0, 0, 0, 0, implicit $exec :: (dereferenceable load (s32) from custom "ImageResource")
; SI-NEXT: $exec_lo = S_XOR_B32_term $exec_lo, killed [[S_AND_SAVEEXEC_B32_1]], implicit-def dead $scc		; SI-NEXT: $exec_lo = S_XOR_B32_term $exec_lo, killed [[S_AND_SAVEEXEC_B32_1]], implicit-def dead $scc
; SI-NEXT: SI_WATERFALL_LOOP %bb.4, implicit $exec		; SI-NEXT: SI_WATERFALL_LOOP %bb.4, implicit $exec
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: bb.6:		; SI-NEXT: bb.6:
; SI-NEXT: successors: %bb.2(0x40000000), %bb.7(0x40000000)		; SI-NEXT: successors: %bb.2(0x40000000), %bb.7(0x40000000)
; SI-NEXT: {{ $}}		; SI-NEXT: {{ $}}
; SI-NEXT: $exec_lo = S_MOV_B32 killed [[S_MOV_B32_1]]		; SI-NEXT: $exec_lo = S_MOV_B32 killed [[S_MOV_B32_1]]
; SI-NEXT: $exec_lo = S_XOR_B32_term $exec_lo, killed [[S_AND_SAVEEXEC_B32_]], implicit-def dead $scc		; SI-NEXT: $exec_lo = S_XOR_B32_term $exec_lo, killed [[S_AND_SAVEEXEC_B32_]], implicit-def dead $scc
Show All 34 Lines

llvm/test/CodeGen/AMDGPU/wave32.ll

Show First 20 Lines • Show All 324 Lines • ▼ Show 20 Lines	bb:
%tmp3 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i32 %tmp		%tmp3 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i32 %tmp
%tmp4 = load i64, i64 addrspace(1)* %tmp3, align 8		%tmp4 = load i64, i64 addrspace(1)* %tmp3, align 8
%tmp5 = sub nsw i64 %arg1, %tmp4		%tmp5 = sub nsw i64 %arg1, %tmp4
store i64 %tmp5, i64 addrspace(1)* %tmp3, align 8		store i64 %tmp5, i64 addrspace(1)* %tmp3, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_udiv64:		; GCN-LABEL: {{^}}test_udiv64:
; GFX1032: v_add_co_u32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1032: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc_lo, 0, v{{[0-9]+}}, vcc_lo		; GCN: s_addc_u32 s{{[0-9]+}}, 0, s{{[0-9]+}}
; GFX1032: v_add_co_u32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1032: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}, vcc_lo		; GCN: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1032: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc_lo, 0, v{{[0-9]+}}, vcc_lo		; GCN: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, 0
; GFX1032: v_add_co_u32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1032: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc_lo, 0, v{{[0-9]+}}, vcc_lo		; GCN: s_add_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1032: v_add_co_u32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}		; GCN: s_addc_u32 s{{[0-9]+}}, 0, s{{[0-9]+}}
; GFX1032: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc_lo, v{{[0-9]+}}, v{{[0-9]+}}, vcc_lo		; GCN: s_addc_u32 s{{[0-9]+}}, s{{[0-9]+}}, s{{[0-9]+}}
; GFX1064: v_add_co_u32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}
; GFX1064: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc, 0, v{{[0-9]+}}, vcc{{$}}
; GFX1064: v_add_co_u32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}
; GFX1064: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}, vcc{{$}}
; GFX1064: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc, 0, v{{[0-9]+}}, vcc{{$}}
; GFX1064: v_add_co_u32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}
; GFX1064: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc, 0, v{{[0-9]+}}, vcc{{$}}
; GFX1064: v_add_co_u32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}
; GFX1064: v_add_co_ci_u32_e32 v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}}, vcc{{$}}
define amdgpu_kernel void @test_udiv64(i64 addrspace(1)* %arg) #0 {		define amdgpu_kernel void @test_udiv64(i64 addrspace(1)* %arg) #0 {
bb:		bb:
%tmp = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 1		%tmp = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 1
%tmp1 = load i64, i64 addrspace(1)* %tmp, align 8		%tmp1 = load i64, i64 addrspace(1)* %tmp, align 8
%tmp2 = load i64, i64 addrspace(1)* %arg, align 8		%tmp2 = load i64, i64 addrspace(1)* %arg, align 8
%tmp3 = udiv i64 %tmp1, %tmp2		%tmp3 = udiv i64 %tmp1, %tmp2
%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 2		%tmp4 = getelementptr inbounds i64, i64 addrspace(1)* %arg, i64 2
store i64 %tmp3, i64 addrspace(1)* %tmp4, align 8		store i64 %tmp3, i64 addrspace(1)* %tmp4, align 8
▲ Show 20 Lines • Show All 835 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 444807

llvm/lib/Target/AMDGPU/SIFixSGPRCopies.cpp

llvm/test/CodeGen/AMDGPU/add3.ll

llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/cf-loop-on-constant.ll

llvm/test/CodeGen/AMDGPU/idiv-licm.ll

llvm/test/CodeGen/AMDGPU/multilevel-break.ll

llvm/test/CodeGen/AMDGPU/s_add_co_pseudo_lowering.mir

llvm/test/CodeGen/AMDGPU/saddo.ll

llvm/test/CodeGen/AMDGPU/scalar_to_vector.ll

llvm/test/CodeGen/AMDGPU/sdiv.ll

llvm/test/CodeGen/AMDGPU/sdiv64.ll

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

llvm/test/CodeGen/AMDGPU/shl.ll

llvm/test/CodeGen/AMDGPU/sra.ll

llvm/test/CodeGen/AMDGPU/srem64.ll

llvm/test/CodeGen/AMDGPU/srl.ll

llvm/test/CodeGen/AMDGPU/sub.ll

llvm/test/CodeGen/AMDGPU/udiv.ll

llvm/test/CodeGen/AMDGPU/udiv64.ll

llvm/test/CodeGen/AMDGPU/udivrem.ll

llvm/test/CodeGen/AMDGPU/unstructured-cfg-def-use-issue.ll

llvm/test/CodeGen/AMDGPU/urem.ll

llvm/test/CodeGen/AMDGPU/urem64.ll

llvm/test/CodeGen/AMDGPU/usubo.ll

llvm/test/CodeGen/AMDGPU/vgpr-liverange-ir.ll

llvm/test/CodeGen/AMDGPU/wave32.ll

[AMDGPU] Lowering VGPR to SGPR copies to v_readfirstlane_b32 if profitable.
ClosedPublic