This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Aggressively fold immediates in SIShrinkInstructions
ClosedPublic

Authored by foad on Nov 26 2021, 7:56 AM.

Download Raw Diff

Details

Reviewers

arsenm
rampitec
nhaehnle
tsymalla
piotr
sebastian-ne

Commits

rGe2926501d886: [AMDGPU] Aggressively fold immediates in SIShrinkInstructions

Summary

Fold immediates regardless of how many uses they have. This is expected
to increase overall code size, but decrease register usage.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Nov 26 2021, 7:56 AM

Herald added subscribers: wenlei, kerbowa, hiraditya and 8 others. · View Herald TranscriptNov 26 2021, 7:56 AM

foad requested review of this revision.Nov 26 2021, 7:56 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 26 2021, 7:56 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Harbormaster completed remote builds in B136244: Diff 390066.Nov 26 2021, 7:57 AM

foad added a parent revision: D114643: [AMDGPU] Aggressively fold immediates in SIFoldOperands.Nov 26 2021, 7:59 AM

Some data on the comined effect of D114643 + D114644, from statically compiling a corpus of 10320 graphics shaders for gfx1010:

Total number of instructions decreased from 6071567 to 5999110 (-1.2%)
Total number of code bytes increased from 35932468 to 36174540 (+0.67%)
Total number of vgprs used decreased from 517395 to 517238 (-0.030%)
Total number of sgprs used decreased from 811411 to 805549 (-0.73%)

foad added inline comments.Nov 26 2021, 8:09 AM

llvm/test/CodeGen/AMDGPU/madmk.ll
34–36	Not a regression, but it's a bit sad that we don't form madmk here either before or after this patch.

Rebase.

Herald added a project: Restricted Project. · View Herald TranscriptMar 2 2022, 3:40 AM

Harbormaster completed remote builds in B152133: Diff 412372.Mar 2 2022, 4:52 AM

Rebase.

Herald added subscribers: kosarev, jsilvanus, hsmhsm. · View Herald TranscriptMay 16 2022, 8:55 AM

Harbormaster completed remote builds in B164661: Diff 429736.May 16 2022, 9:36 AM

In D114644#3156060, @foad wrote:

Some data on the comined effect of D114643 + D114644, from statically compiling a corpus of 10320 graphics shaders for gfx1010:

Total number of instructions decreased from 6071567 to 5999110 (-1.2%)

Total number of code bytes increased from 35932468 to 36174540 (+0.67%)

Total number of vgprs used decreased from 517395 to 517238 (-0.030%)

Total number of sgprs used decreased from 811411 to 805549 (-0.73%)

Redoing this analysis, for gfx900:

Total number of instructions decreased from 5839766 to 5790517 (-0.84%)
Total number of code bytes increased from 30480844 to 30727840 (+0.81%)
Total number of readlane/writelane instructions decreased from 64049 to 62081 (-3.07%)
Total number of vgprs used increased from 479581 to 479702 (+0.03%)
Total number of sgprs used decreased from 766214 to 760162 (-0.79%)

For gfx1030:

Total number of instructions decreased from 6070932 to 6006155 (-1.07%)
Total number of code bytes increased from 31346752 to 31645184 (+0.95%)
Total number of readlane/writelane instructions decreased from 58297 to 56368 (-3.31%)
Total number of vgprs used decreased from 558964 to 558482 (-0.09%)
Total number of sgprs used decreased from 805633 to 800257 (-0.67%)
Total number of v_cmpx instructions increased from 26303 to 26579 (+1.05%)

The number of readlane/writelane instructions is an indication of how often sgprs get spilled into vgprs.

The reason for the increase in v_cmpx matching is that sometimes we get sequences like this:

s_mov_b32 s26, 0x3b23d70a
...
v_cmp_ngt_f32_e32 vcc_lo, s26, v17
s_and_saveexec_b32 s26, vcc_lo

This can't be converted to use v_cmpx because the uses of s26 would overlap:

s_mov_b32 s26, 0x3b23d70a
...
s_mov_b32 s26, exec_lo // clobbers s26 !!!
v_cmpx_ngt_f32_e32 s26, v17

But with the constant folded into the v_cmp instruction, it is fine:

s_mov_b32 s26, exec_lo
v_cmpx_ngt_f32_e32 0x3b23d70a, v17

I'd like to go ahead with D114643 + D114644 on the grounds that instruction count, register pressure and register dependencies are much more important for performance than code size in bytes. Does anyone have concerns about this or objections?

I am strongly in favour of this change. On our target, the sgpr improvements that manifest themselves in reduced sgpr spilling outweighs the code size increase.

In D114644#3518463, @piotr wrote:

I am strongly in favour of this change. On our target, the sgpr improvements that manifest themselves in reduced sgpr spilling outweighs the code size increase.

+1. The change is LGTM. Let's wait for others to speak up.

arsenm accepted this revision.May 17 2022, 12:14 PM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp
119	Do we have a test where constant folding happens leaving behind debug info?

This revision is now accepted and ready to land.May 17 2022, 12:14 PM

foad added inline comments.May 18 2022, 2:53 AM

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp
119	I don't know. I get the impression that most of the code that ignores debug uses in our backend is just speculative, and never gets exercised in anger.

This revision was landed with ongoing or failed builds.May 18 2022, 3:04 AM

Closed by commit rGe2926501d886: [AMDGPU] Aggressively fold immediates in SIShrinkInstructions (authored by foad). · Explain Why

This revision was automatically updated to reflect the committed changes.

foad added a commit: rGe2926501d886: [AMDGPU] Aggressively fold immediates in SIShrinkInstructions.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIShrinkInstructions.cpp

12 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

5 lines

80 lines

14 lines

70 lines

combine-fma-sub-neg-mul.ll

5 lines

156 lines

15 lines

60 lines

6 lines

42 lines

22 lines

295 lines

370 lines

hip.extern.shared.array.ll

9 lines

insertelement.i16.ll

52 lines

insertelement.i8.ll

1350 lines

llvm.amdgcn.image.load.1d.d16.ll

10 lines

8 lines

8 lines

85 lines

10 lines

5 lines

14 lines

10 lines

318 lines

138 lines

212 lines

442 lines

35 lines

70 lines

54 lines

212 lines

314 lines

80 lines

5 lines

4 lines

38 lines

230 lines

287 lines

74 lines

623 lines

4 lines

3 lines

amdgpu-codegenprepare-idiv.ll

1044 lines

amdgpu-mul24-knownbits.ll

5 lines

10 lines

5 lines

64 lines

62 lines

7 lines

extract-subvector-16bit.ll

18 lines

fcanonicalize-elimination.ll

5 lines

44 lines

54 lines

14 lines

14 lines

5 lines

29 lines

56 lines

5 lines

5 lines

53 lines

229 lines

39 lines

206 lines

137 lines

307 lines

66 lines

insert_vector_elt.v2i16.ll

43 lines

llvm.amdgcn.image.sample.a16.dim.ll

97 lines

5 lines

11 lines

14 lines

10 lines

14 lines

5 lines

665 lines

10 lines

5 lines

5 lines

7 lines

9 lines

11 lines

59 lines

78 lines

352 lines

12 lines

4 lines

5 lines

15 lines

5 lines

srem-seteq-illegal-types.ll

11 lines

12 lines

215 lines

5 lines

2 lines

71 lines

42 lines

12 lines

56 lines

urem-seteq-illegal-types.ll

45 lines

urem64.ll

216 lines

usubsat.ll

49 lines

vector_shuffle.packed.ll

11 lines

Diff 430306

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	bool SIShrinkInstructions::foldImmediates(MachineInstr &MI,
assert(TII->isVOP1(MI) \|\| TII->isVOP2(MI) \|\| TII->isVOPC(MI));		assert(TII->isVOP1(MI) \|\| TII->isVOP2(MI) \|\| TII->isVOPC(MI));

int Src0Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::src0);		int Src0Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::src0);

// Try to fold Src0		// Try to fold Src0
MachineOperand &Src0 = MI.getOperand(Src0Idx);		MachineOperand &Src0 = MI.getOperand(Src0Idx);
if (Src0.isReg()) {		if (Src0.isReg()) {
Register Reg = Src0.getReg();		Register Reg = Src0.getReg();
if (Reg.isVirtual() && MRI->hasOneUse(Reg)) {		if (Reg.isVirtual()) {
MachineInstr *Def = MRI->getUniqueVRegDef(Reg);		MachineInstr *Def = MRI->getUniqueVRegDef(Reg);
if (Def && Def->isMoveImmediate()) {		if (Def && Def->isMoveImmediate()) {
MachineOperand &MovSrc = Def->getOperand(1);		MachineOperand &MovSrc = Def->getOperand(1);
bool ConstantFolded = false;		bool ConstantFolded = false;

if (TII->isOperandLegal(MI, Src0Idx, &MovSrc)) {		if (TII->isOperandLegal(MI, Src0Idx, &MovSrc)) {
if (MovSrc.isImm() &&		if (MovSrc.isImm() &&
(isInt<32>(MovSrc.getImm()) \|\| isUInt<32>(MovSrc.getImm()))) {		(isInt<32>(MovSrc.getImm()) \|\| isUInt<32>(MovSrc.getImm()))) {
Src0.ChangeToImmediate(MovSrc.getImm());		Src0.ChangeToImmediate(MovSrc.getImm());
ConstantFolded = true;		ConstantFolded = true;
} else if (MovSrc.isFI()) {		} else if (MovSrc.isFI()) {
Src0.ChangeToFrameIndex(MovSrc.getIndex());		Src0.ChangeToFrameIndex(MovSrc.getIndex());
ConstantFolded = true;		ConstantFolded = true;
} else if (MovSrc.isGlobal()) {		} else if (MovSrc.isGlobal()) {
Src0.ChangeToGA(MovSrc.getGlobal(), MovSrc.getOffset(),		Src0.ChangeToGA(MovSrc.getGlobal(), MovSrc.getOffset(),
MovSrc.getTargetFlags());		MovSrc.getTargetFlags());
ConstantFolded = true;		ConstantFolded = true;
}		}
}		}

if (ConstantFolded) {		if (ConstantFolded) {
assert(MRI->use_empty(Reg));		if (MRI->use_nodbg_empty(Reg))
Def->eraseFromParent();		Def->eraseFromParent();
		arsenmUnsubmitted Not Done Reply Inline Actions Do we have a test where constant folding happens leaving behind debug info? arsenm: Do we have a test where constant folding happens leaving behind debug info?
		foadAuthorUnsubmitted Done Reply Inline Actions I don't know. I get the impression that most of the code that ignores debug uses in our backend is just speculative, and never gets exercised in anger. foad: I don't know. I get the impression that most of the code that ignores debug uses in our backend…
++NumLiteralConstantsFolded;		++NumLiteralConstantsFolded;
return true;		return true;
}		}
}		}
}		}
}		}

// We have failed to fold src0, so commute the instruction and try again.		// We have failed to fold src0, so commute the instruction and try again.
▲ Show 20 Lines • Show All 606 Lines • ▼ Show 20 Lines	for (I = MBB.begin(); I != MBB.end(); I = Next) {
if (ST->hasSwap() && (MI.getOpcode() == AMDGPU::V_MOV_B32_e32 \|\|		if (ST->hasSwap() && (MI.getOpcode() == AMDGPU::V_MOV_B32_e32 \|\|
MI.getOpcode() == AMDGPU::COPY)) {		MI.getOpcode() == AMDGPU::COPY)) {
if (auto *NextMI = matchSwap(MI)) {		if (auto *NextMI = matchSwap(MI)) {
Next = NextMI->getIterator();		Next = NextMI->getIterator();
continue;		continue;
}		}
}		}

// FIXME: We also need to consider movs of constant operands since		// Try to use S_ADDK_I32 and S_MULK_I32.
// immediate operands are not folded if they have more than one use, and
// the operand folding pass is unaware if the immediate will be free since
// it won't know if the src == dest constraint will end up being
// satisfied.
if (MI.getOpcode() == AMDGPU::S_ADD_I32 \|\|		if (MI.getOpcode() == AMDGPU::S_ADD_I32 \|\|
MI.getOpcode() == AMDGPU::S_MUL_I32) {		MI.getOpcode() == AMDGPU::S_MUL_I32) {
const MachineOperand *Dest = &MI.getOperand(0);		const MachineOperand *Dest = &MI.getOperand(0);
MachineOperand *Src0 = &MI.getOperand(1);		MachineOperand *Src0 = &MI.getOperand(1);
MachineOperand *Src1 = &MI.getOperand(2);		MachineOperand *Src1 = &MI.getOperand(2);

if (!Src0->isReg() && Src1->isReg()) {		if (!Src0->isReg() && Src1->isReg()) {
if (TII->commuteInstruction(MI, false, 1, 2))		if (TII->commuteInstruction(MI, false, 1, 2))
▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/add.v2i16.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 neg_lo:[1,1] neg_hi:[1,1]			; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 neg_lo:[1,1] neg_hi:[1,1]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_add_v2i16_fneg_lhs_fneg_rhs:			; GFX8-LABEL: v_add_v2i16_fneg_lhs_fneg_rhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX8-NEXT: v_add_u16_e32 v2, v0, v1			; GFX8-NEXT: v_add_u16_e32 v2, v0, v1
	; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_add_v2i16_fneg_lhs_fneg_rhs:			; GFX10-LABEL: v_add_v2i16_fneg_lhs_fneg_rhs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 351 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/addo.ll

Show First 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = add i64 %add, %of.zext		%ret = add i64 %add, %of.zext
ret i64 %ret		ret i64 %ret
}		}

define i8 @v_uaddo_i8(i8 %a, i8 %b) {		define i8 @v_uaddo_i8(i8 %a, i8 %b) {
; GFX7-LABEL: v_uaddo_i8:		; GFX7-LABEL: v_uaddo_i8:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddo_i8:		; GFX8-LABEL: v_uaddo_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0xff		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_add_u16_e32 v0, v0, v1		; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_uaddo_i8:		; GFX9-LABEL: v_uaddo_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 9 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = add i8 %add, %of.zext		%ret = add i8 %add, %of.zext
ret i8 %ret		ret i8 %ret
}		}

define i7 @v_uaddo_i7(i7 %a, i7 %b) {		define i7 @v_uaddo_i7(i7 %a, i7 %b) {
; GFX7-LABEL: v_uaddo_i7:		; GFX7-LABEL: v_uaddo_i7:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0x7f		; GFX7-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddo_i7:		; GFX8-LABEL: v_uaddo_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_add_u16_e32 v0, v0, v1		; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_uaddo_i7:		; GFX9-LABEL: v_uaddo_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX9-NEXT: v_add_u16_e32 v0, v0, v1		; GFX9-NEXT: v_add_u16_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%uaddo = call {i7, i1} @llvm.uadd.with.overflow.i7(i7 %a, i7 %b)		%uaddo = call {i7, i1} @llvm.uadd.with.overflow.i7(i7 %a, i7 %b)
%add = extractvalue {i7, i1} %uaddo, 0		%add = extractvalue {i7, i1} %uaddo, 0
%of = extractvalue {i7, i1} %uaddo, 1		%of = extractvalue {i7, i1} %uaddo, 1
%of.zext = zext i1 %of to i7		%of.zext = zext i1 %of to i7
▲ Show 20 Lines • Show All 406 Lines • ▼ Show 20 Lines	; GFX9-NEXT: ; return to shader part epilog
%ret = add <2 x i32> %add, %of.zext		%ret = add <2 x i32> %add, %of.zext
ret <2 x i32> %ret		ret <2 x i32> %ret
}		}

define i8 @s_uaddo_i8(i8 %a, i8 %b) {		define i8 @s_uaddo_i8(i8 %a, i8 %b) {
; GFX7-LABEL: s_uaddo_i8:		; GFX7-LABEL: s_uaddo_i8:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: s_uaddo_i8:		; GFX8-LABEL: s_uaddo_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0xff		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_add_u16_e32 v0, v0, v1		; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: s_uaddo_i8:		; GFX9-LABEL: s_uaddo_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 9 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = add i8 %add, %of.zext		%ret = add i8 %add, %of.zext
ret i8 %ret		ret i8 %ret
}		}

define i7 @s_uaddo_i7(i7 %a, i7 %b) {		define i7 @s_uaddo_i7(i7 %a, i7 %b) {
; GFX7-LABEL: s_uaddo_i7:		; GFX7-LABEL: s_uaddo_i7:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0x7f		; GFX7-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: s_uaddo_i7:		; GFX8-LABEL: s_uaddo_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_add_u16_e32 v0, v0, v1		; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: s_uaddo_i7:		; GFX9-LABEL: s_uaddo_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX9-NEXT: v_add_u16_e32 v0, v0, v1		; GFX9-NEXT: v_add_u16_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%uaddo = call {i7, i1} @llvm.uadd.with.overflow.i7(i7 %a, i7 %b)		%uaddo = call {i7, i1} @llvm.uadd.with.overflow.i7(i7 %a, i7 %b)
%add = extractvalue {i7, i1} %uaddo, 0		%add = extractvalue {i7, i1} %uaddo, 0
%of = extractvalue {i7, i1} %uaddo, 1		%of = extractvalue {i7, i1} %uaddo, 1
%of.zext = zext i1 %of to i7		%of.zext = zext i1 %of to i7
▲ Show 20 Lines • Show All 300 Lines • ▼ Show 20 Lines	; GFX9-NEXT: ; return to shader part epilog
%of.zext = zext i1 %of to i32		%of.zext = zext i1 %of to i32
%ret = add i32 %add, %of.zext		%ret = add i32 %add, %of.zext
ret i32 %ret		ret i32 %ret
}		}

define amdgpu_ps i16 @uaddo_i16_sv(i16 inreg %a, i16 %b) {		define amdgpu_ps i16 @uaddo_i16_sv(i16 inreg %a, i16 %b) {
; GFX7-LABEL: uaddo_i16_sv:		; GFX7-LABEL: uaddo_i16_sv:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s1, 0xffff
; GFX7-NEXT: s_and_b32 s0, s0, 0xffff		; GFX7-NEXT: s_and_b32 s0, s0, 0xffff
; GFX7-NEXT: v_and_b32_e32 v0, s1, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_add_i32_e32 v0, vcc, s0, v0		; GFX7-NEXT: v_add_i32_e32 v0, vcc, s0, v0
; GFX7-NEXT: v_and_b32_e32 v1, s1, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_readfirstlane_b32 s0, v0		; GFX7-NEXT: v_readfirstlane_b32 s0, v0
; GFX7-NEXT: ; return to shader part epilog		; GFX7-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: uaddo_i16_sv:		; GFX8-LABEL: uaddo_i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_mov_b32 s1, 0xffff
; GFX8-NEXT: s_and_b32 s0, s0, 0xffff		; GFX8-NEXT: s_and_b32 s0, s0, 0xffff
; GFX8-NEXT: v_and_b32_e32 v0, s1, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v0		; GFX8-NEXT: v_add_u32_e32 v0, vcc, s0, v0
; GFX8-NEXT: v_and_b32_e32 v1, s1, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_add_u16_e32 v0, v0, v1		; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: uaddo_i16_sv:		; GFX9-LABEL: uaddo_i16_sv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
▲ Show 20 Lines • Show All 113 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/andn2.ll

Show First 20 Lines • Show All 553 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define <2 x i16> @v_andn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {		define <2 x i16> @v_andn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {
; GFX6-LABEL: v_andn2_v2i16:		; GFX6-LABEL: v_andn2_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v1		; GFX6-NEXT: v_and_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_andn2_v2i16:		; GFX9-LABEL: v_andn2_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.1 = insertvalue { i64, i64 } %insert.0, i64 %cast.1, 1		%insert.1 = insertvalue { i64, i64 } %insert.0, i64 %cast.1, 1
ret { i64, i64 } %insert.1		ret { i64, i64 } %insert.1
}		}

define <4 x i16> @v_andn2_v4i16(<4 x i16> %src0, <4 x i16> %src1) {		define <4 x i16> @v_andn2_v4i16(<4 x i16> %src0, <4 x i16> %src1) {
; GFX6-LABEL: v_andn2_v4i16:		; GFX6-LABEL: v_andn2_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v8		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_and_b32_e32 v2, v2, v8		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
; GFX6-NEXT: v_and_b32_e32 v3, v4, v8		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v4
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7
; GFX6-NEXT: v_and_b32_e32 v4, v6, v8		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_xor_b32_e32 v3, -1, v3		; GFX6-NEXT: v_xor_b32_e32 v3, -1, v3
; GFX6-NEXT: v_and_b32_e32 v0, v0, v2		; GFX6-NEXT: v_and_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v2, v1, v3		; GFX6-NEXT: v_and_b32_e32 v2, v1, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
Show All 23 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

Show First 20 Lines • Show All 716 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_ashr_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_ashr_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_ashr_v2i16:		; GFX6-LABEL: v_ashr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, v2, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v1, v2, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ashr_v2i16:		; GFX8-LABEL: v_ashr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_ashrrev_i16_e32 v2, v1, v0		; GFX8-NEXT: v_ashrrev_i16_e32 v2, v1, v0
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = ashr <2 x i16> %value, %amount		%result = ashr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @ashr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @ashr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: ashr_v2i16_sv:		; GFX6-LABEL: ashr_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: s_sext_i32_i16 s0, s0		; GFX6-NEXT: s_sext_i32_i16 s0, s0
; GFX6-NEXT: v_ashr_i32_e32 v0, s0, v0		; GFX6-NEXT: v_ashr_i32_e32 v0, s0, v0
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: s_sext_i32_i16 s0, s1		; GFX6-NEXT: s_sext_i32_i16 s0, s1
; GFX6-NEXT: v_ashr_i32_e32 v1, s0, v1		; GFX6-NEXT: v_ashr_i32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: ashr_v2i16_sv:		; GFX8-LABEL: ashr_v2i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
Show All 19 Lines
define amdgpu_ps float @ashr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @ashr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: ashr_v2i16_vs:		; GFX6-LABEL: ashr_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_and_b32 s0, s0, 0xffff		; GFX6-NEXT: s_and_b32 s0, s0, 0xffff
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, s0, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s1, 0xffff		; GFX6-NEXT: s_and_b32 s0, s1, 0xffff
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v1, s0, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: ashr_v2i16_vs:		; GFX8-LABEL: ashr_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
Show All 26 Lines
; %result = ashr <3 x i16> %value, %amount		; %result = ashr <3 x i16> %value, %amount
; ret <3 x i16> %result		; ret <3 x i16> %result
; }		; }

define <2 x float> @v_ashr_v4i16(<4 x i16> %value, <4 x i16> %amount) {		define <2 x float> @v_ashr_v4i16(<4 x i16> %value, <4 x i16> %amount) {
; GFX6-LABEL: v_ashr_v4i16:		; GFX6-LABEL: v_ashr_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, v4, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, v4, v0
; GFX6-NEXT: v_and_b32_e32 v4, s4, v5		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v5
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v1, v4, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, v4, v1
; GFX6-NEXT: v_and_b32_e32 v4, s4, v6		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v2, v4, v2		; GFX6-NEXT: v_ashrrev_i32_e32 v2, v4, v2
; GFX6-NEXT: v_and_b32_e32 v4, s4, v7		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16		; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_ashrrev_i32_e32 v3, v4, v3		; GFX6-NEXT: v_ashrrev_i32_e32 v3, v4, v3
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v2		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ashr_v4i16:		; GFX8-LABEL: v_ashr_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_ashrrev_i16_e32 v4, v2, v0		; GFX8-NEXT: v_ashrrev_i16_e32 v4, v2, v0
▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
; %cast = bitcast <6 x i16> %result to <3 x i32>		; %cast = bitcast <6 x i16> %result to <3 x i32>
; ret <3 x i32> %cast		; ret <3 x i32> %cast
; }		; }

define <4 x float> @v_ashr_v8i16(<8 x i16> %value, <8 x i16> %amount) {		define <4 x float> @v_ashr_v8i16(<8 x i16> %value, <8 x i16> %amount) {
; GFX6-LABEL: v_ashr_v8i16:		; GFX6-LABEL: v_ashr_v8i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX6-NEXT: v_and_b32_e32 v8, s4, v8
; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v0, v8, v0		; GFX6-NEXT: v_ashrrev_i32_e32 v0, v8, v0
; GFX6-NEXT: v_and_b32_e32 v8, s4, v9		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v9
; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16		; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v1, v8, v1		; GFX6-NEXT: v_ashrrev_i32_e32 v1, v8, v1
; GFX6-NEXT: v_and_b32_e32 v8, s4, v10		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v10
; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16		; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v2, v8, v2		; GFX6-NEXT: v_ashrrev_i32_e32 v2, v8, v2
; GFX6-NEXT: v_and_b32_e32 v8, s4, v11		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v11
; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16		; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
; GFX6-NEXT: v_mov_b32_e32 v16, 0xffff
; GFX6-NEXT: v_ashrrev_i32_e32 v3, v8, v3		; GFX6-NEXT: v_ashrrev_i32_e32 v3, v8, v3
; GFX6-NEXT: v_and_b32_e32 v8, s4, v12		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v12
; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16		; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
; GFX6-NEXT: v_ashrrev_i32_e32 v4, v8, v4		; GFX6-NEXT: v_ashrrev_i32_e32 v4, v8, v4
; GFX6-NEXT: v_and_b32_e32 v8, s4, v13		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v13
; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16		; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
; GFX6-NEXT: v_and_b32_e32 v1, v1, v16		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_ashrrev_i32_e32 v5, v8, v5		; GFX6-NEXT: v_ashrrev_i32_e32 v5, v8, v5
; GFX6-NEXT: v_and_b32_e32 v8, s4, v14		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v14
; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16		; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16
; GFX6-NEXT: v_and_b32_e32 v0, v0, v16		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_ashrrev_i32_e32 v6, v8, v6		; GFX6-NEXT: v_ashrrev_i32_e32 v6, v8, v6
; GFX6-NEXT: v_and_b32_e32 v8, v15, v16		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v15
; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16		; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, v2, v16		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, v3, v16		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_ashrrev_i32_e32 v7, v8, v7		; GFX6-NEXT: v_ashrrev_i32_e32 v7, v8, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_and_b32_e32 v3, v5, v16		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_and_b32_e32 v2, v4, v16		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_and_b32_e32 v4, v7, v16		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_and_b32_e32 v3, v6, v16		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v6
; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_ashr_v8i16:		; GFX8-LABEL: v_ashr_v8i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_ashrrev_i16_e32 v8, v4, v0		; GFX8-NEXT: v_ashrrev_i16_e32 v8, v4, v0
▲ Show 20 Lines • Show All 742 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-neg-mul.ll

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_mul_f16_e64 v0, v0, -v1			; GFX9-NEXT: v_mul_f16_e64 v0, v0, -v1
	; GFX9-NEXT: v_add_f16_e64 v0, v0, -v2			; GFX9-NEXT: v_add_f16_e64 v0, v0, -v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-CONTRACT-LABEL: test_f16_sub_ext_neg_mul:			; GFX9-CONTRACT-LABEL: test_f16_sub_ext_neg_mul:
	; GFX9-CONTRACT: ; %bb.0: ; %entry			; GFX9-CONTRACT: ; %bb.0: ; %entry
	; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-CONTRACT-NEXT: s_mov_b32 s4, 0x8000			; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v1, 0x8000, v1
	; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v1, s4, v1			; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v2, 0x8000, v2
	; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v2, s4, v2
	; GFX9-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2			; GFX9-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2
	; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]			; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-DENORM-LABEL: test_f16_sub_ext_neg_mul:			; GFX9-DENORM-LABEL: test_f16_sub_ext_neg_mul:
	; GFX9-DENORM: ; %bb.0: ; %entry			; GFX9-DENORM: ; %bb.0: ; %entry
	; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-DENORM-NEXT: v_mad_legacy_f16 v0, v0, -v1, -v2			; GFX9-DENORM-NEXT: v_mad_legacy_f16 v0, v0, -v1, -v2
	; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 312 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

	Show First 20 Lines • Show All 886 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_lshr_b32 s0, s2, 2
	; GFX7-NEXT: s_lshr_b32 s1, s2, 2			; GFX7-NEXT: s_and_b32 s1, s2, 3
	; GFX7-NEXT: s_and_b32 s2, s2, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: s_lshl_b32 s0, s1, 3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v4, s0, v0			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v6, s0, v1			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
	; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v5			; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v7			; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX7-NEXT: v_or_b32_e32 v0, v4, v0			; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v5, v1			; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v2			; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v3			; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: s_lshl_b32 s0, s2, 3
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_vgpr_v8i8_sgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v8i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off			; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	;			;
	; GFX7-LABEL: extractelement_vgpr_v8i8_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v8i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8			; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v1			; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v1
	; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_or_b32_e32 v6, v6, v7			; GFX7-NEXT: v_or_b32_e32 v6, v6, v7
	; GFX7-NEXT: v_or_b32_e32 v7, v8, v9			; GFX7-NEXT: v_or_b32_e32 v7, v8, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	▲ Show 20 Lines • Show All 1,244 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s0, 0xff			; GFX7-NEXT: s_lshr_b32 s0, s2, 2
	; GFX7-NEXT: v_mov_b32_e32 v4, 0xff			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
	; GFX7-NEXT: s_lshr_b32 s1, s2, 2			; GFX7-NEXT: s_and_b32 s1, s2, 3
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: s_and_b32 s2, s2, 3			; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
	; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
	; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
	; GFX7-NEXT: v_and_b32_e32 v9, s0, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v11, s0, v1			; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v1
	; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8			; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
	; GFX7-NEXT: v_bfe_u32 v14, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v13, v2, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12			; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v13, v2, v4			; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8			; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14			; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
	; GFX7-NEXT: v_or_b32_e32 v9, v9, v10			; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
	; GFX7-NEXT: v_or_b32_e32 v10, v11, v12			; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
	; GFX7-NEXT: v_and_b32_e32 v4, v3, v4			; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v3
	; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
	; GFX7-NEXT: v_or_b32_e32 v11, v13, v14			; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
	; GFX7-NEXT: v_or_b32_e32 v0, v9, v0			; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
	; GFX7-NEXT: v_or_b32_e32 v1, v10, v1			; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v15			; GFX7-NEXT: v_or_b32_e32 v11, v14, v15
	; GFX7-NEXT: v_or_b32_e32 v2, v11, v2			; GFX7-NEXT: v_or_b32_e32 v2, v10, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v5			; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v6			; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_or_b32_e32 v3, v11, v3
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v7			; GFX7-NEXT: v_or_b32_e32 v2, v2, v6
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 2			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v8			; GFX7-NEXT: v_or_b32_e32 v3, v3, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 3			; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX7-NEXT: s_lshl_b32 s0, s2, 3			; GFX7-NEXT: s_lshl_b32 s0, s1, 3
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, s0, v0
	; GFX7-NEXT: v_readfirstlane_b32 s0, v0			; GFX7-NEXT: v_readfirstlane_b32 s0, v0
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_sgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v16i8_sgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off			; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
	; GFX10-NEXT: s_mov_b32 s0, 8			; GFX10-NEXT: s_mov_b32 s0, 8
	▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines
	;			;
	; GFX7-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX7-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: s_mov_b32 s6, 0			; GFX7-NEXT: s_mov_b32 s6, 0
	; GFX7-NEXT: s_mov_b32 s7, 0xf000			; GFX7-NEXT: s_mov_b32 s7, 0xf000
	; GFX7-NEXT: s_mov_b64 s[4:5], 0			; GFX7-NEXT: s_mov_b64 s[4:5], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: v_mov_b32_e32 v0, 0xff
	; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17
	; GFX7-NEXT: v_and_b32_e32 v2, 3, v2			; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_u32 v11, v3, 8, 8			; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
	; GFX7-NEXT: v_bfe_u32 v13, v4, 8, 8			; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v3			; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v3
	; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8			; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v4			; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v4
	; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_bfe_u32 v15, v5, 8, 8			; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
	; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v5
	; GFX7-NEXT: v_and_b32_e32 v14, v5, v0			; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v5
	; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8			; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
	; GFX7-NEXT: v_or_b32_e32 v10, v10, v11			; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
	; GFX7-NEXT: v_or_b32_e32 v11, v12, v13			; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
	; GFX7-NEXT: v_and_b32_e32 v0, v6, v0			; GFX7-NEXT: v_and_b32_e32 v15, 0xff, v6
	; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8			; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
				; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16			; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
	; GFX7-NEXT: v_or_b32_e32 v12, v14, v15			; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
	; GFX7-NEXT: v_or_b32_e32 v3, v10, v3			; GFX7-NEXT: v_or_b32_e32 v3, v9, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v11, v4			; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v16			; GFX7-NEXT: v_or_b32_e32 v12, v15, v16
	; GFX7-NEXT: v_or_b32_e32 v5, v12, v5			; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
	; GFX7-NEXT: v_or_b32_e32 v1, v3, v1			; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v7			; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v6			; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v8			; GFX7-NEXT: v_or_b32_e32 v3, v5, v7
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 2, v17			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 2, v17
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v9			; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
	; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 3, v17			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 3, v17
	; GFX7-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: extractelement_vgpr_v16i8_vgpr_idx:			; GFX10-LABEL: extractelement_vgpr_v16i8_vgpr_idx:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	▲ Show 20 Lines • Show All 1,385 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

	Show First 20 Lines • Show All 860 Lines • ▼ Show 20 Lines
	; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2			; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
	; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-FLUSH-LABEL: v_rcp_v2f16:			; GFX6-FLUSH-LABEL: v_rcp_v2f16:
	; GFX6-FLUSH: ; %bb.0:			; GFX6-FLUSH: ; %bb.0:
	; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0			; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
	; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4			; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
	; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4			; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
	; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6			; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
	; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2			; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
	; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-FLUSH-LABEL: v_rcp_v2f16_arcp:			; GFX6-FLUSH-LABEL: v_rcp_v2f16_arcp:
	; GFX6-FLUSH: ; %bb.0:			; GFX6-FLUSH: ; %bb.0:
	; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0			; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
	; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4			; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
	; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4			; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
	; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6			; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
	; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-IEEE-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2			; GFX6-IEEE-NEXT: v_div_fixup_f32 v1, v3, v1, v2
	; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX6-IEEE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX6-FLUSH-LABEL: v_rcp_v2f16_ulp25:			; GFX6-FLUSH-LABEL: v_rcp_v2f16_ulp25:
	; GFX6-FLUSH: ; %bb.0:			; GFX6-FLUSH: ; %bb.0:
	; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-FLUSH-NEXT: s_movk_i32 s6, 0x3c00			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, s6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v3, s[4:5], v0, v0, v2
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v4, v3
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v2, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0			; GFX6-FLUSH-NEXT: v_fma_f32 v6, -v3, v4, 1.0
	; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4			; GFX6-FLUSH-NEXT: v_fma_f32 v4, v6, v4, v4
	; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4			; GFX6-FLUSH-NEXT: v_mul_f32_e32 v6, v5, v4
	; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v7, -v3, v6, v5
	; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6			; GFX6-FLUSH-NEXT: v_fma_f32 v6, v7, v4, v6
	; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5			; GFX6-FLUSH-NEXT: v_fma_f32 v3, -v3, v6, v5
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v3, v3, v4, v6
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, s6			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v3, v0, v2
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v4
	; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2			; GFX6-FLUSH-NEXT: v_rcp_f32_e32 v3, v2
	; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4			; GFX6-FLUSH-NEXT: v_div_scale_f32 v5, vcc, v4, v1, v4
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 3
	▲ Show 20 Lines • Show All 291 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-scratch.ll

Show First 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	bb:
ret void		ret void
}		}

define amdgpu_kernel void @store_load_vindex_kernel() {		define amdgpu_kernel void @store_load_vindex_kernel() {
; GFX9-LABEL: store_load_vindex_kernel:		; GFX9-LABEL: store_load_vindex_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 4
; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, 4, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, 4, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_kernel:		; GFX10-LABEL: store_load_vindex_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
Show All 37 Lines	bb:
ret void		ret void
}		}

define void @store_load_vindex_foo(i32 %idx) {		define void @store_load_vindex_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_foo:		; GFX9-LABEL: store_load_vindex_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, s32
; GFX9-NEXT: v_and_b32_e32 v0, 15, v0		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, s32, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, s32, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_foo:		; GFX10-LABEL: store_load_vindex_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
; GFX9-LABEL: store_load_vindex_small_offset_kernel:		; GFX9-LABEL: store_load_vindex_small_offset_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 0x104
; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, 0x104, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, 0x104, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_small_offset_kernel:		; GFX10-LABEL: store_load_vindex_small_offset_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
}		}

define void @store_load_vindex_small_offset_foo(i32 %idx) {		define void @store_load_vindex_small_offset_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_small_offset_foo:		; GFX9-LABEL: store_load_vindex_small_offset_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: scratch_load_dword v1, off, s32 glc		; GFX9-NEXT: scratch_load_dword v1, off, s32 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x100
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, vcc_hi		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x100
; GFX9-NEXT: v_and_b32_e32 v0, 15, v0		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, vcc_hi, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x100
		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, vcc_hi, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_small_offset_foo:		; GFX10-LABEL: store_load_vindex_small_offset_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
; GFX9-LABEL: store_load_vindex_large_offset_kernel:		; GFX9-LABEL: store_load_vindex_large_offset_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, 0x4004
; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 0, v0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, 0x4004, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, 0x4004, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_large_offset_kernel:		; GFX10-LABEL: store_load_vindex_large_offset_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
}		}

define void @store_load_vindex_large_offset_foo(i32 %idx) {		define void @store_load_vindex_large_offset_foo(i32 %idx) {
; GFX9-LABEL: store_load_vindex_large_offset_foo:		; GFX9-LABEL: store_load_vindex_large_offset_foo:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: scratch_load_dword v1, off, s32 offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, s32 offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v2, vcc_hi		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
; GFX9-NEXT: v_and_b32_e32 v0, 15, v0		; GFX9-NEXT: v_and_b32_e32 v0, 15, v0
; GFX9-NEXT: v_add_u32_e32 v1, v2, v1		; GFX9-NEXT: v_add_u32_e32 v1, vcc_hi, v1
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: scratch_store_dword v1, v3, off		; GFX9-NEXT: s_add_i32 vcc_hi, s32, 0x4004
		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_add_u32_e32 v0, v2, v0		; GFX9-NEXT: v_add_u32_e32 v0, vcc_hi, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off glc		; GFX9-NEXT: scratch_load_dword v0, v0, off glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: store_load_vindex_large_offset_foo:		; GFX10-LABEL: store_load_vindex_large_offset_foo:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 407 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

	Show First 20 Lines • Show All 249 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: s_mov_b64 s[8:9], s[4:5]			; SI-NEXT: s_mov_b64 s[8:9], s[4:5]
	; SI-NEXT: buffer_load_dword v3, v[0:1], s[8:11], 0 addr64 glc			; SI-NEXT: buffer_load_dword v3, v[0:1], s[8:11], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: s_mov_b64 s[8:9], s[6:7]			; SI-NEXT: s_mov_b64 s[8:9], s[6:7]
	; SI-NEXT: buffer_load_dword v4, v[0:1], s[8:11], 0 addr64 glc			; SI-NEXT: buffer_load_dword v4, v[0:1], s[8:11], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: s_mov_b32 s2, 0x80000000			; SI-NEXT: s_mov_b32 s2, 0x80000000
	; SI-NEXT: v_sub_f32_e32 v2, s2, v2			; SI-NEXT: v_sub_f32_e32 v2, 0x80000000, v2
	; SI-NEXT: v_sub_f32_e64 v4, s2, \|v4\|			; SI-NEXT: v_sub_f32_e64 v4, s2, \|v4\|
	; SI-NEXT: v_med3_f32 v2, v2, \|v3\|, v4			; SI-NEXT: v_med3_f32 v2, v2, \|v3\|, v4
	; SI-NEXT: s_mov_b64 s[2:3], s[10:11]			; SI-NEXT: s_mov_b64 s[2:3], s[10:11]
	; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64			; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:			; VI-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	Show All 18 Lines
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_load_dword v3, v[4:5] glc			; VI-NEXT: flat_load_dword v3, v[4:5] glc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: s_mov_b32 s2, 0x80000000			; VI-NEXT: s_mov_b32 s2, 0x80000000
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_sub_f32_e32 v4, s2, v7			; VI-NEXT: v_sub_f32_e32 v4, 0x80000000, v7
	; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|			; VI-NEXT: v_sub_f32_e64 v3, s2, \|v3\|
	; VI-NEXT: v_med3_f32 v2, v4, \|v2\|, v3			; VI-NEXT: v_med3_f32 v2, v4, \|v2\|, v3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:			; GFX9-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc			; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s2, 0x80000000			; GFX9-NEXT: s_mov_b32 s2, 0x80000000
	; GFX9-NEXT: v_sub_f32_e32 v1, s2, v1			; GFX9-NEXT: v_sub_f32_e32 v1, 0x80000000, v1
	; GFX9-NEXT: v_sub_f32_e64 v3, s2, \|v3\|			; GFX9-NEXT: v_sub_f32_e64 v3, s2, \|v3\|
	; GFX9-NEXT: v_med3_f32 v1, v1, \|v2\|, v3			; GFX9-NEXT: v_med3_f32 v1, v1, \|v2\|, v3
	; GFX9-NEXT: global_store_dword v0, v1, s[0:1]			; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:			; GFX10-LABEL: v_test_global_nnans_med3_f32_pat0_srcmod012:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 427 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fmul.v2f16.ll

	Show First 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v4f16_fneg_lhs:			; GFX8-LABEL: v_fmul_v4f16_fneg_lhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX8-NEXT: v_mul_f16_e32 v4, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v4, v0, v2
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v2, v1, v3			; GFX8-NEXT: v_mul_f16_e32 v2, v1, v3
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v3, 16			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	Show All 18 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v4f16_fneg_rhs:			; GFX8-LABEL: v_fmul_v4f16_fneg_rhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, s4, v2			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80008000, v3
	; GFX8-NEXT: v_xor_b32_e32 v3, s4, v3
	; GFX8-NEXT: v_mul_f16_e32 v4, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v4, v0, v2
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v2, v1, v3			; GFX8-NEXT: v_mul_f16_e32 v2, v1, v3
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v3, 16			; GFX8-NEXT: v_mov_b32_e32 v3, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_pk_mul_f16 v0, v0, v3 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v0, v0, v3 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v4 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v4 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: v_pk_mul_f16 v2, v2, v5 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v2, v2, v5 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v6f16_fneg_lhs:			; GFX8-LABEL: v_fmul_v6f16_fneg_lhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, s4, v2
	; GFX8-NEXT: v_mul_f16_e32 v6, v0, v3			; GFX8-NEXT: v_mul_f16_e32 v6, v0, v3
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v3, v1, v4			; GFX8-NEXT: v_mul_f16_e32 v3, v1, v4
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v4, v2, v5			; GFX8-NEXT: v_mul_f16_e32 v4, v2, v5
	; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v5, 16			; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	Show All 25 Lines
	; GFX9-NEXT: v_pk_mul_f16 v0, v0, v3 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v0, v0, v3 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v4 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v4 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: v_pk_mul_f16 v2, v2, v5 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v2, v2, v5 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v6f16_fneg_rhs:			; GFX8-LABEL: v_fmul_v6f16_fneg_rhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80008000, v3
	; GFX8-NEXT: v_xor_b32_e32 v3, s4, v3			; GFX8-NEXT: v_xor_b32_e32 v4, 0x80008000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s4, v4			; GFX8-NEXT: v_xor_b32_e32 v5, 0x80008000, v5
	; GFX8-NEXT: v_xor_b32_e32 v5, s4, v5
	; GFX8-NEXT: v_mul_f16_e32 v6, v0, v3			; GFX8-NEXT: v_mul_f16_e32 v6, v0, v3
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v3, v1, v4			; GFX8-NEXT: v_mul_f16_e32 v3, v1, v4
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v4, v2, v5			; GFX8-NEXT: v_mul_f16_e32 v4, v2, v5
	; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mov_b32_e32 v5, 16			; GFX8-NEXT: v_mov_b32_e32 v5, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v5 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v5 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: v_pk_mul_f16 v2, v2, v6 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v2, v2, v6 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: v_pk_mul_f16 v3, v3, v7 neg_lo:[1,0] neg_hi:[1,0]			; GFX9-NEXT: v_pk_mul_f16 v3, v3, v7 neg_lo:[1,0] neg_hi:[1,0]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v8f16_fneg_lhs:			; GFX8-LABEL: v_fmul_v8f16_fneg_lhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, s4, v2			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80008000, v3
	; GFX8-NEXT: v_xor_b32_e32 v3, s4, v3
	; GFX8-NEXT: v_mul_f16_e32 v8, v0, v4			; GFX8-NEXT: v_mul_f16_e32 v8, v0, v4
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v4, v1, v5			; GFX8-NEXT: v_mul_f16_e32 v4, v1, v5
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v5, v2, v6			; GFX8-NEXT: v_mul_f16_e32 v5, v2, v6
	; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v6, v3, v7			; GFX8-NEXT: v_mul_f16_e32 v6, v3, v7
	; GFX8-NEXT: v_mul_f16_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	Show All 31 Lines
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v5 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v5 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: v_pk_mul_f16 v2, v2, v6 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v2, v2, v6 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: v_pk_mul_f16 v3, v3, v7 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-NEXT: v_pk_mul_f16 v3, v3, v7 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fmul_v8f16_fneg_rhs:			; GFX8-LABEL: v_fmul_v8f16_fneg_rhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v4, 0x80008000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s4, v4			; GFX8-NEXT: v_xor_b32_e32 v5, 0x80008000, v5
	; GFX8-NEXT: v_xor_b32_e32 v5, s4, v5			; GFX8-NEXT: v_xor_b32_e32 v6, 0x80008000, v6
	; GFX8-NEXT: v_xor_b32_e32 v6, s4, v6			; GFX8-NEXT: v_xor_b32_e32 v7, 0x80008000, v7
	; GFX8-NEXT: v_xor_b32_e32 v7, s4, v7
	; GFX8-NEXT: v_mul_f16_e32 v8, v0, v4			; GFX8-NEXT: v_mul_f16_e32 v8, v0, v4
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v4, v1, v5			; GFX8-NEXT: v_mul_f16_e32 v4, v1, v5
	; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v5, v2, v6			; GFX8-NEXT: v_mul_f16_e32 v5, v2, v6
	; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v2, v2, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v6, v3, v7			; GFX8-NEXT: v_mul_f16_e32 v6, v3, v7
	; GFX8-NEXT: v_mul_f16_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_f16_sdwa v3, v3, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

Show First 20 Lines • Show All 392 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)		%pow = call <2 x half> @llvm.pow.v2f16(<2 x half> %x, <2 x half> %y.fneg)
ret <2 x half> %pow		ret <2 x half> %pow
}		}

define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {		define <2 x half> @v_pow_v2f16_fneg_lhs_rhs(<2 x half> %x, <2 x half> %y) {
; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:		; GFX6-LABEL: v_pow_v2f16_fneg_lhs_rhs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: s_mov_b32 s4, 0x80008000
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0		; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX6-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX6-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1		; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
; GFX6-NEXT: v_log_f32_e32 v0, v0		; GFX6-NEXT: v_log_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3		; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
; GFX6-NEXT: v_log_f32_e32 v2, v2		; GFX6-NEXT: v_log_f32_e32 v2, v2
; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
; GFX6-NEXT: v_exp_f32_e32 v0, v0		; GFX6-NEXT: v_exp_f32_e32 v0, v0
; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3		; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v2, v3
; GFX6-NEXT: v_exp_f32_e32 v1, v1		; GFX6-NEXT: v_exp_f32_e32 v1, v1
; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1		; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_pow_v2f16_fneg_lhs_rhs:		; GFX8-LABEL: v_pow_v2f16_fneg_lhs_rhs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_mov_b32 s4, 0x80008000		; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX8-NEXT: v_log_f16_e32 v2, v0		; GFX8-NEXT: v_log_f16_e32 v2, v0
; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX8-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX8-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX8-NEXT: v_cvt_f32_f16_e32 v0, v0		; GFX8-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX8-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX8-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
; GFX8-NEXT: v_mul_legacy_f32_e32 v2, v2, v3		; GFX8-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
; GFX8-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v2		; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v2
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
; GFX8-NEXT: v_exp_f16_e32 v0, v0		; GFX8-NEXT: v_exp_f16_e32 v0, v0
; GFX8-NEXT: v_exp_f16_e32 v1, v1		; GFX8-NEXT: v_exp_f16_e32 v1, v1
; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_pow_v2f16_fneg_lhs_rhs:		; GFX9-LABEL: v_pow_v2f16_fneg_lhs_rhs:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0x80008000		; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX9-NEXT: v_log_f16_e32 v2, v0		; GFX9-NEXT: v_log_f16_e32 v2, v0
; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX9-NEXT: v_log_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX9-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1		; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2		; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v2
; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; GFX9-NEXT: v_cvt_f32_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
		; GFX9-NEXT: v_cvt_f32_f16_e32 v0, v0
; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3		; GFX9-NEXT: v_mul_legacy_f32_e32 v2, v2, v3
; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2		; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1		; GFX9-NEXT: v_mul_legacy_f32_e32 v0, v0, v1
; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
; GFX9-NEXT: v_exp_f16_e32 v1, v2		; GFX9-NEXT: v_exp_f16_e32 v1, v2
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: v_exp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD		; GFX9-NEXT: v_exp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
; GFX9-NEXT: v_and_or_b32 v0, v1, v2, v0		; GFX9-NEXT: v_and_or_b32 v0, v1, v2, v0
▲ Show 20 Lines • Show All 330 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -o - %s \| FileCheck -check-prefixes=GCN,GFX6 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -o - %s \| FileCheck -check-prefixes=GCN,GFX6 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - %s \| FileCheck -check-prefixes=GCN,GFX8 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - %s \| FileCheck -check-prefixes=GCN,GFX8 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - %s \| FileCheck -check-prefixes=GCN,GFX9 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - %s \| FileCheck -check-prefixes=GCN,GFX9 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - %s \| FileCheck -check-prefixes=GCN,GFX10 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - %s \| FileCheck -check-prefixes=GCN,GFX10 %s

define amdgpu_ps i7 @s_fshl_i7(i7 inreg %lhs, i7 inreg %rhs, i7 inreg %amt) {		define amdgpu_ps i7 @s_fshl_i7(i7 inreg %lhs, i7 inreg %rhs, i7 inreg %amt) {
; GFX6-LABEL: s_fshl_i7:		; GFX6-LABEL: s_fshl_i7:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: s_and_b32 s2, s2, 0x7f		; GFX6-NEXT: s_and_b32 s2, s2, 0x7f
; GFX6-NEXT: s_movk_i32 s3, 0x7f
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x60001		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x60001
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX6-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 6, v0		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 6, v0
; GFX6-NEXT: v_and_b32_e32 v0, s3, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX6-NEXT: v_and_b32_e32 v1, s3, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0
; GFX6-NEXT: v_lshr_b32_e32 v1, s1, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s1, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshl_i7:		; GFX8-LABEL: s_fshl_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_and_b32 s2, s2, 0x7f		; GFX8-NEXT: s_and_b32 s2, s2, 0x7f
; GFX8-NEXT: s_and_b32 s1, s1, 0x7f		; GFX8-NEXT: s_and_b32 s1, s1, 0x7f
; GFX8-NEXT: s_movk_i32 s3, 0x7f		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX8-NEXT: s_lshr_b32 s1, s1, 1		; GFX8-NEXT: s_lshr_b32 s1, s1, 1
; GFX8-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX8-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX8-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX8-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_sub_u16_e32 v1, 6, v0		; GFX8-NEXT: v_sub_u16_e32 v1, 6, v0
; GFX8-NEXT: v_and_b32_e32 v0, s3, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v1, s3, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0		; GFX8-NEXT: v_lshlrev_b16_e64 v0, v0, s0
; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s1		; GFX8-NEXT: v_lshrrev_b16_e64 v1, v1, s1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_fshl_i7:		; GFX9-LABEL: s_fshl_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_and_b32 s2, s2, 0x7f		; GFX9-NEXT: s_and_b32 s2, s2, 0x7f
; GFX9-NEXT: s_and_b32 s1, s1, 0x7f		; GFX9-NEXT: s_and_b32 s1, s1, 0x7f
; GFX9-NEXT: s_movk_i32 s3, 0x7f		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX9-NEXT: s_lshr_b32 s1, s1, 1		; GFX9-NEXT: s_lshr_b32 s1, s1, 1
; GFX9-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX9-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX9-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX9-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_sub_u16_e32 v1, 6, v0		; GFX9-NEXT: v_sub_u16_e32 v1, 6, v0
; GFX9-NEXT: v_and_b32_e32 v0, s3, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v1, s3, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_lshlrev_b16_e64 v0, v0, s0		; GFX9-NEXT: v_lshlrev_b16_e64 v0, v0, s0
; GFX9-NEXT: v_lshrrev_b16_e64 v1, v1, s1		; GFX9-NEXT: v_lshrrev_b16_e64 v1, v1, s1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_fshl_i7:		; GFX10-LABEL: s_fshl_i7:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
Show All 38 Lines
; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX6-NEXT: v_bfe_u32 v1, v1, 1, 6		; GFX6-NEXT: v_bfe_u32 v1, v1, 1, 6
; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX6-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX6-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX6-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX6-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX6-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 6, v2		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 6, v2
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, v3, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_i7:		; GFX8-LABEL: v_fshl_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 7		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 7
; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2
		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
		; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1
; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX8-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX8-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4		; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4
; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4
; GFX8-NEXT: v_lshrrev_b16_e32 v1, 1, v1
; GFX8-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX8-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_sub_u16_e32 v3, 6, v2		; GFX8-NEXT: v_sub_u16_e32 v3, 6, v2
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX8-NEXT: v_lshlrev_b16_e32 v0, v2, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, v2, v0
; GFX8-NEXT: v_and_b32_e32 v2, v3, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v3
; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1		; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_i7:		; GFX9-LABEL: v_fshl_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 7		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2
		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
		; GFX9-NEXT: v_lshrrev_b16_e32 v1, 1, v1
; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX9-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX9-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX9-NEXT: v_add_u32_e32 v3, v3, v4		; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX9-NEXT: v_and_b32_e32 v1, v1, v4
; GFX9-NEXT: v_lshrrev_b16_e32 v1, 1, v1
; GFX9-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX9-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3		; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3
; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_sub_u16_e32 v3, 6, v2		; GFX9-NEXT: v_sub_u16_e32 v3, 6, v2
; GFX9-NEXT: v_and_b32_e32 v2, v2, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, v2, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, v2, v0
; GFX9-NEXT: v_and_b32_e32 v2, v3, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v3
; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1		; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_i7:		; GFX10-LABEL: v_fshl_i7:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 420 Lines • ▼ Show 20 Lines
; GFX6-NEXT: v_and_b32_e32 v2, 7, v4		; GFX6-NEXT: v_and_b32_e32 v2, 7, v4
; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8		; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8
; GFX6-NEXT: v_and_b32_e32 v4, 7, v4		; GFX6-NEXT: v_and_b32_e32 v4, 7, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 1, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_mov_b32_e32 v2, 0xff		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_and_b32_e32 v1, v1, v2		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_and_b32_e32 v0, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v2i8:		; GFX8-LABEL: v_fshl_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_and_b32_e32 v6, 7, v2		; GFX8-NEXT: v_and_b32_e32 v6, 7, v2
▲ Show 20 Lines • Show All 319 Lines • ▼ Show 20 Lines
; GFX6-NEXT: v_lshrrev_b32_e32 v3, v6, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v3, v6, v3
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_and_b32_e32 v3, 7, v7		; GFX6-NEXT: v_and_b32_e32 v3, 7, v7
; GFX6-NEXT: v_xor_b32_e32 v6, -1, v7		; GFX6-NEXT: v_xor_b32_e32 v6, -1, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v3, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v3, v4
; GFX6-NEXT: v_bfe_u32 v4, v1, 16, 8		; GFX6-NEXT: v_bfe_u32 v4, v1, 16, 8
; GFX6-NEXT: v_and_b32_e32 v6, 7, v6		; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 1, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 1, v4
; GFX6-NEXT: s_movk_i32 s4, 0xff
; GFX6-NEXT: v_lshrrev_b32_e32 v4, v6, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v4, v6, v4
; GFX6-NEXT: v_xor_b32_e32 v6, -1, v8		; GFX6-NEXT: v_xor_b32_e32 v6, -1, v8
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
; GFX6-NEXT: v_and_b32_e32 v4, 7, v8		; GFX6-NEXT: v_and_b32_e32 v4, 7, v8
; GFX6-NEXT: v_and_b32_e32 v6, 7, v6		; GFX6-NEXT: v_and_b32_e32 v6, 7, v6
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 25, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 25, v1
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v4, v4, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v4, v4, v5
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v6, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v6, v1
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; GFX6-NEXT: v_or_b32_e32 v1, v4, v1		; GFX6-NEXT: v_or_b32_e32 v1, v4, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v4i8:		; GFX8-LABEL: v_fshl_v4i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 30 Lines
; GFX8-NEXT: v_xor_b32_e32 v6, -1, v7		; GFX8-NEXT: v_xor_b32_e32 v6, -1, v7
; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v5, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX8-NEXT: v_mov_b32_e32 v5, 1		; GFX8-NEXT: v_mov_b32_e32 v5, 1
; GFX8-NEXT: v_and_b32_e32 v6, 7, v6		; GFX8-NEXT: v_and_b32_e32 v6, 7, v6
; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX8-NEXT: v_lshrrev_b16_e32 v1, v6, v1		; GFX8-NEXT: v_lshrrev_b16_e32 v1, v6, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: v_mov_b32_e32 v1, 8		; GFX8-NEXT: v_mov_b32_e32 v1, 8
; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v2, s4, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v4
; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_or_b32_e32 v1, v1, v2		; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX8-NEXT: v_or_b32_e32 v0, v1, v0		; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_v4i8:		; GFX9-LABEL: v_fshl_v4i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 33 Lines
; GFX9-NEXT: v_and_b32_e32 v6, 7, v6		; GFX9-NEXT: v_and_b32_e32 v6, 7, v6
; GFX9-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_lshrrev_b16_e32 v1, v6, v1		; GFX9-NEXT: v_lshrrev_b16_e32 v1, v6, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 8		; GFX9-NEXT: v_mov_b32_e32 v1, 8
; GFX9-NEXT: s_movk_i32 s4, 0xff		; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX9-NEXT: v_and_or_b32 v1, v2, s4, v1		; GFX9-NEXT: v_and_or_b32 v1, v2, s4, v1
; GFX9-NEXT: v_and_b32_e32 v2, s4, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v4
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0		; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_v4i8:		; GFX10-LABEL: v_fshl_v4i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines

define amdgpu_ps i24 @s_fshl_i24(i24 inreg %lhs, i24 inreg %rhs, i24 inreg %amt) {		define amdgpu_ps i24 @s_fshl_i24(i24 inreg %lhs, i24 inreg %rhs, i24 inreg %amt) {
; GFX6-LABEL: s_fshl_i24:		; GFX6-LABEL: s_fshl_i24:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX6-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX6-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX6-NEXT: s_mov_b32 s3, 0xffffff		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX6-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX6-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 23, v0		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 23, v0
; GFX6-NEXT: v_and_b32_e32 v0, s3, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX6-NEXT: v_and_b32_e32 v1, s3, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0
; GFX6-NEXT: v_lshr_b32_e32 v1, s1, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s1, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshl_i24:		; GFX8-LABEL: s_fshl_i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX8-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX8-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX8-NEXT: s_mov_b32 s3, 0xffffff		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX8-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX8-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX8-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX8-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_sub_u32_e32 v1, vcc, 23, v0		; GFX8-NEXT: v_sub_u32_e32 v1, vcc, 23, v0
; GFX8-NEXT: v_and_b32_e32 v0, s3, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX8-NEXT: v_and_b32_e32 v1, s3, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s0
; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s1		; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_fshl_i24:		; GFX9-LABEL: s_fshl_i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX9-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX9-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX9-NEXT: s_mov_b32 s3, 0xffffff		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_bfe_u32 s1, s1, 0x170001
; GFX9-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX9-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_sub_u32_e32 v1, 23, v0		; GFX9-NEXT: v_sub_u32_e32 v1, 23, v0
; GFX9-NEXT: v_and_b32_e32 v1, s3, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX9-NEXT: v_and_b32_e32 v0, s3, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s1		; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v1		; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v1
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_fshl_i24:		; GFX10-LABEL: s_fshl_i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
Show All 35 Lines
; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_bfe_u32 v1, v1, 1, 23		; GFX6-NEXT: v_bfe_u32 v1, v1, 1, 23
; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX6-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX6-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX6-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX6-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v2		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v2
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, v3, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_i24:		; GFX8-LABEL: v_fshl_i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffffe8
; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_bfe_u32 v1, v1, 1, 23		; GFX8-NEXT: v_bfe_u32 v1, v1, 1, 23
; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX8-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX8-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4		; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4
; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX8-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX8-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v2		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v2
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX8-NEXT: v_and_b32_e32 v2, v3, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX8-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_i24:		; GFX9-LABEL: v_fshl_i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffffe8
; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_bfe_u32 v1, v1, 1, 23		; GFX9-NEXT: v_bfe_u32 v1, v1, 1, 23
; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX9-NEXT: v_add_u32_e32 v3, v3, v4		; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX9-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX9-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3		; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v2		; GFX9-NEXT: v_sub_u32_e32 v3, 23, v2
; GFX9-NEXT: v_and_b32_e32 v3, v3, v4		; GFX9-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX9-NEXT: v_and_b32_e32 v2, v2, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_lshrrev_b32_e32 v1, v3, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v1, v3, v1
; GFX9-NEXT: v_lshl_or_b32 v0, v0, v2, v1		; GFX9-NEXT: v_lshl_or_b32 v0, v0, v2, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_i24:		; GFX10-LABEL: v_fshl_i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
Show All 27 Lines

define amdgpu_ps i48 @s_fshl_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {		define amdgpu_ps i48 @s_fshl_v2i24(i48 inreg %lhs.arg, i48 inreg %rhs.arg, i48 inreg %amt.arg) {
; GFX6-LABEL: s_fshl_v2i24:		; GFX6-LABEL: s_fshl_v2i24:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: s_lshr_b32 s6, s0, 16		; GFX6-NEXT: s_lshr_b32 s6, s0, 16
; GFX6-NEXT: s_lshr_b32 s7, s0, 24		; GFX6-NEXT: s_lshr_b32 s7, s0, 24
; GFX6-NEXT: s_and_b32 s10, s0, 0xff		; GFX6-NEXT: s_and_b32 s9, s0, 0xff
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x80008		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX6-NEXT: s_lshl_b32 s0, s0, 8		; GFX6-NEXT: s_lshl_b32 s0, s0, 8
; GFX6-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NEXT: s_or_b32 s0, s10, s0		; GFX6-NEXT: s_or_b32 s0, s9, s0
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: s_lshr_b32 s8, s1, 8		; GFX6-NEXT: s_lshr_b32 s8, s1, 8
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: s_and_b32 s1, s1, 0xff		; GFX6-NEXT: s_and_b32 s1, s1, 0xff
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: s_or_b32 s0, s0, s6		; GFX6-NEXT: s_or_b32 s0, s0, s6
; GFX6-NEXT: s_lshl_b32 s1, s1, 8		; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: s_and_b32 s6, s8, 0xff		; GFX6-NEXT: s_and_b32 s6, s8, 0xff
; GFX6-NEXT: s_or_b32 s1, s7, s1		; GFX6-NEXT: s_or_b32 s1, s7, s1
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX6-NEXT: s_or_b32 s1, s1, s6		; GFX6-NEXT: s_or_b32 s1, s1, s6
; GFX6-NEXT: s_lshr_b32 s6, s2, 16		; GFX6-NEXT: s_lshr_b32 s6, s2, 16
; GFX6-NEXT: s_lshr_b32 s7, s2, 24		; GFX6-NEXT: s_lshr_b32 s7, s2, 24
; GFX6-NEXT: s_and_b32 s10, s2, 0xff		; GFX6-NEXT: s_and_b32 s9, s2, 0xff
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x80008
; GFX6-NEXT: v_mul_lo_u32 v2, v1, v0		; GFX6-NEXT: v_mul_lo_u32 v2, v1, v0
; GFX6-NEXT: s_lshl_b32 s2, s2, 8		; GFX6-NEXT: s_lshl_b32 s2, s2, 8
; GFX6-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NEXT: s_or_b32 s2, s10, s2		; GFX6-NEXT: s_or_b32 s2, s9, s2
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: s_lshr_b32 s8, s3, 8		; GFX6-NEXT: s_lshr_b32 s8, s3, 8
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: s_and_b32 s3, s3, 0xff		; GFX6-NEXT: s_and_b32 s3, s3, 0xff
; GFX6-NEXT: s_or_b32 s2, s2, s6		; GFX6-NEXT: s_or_b32 s2, s2, s6
; GFX6-NEXT: s_lshl_b32 s3, s3, 8		; GFX6-NEXT: s_lshl_b32 s3, s3, 8
; GFX6-NEXT: s_and_b32 s6, s8, 0xff		; GFX6-NEXT: s_and_b32 s6, s8, 0xff
; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX6-NEXT: s_or_b32 s3, s7, s3		; GFX6-NEXT: s_or_b32 s3, s7, s3
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: s_or_b32 s3, s3, s6		; GFX6-NEXT: s_or_b32 s3, s3, s6
; GFX6-NEXT: s_lshr_b32 s6, s4, 16		; GFX6-NEXT: s_lshr_b32 s6, s4, 16
; GFX6-NEXT: s_lshr_b32 s7, s4, 24		; GFX6-NEXT: s_lshr_b32 s7, s4, 24
; GFX6-NEXT: s_and_b32 s10, s4, 0xff		; GFX6-NEXT: s_and_b32 s9, s4, 0xff
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x80008		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x80008
; GFX6-NEXT: s_lshl_b32 s4, s4, 8		; GFX6-NEXT: s_lshl_b32 s4, s4, 8
; GFX6-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v2, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v2, 24
; GFX6-NEXT: s_or_b32 s4, s10, s4		; GFX6-NEXT: s_or_b32 s4, s9, s4
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: s_or_b32 s4, s4, s6		; GFX6-NEXT: s_or_b32 s4, s4, s6
; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2		; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
Show All 13 Lines
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0
; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX6-NEXT: s_lshl_b32 s6, s6, 16		; GFX6-NEXT: s_lshl_b32 s6, s6, 16
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: s_or_b32 s5, s5, s6		; GFX6-NEXT: s_or_b32 s5, s5, s6
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX6-NEXT: s_mov_b32 s6, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0
		; GFX6-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX6-NEXT: v_and_b32_e32 v0, s6, v0
; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0
; GFX6-NEXT: s_lshr_b32 s0, s2, 1		; GFX6-NEXT: s_lshr_b32 s0, s2, 1
; GFX6-NEXT: v_and_b32_e32 v2, s6, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1
; GFX6-NEXT: v_and_b32_e32 v1, v1, v4		; GFX6-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX6-NEXT: s_lshr_b32 s0, s3, 1		; GFX6-NEXT: s_lshr_b32 s0, s3, 1
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: s_movk_i32 s9, 0xff
; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1		; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1
; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshr_b32_e32 v2, s0, v2
; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_and_b32_e32 v2, s9, v0		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s9, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8		; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: v_readfirstlane_b32 s1, v1		; GFX6-NEXT: v_readfirstlane_b32 s1, v1
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v0		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v0
; GFX8-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX8-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX8-NEXT: s_lshl_b32 s6, s6, 16		; GFX8-NEXT: s_lshl_b32 s6, s6, 16
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: s_or_b32 s5, s5, s6		; GFX8-NEXT: s_or_b32 s5, s5, s6
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v2, v1		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v2, v1
; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX8-NEXT: s_mov_b32 s6, 0xffffff
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v0		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v0
		; GFX8-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX8-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX8-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX8-NEXT: v_and_b32_e32 v0, s6, v0
; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v0, v0, s0
; GFX8-NEXT: s_lshr_b32 s0, s2, 1		; GFX8-NEXT: s_lshr_b32 s0, s2, 1
; GFX8-NEXT: v_and_b32_e32 v2, s6, v3		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0		; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0
; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1		; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2		; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4		; GFX8-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX8-NEXT: s_lshr_b32 s0, s3, 1		; GFX8-NEXT: s_lshr_b32 s0, s3, 1
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s1		; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s1
; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0		; GFX8-NEXT: v_lshrrev_b32_e64 v2, v2, s0
; GFX8-NEXT: v_or_b32_e32 v1, v1, v2		; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
; GFX8-NEXT: v_mov_b32_e32 v2, 8		; GFX8-NEXT: v_mov_b32_e32 v2, 8
; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX8-NEXT: v_mov_b32_e32 v4, 16		; GFX8-NEXT: v_mov_b32_e32 v4, 16
; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: s_mov_b32 s7, 0xffffff		; GFX9-NEXT: v_sub_u32_e32 v2, 23, v0
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v0
; GFX9-NEXT: s_lshr_b32 s2, s2, 1		; GFX9-NEXT: s_lshr_b32 s2, s2, 1
; GFX9-NEXT: v_and_b32_e32 v3, s7, v3		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_and_b32_e32 v0, s7, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX9-NEXT: v_lshrrev_b32_e64 v3, v3, s2		; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s2
; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v3		; GFX9-NEXT: v_lshl_or_b32 v0, s0, v0, v2
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffffff		; GFX9-NEXT: v_sub_u32_e32 v2, 23, v1
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v1
; GFX9-NEXT: v_and_b32_e32 v1, v1, v2
; GFX9-NEXT: s_lshr_b32 s0, s3, 1		; GFX9-NEXT: s_lshr_b32 s0, s3, 1
; GFX9-NEXT: v_and_b32_e32 v2, v3, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s0		; GFX9-NEXT: v_lshrrev_b32_e64 v2, v2, s0
; GFX9-NEXT: s_mov_b32 s6, 8		; GFX9-NEXT: s_mov_b32 s6, 8
; GFX9-NEXT: v_lshl_or_b32 v1, s1, v1, v2		; GFX9-NEXT: v_lshl_or_b32 v1, s1, v1, v2
; GFX9-NEXT: s_movk_i32 s0, 0xff
; GFX9-NEXT: s_mov_b32 s8, 16		; GFX9-NEXT: s_mov_b32 s8, 16
		; GFX9-NEXT: s_movk_i32 s0, 0xff
; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX9-NEXT: v_and_b32_e32 v3, s0, v1		; GFX9-NEXT: v_and_b32_e32 v3, 0xff, v1
; GFX9-NEXT: v_and_or_b32 v2, v0, s0, v2		; GFX9-NEXT: v_and_or_b32 v2, v0, s0, v2
; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3		; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8		; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2		; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
define <2 x i24> @v_fshl_v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt) {		define <2 x i24> @v_fshl_v2i24(<2 x i24> %lhs, <2 x i24> %rhs, <2 x i24> %amt) {
; GFX6-LABEL: v_fshl_v2i24:		; GFX6-LABEL: v_fshl_v2i24:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX6-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX6-NEXT: v_rcp_iflag_f32_e32 v9, v9
; GFX6-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX6-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6
		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4
		; GFX6-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX6-NEXT: v_bfe_u32 v2, v2, 1, 23		; GFX6-NEXT: v_bfe_u32 v2, v2, 1, 23
; GFX6-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX6-NEXT: v_mul_lo_u32 v8, v7, v6
; GFX6-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX6-NEXT: v_mul_hi_u32 v8, v6, v8
; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v9
; GFX6-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX6-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX6-NEXT: v_mov_b32_e32 v9, 0xffffff		; GFX6-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v9
; GFX6-NEXT: v_and_b32_e32 v5, v5, v9
; GFX6-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
; GFX6-NEXT: v_cvt_u32_f32_e32 v8, v8		; GFX6-NEXT: v_cvt_u32_f32_e32 v8, v8
; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX6-NEXT: v_mul_lo_u32 v7, v7, v8		; GFX6-NEXT: v_mul_lo_u32 v7, v7, v8
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6
; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4		; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX6-NEXT: v_mul_hi_u32 v7, v8, v7		; GFX6-NEXT: v_mul_hi_u32 v7, v8, v7
; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4		; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX6-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; GFX6-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; GFX6-NEXT: v_mul_hi_u32 v7, v5, v7		; GFX6-NEXT: v_mul_hi_u32 v7, v5, v7
; GFX6-NEXT: v_sub_i32_e32 v6, vcc, 23, v4		; GFX6-NEXT: v_sub_i32_e32 v6, vcc, 23, v4
; GFX6-NEXT: v_and_b32_e32 v4, v4, v9		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v4, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v4, v0
; GFX6-NEXT: v_and_b32_e32 v4, v6, v9		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v6
; GFX6-NEXT: v_mul_lo_u32 v6, v7, 24		; GFX6-NEXT: v_mul_lo_u32 v6, v7, 24
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v5, v6		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v5, v6
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 23, v2		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 23, v2
; GFX6-NEXT: v_and_b32_e32 v2, v2, v9		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_bfe_u32 v2, v3, 1, 23		; GFX6-NEXT: v_bfe_u32 v2, v3, 1, 23
; GFX6-NEXT: v_and_b32_e32 v3, v4, v9		; GFX6-NEXT: v_and_b32_e32 v3, 0xffffff, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v3, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v2i24:		; GFX8-LABEL: v_fshl_v2i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX8-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX8-NEXT: v_rcp_iflag_f32_e32 v9, v9
; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6
		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4
		; GFX8-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX8-NEXT: v_bfe_u32 v2, v2, 1, 23		; GFX8-NEXT: v_bfe_u32 v2, v2, 1, 23
; GFX8-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX8-NEXT: v_mul_lo_u32 v8, v7, v6
; GFX8-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX8-NEXT: v_mul_hi_u32 v8, v6, v8
; GFX8-NEXT: v_add_u32_e32 v6, vcc, v6, v8		; GFX8-NEXT: v_add_u32_e32 v6, vcc, v6, v8
; GFX8-NEXT: v_rcp_iflag_f32_e32 v8, v9
; GFX8-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX8-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX8-NEXT: v_mov_b32_e32 v9, 0xffffff		; GFX8-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v9
; GFX8-NEXT: v_and_b32_e32 v5, v5, v9
; GFX8-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
; GFX8-NEXT: v_cvt_u32_f32_e32 v8, v8		; GFX8-NEXT: v_cvt_u32_f32_e32 v8, v8
; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX8-NEXT: v_mul_lo_u32 v7, v7, v8		; GFX8-NEXT: v_mul_lo_u32 v7, v7, v8
; GFX8-NEXT: v_sub_u32_e32 v4, vcc, v4, v6		; GFX8-NEXT: v_sub_u32_e32 v4, vcc, v4, v6
; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4		; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX8-NEXT: v_mul_hi_u32 v7, v8, v7		; GFX8-NEXT: v_mul_hi_u32 v7, v8, v7
; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4		; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX8-NEXT: v_add_u32_e32 v7, vcc, v8, v7		; GFX8-NEXT: v_add_u32_e32 v7, vcc, v8, v7
; GFX8-NEXT: v_mul_hi_u32 v7, v5, v7		; GFX8-NEXT: v_mul_hi_u32 v7, v5, v7
; GFX8-NEXT: v_sub_u32_e32 v6, vcc, 23, v4		; GFX8-NEXT: v_sub_u32_e32 v6, vcc, 23, v4
; GFX8-NEXT: v_and_b32_e32 v4, v4, v9		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX8-NEXT: v_lshlrev_b32_e32 v0, v4, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, v4, v0
; GFX8-NEXT: v_and_b32_e32 v4, v6, v9		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v6
; GFX8-NEXT: v_mul_lo_u32 v6, v7, 24		; GFX8-NEXT: v_mul_lo_u32 v6, v7, 24
; GFX8-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2		; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v5, v6		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v5, v6
; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 23, v2		; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 23, v2
; GFX8-NEXT: v_and_b32_e32 v2, v2, v9		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v1, v2, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v1, v2, v1
; GFX8-NEXT: v_bfe_u32 v2, v3, 1, 23		; GFX8-NEXT: v_bfe_u32 v2, v3, 1, 23
; GFX8-NEXT: v_and_b32_e32 v3, v4, v9		; GFX8-NEXT: v_and_b32_e32 v3, 0xffffff, v4
; GFX8-NEXT: v_lshrrev_b32_e32 v2, v3, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v2, v3, v2
; GFX8-NEXT: v_or_b32_e32 v1, v1, v2		; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_v2i24:		; GFX9-LABEL: v_fshl_v2i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX9-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v9		; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v9
; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6
; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v9		; GFX9-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v9
; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v9		; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v9
; GFX9-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX9-NEXT: v_mul_lo_u32 v8, v7, v6
		; GFX9-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX9-NEXT: v_bfe_u32 v2, v2, 1, 23		; GFX9-NEXT: v_bfe_u32 v2, v2, 1, 23
; GFX9-NEXT: v_bfe_u32 v3, v3, 1, 23
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v9		; GFX9-NEXT: v_mul_lo_u32 v7, v7, v9
; GFX9-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX9-NEXT: v_mul_hi_u32 v8, v6, v8
		; GFX9-NEXT: v_bfe_u32 v3, v3, 1, 23
; GFX9-NEXT: v_mul_hi_u32 v7, v9, v7		; GFX9-NEXT: v_mul_hi_u32 v7, v9, v7
; GFX9-NEXT: v_add_u32_e32 v6, v6, v8		; GFX9-NEXT: v_add_u32_e32 v6, v6, v8
; GFX9-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX9-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX9-NEXT: v_mov_b32_e32 v8, 0xffffff		; GFX9-NEXT: v_add_u32_e32 v7, v9, v7
; GFX9-NEXT: v_and_b32_e32 v5, v5, v8
; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6		; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6
; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4		; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4		; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX9-NEXT: v_add_u32_e32 v6, v9, v7		; GFX9-NEXT: v_mul_hi_u32 v6, v5, v7
; GFX9-NEXT: v_mul_hi_u32 v6, v5, v6
; GFX9-NEXT: v_sub_u32_e32 v7, 23, v4		; GFX9-NEXT: v_sub_u32_e32 v7, 23, v4
; GFX9-NEXT: v_and_b32_e32 v7, v7, v8		; GFX9-NEXT: v_and_b32_e32 v7, 0xffffff, v7
; GFX9-NEXT: v_and_b32_e32 v4, v4, v8		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX9-NEXT: v_lshrrev_b32_e32 v2, v7, v2		; GFX9-NEXT: v_lshrrev_b32_e32 v2, v7, v2
; GFX9-NEXT: v_lshl_or_b32 v0, v0, v4, v2		; GFX9-NEXT: v_lshl_or_b32 v0, v0, v4, v2
; GFX9-NEXT: v_sub_u32_e32 v2, v5, v6		; GFX9-NEXT: v_sub_u32_e32 v2, v5, v6
; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_sub_u32_e32 v4, 23, v2		; GFX9-NEXT: v_sub_u32_e32 v4, 23, v2
; GFX9-NEXT: v_and_b32_e32 v4, v4, v8		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_and_b32_e32 v2, v2, v8		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_lshrrev_b32_e32 v3, v4, v3		; GFX9-NEXT: v_lshrrev_b32_e32 v3, v4, v3
; GFX9-NEXT: v_lshl_or_b32 v1, v1, v2, v3		; GFX9-NEXT: v_lshl_or_b32 v1, v1, v2, v3
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_v2i24:		; GFX10-LABEL: v_fshl_v2i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 1,179 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_mov_b32_e32 v1, 16		; GFX8-NEXT: v_mov_b32_e32 v1, 16
; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_v2i16:		; GFX9-LABEL: v_fshl_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0xf000f		; GFX9-NEXT: v_and_b32_e32 v3, 0xf000f, v2
; GFX9-NEXT: v_and_b32_e32 v3, s4, v2
; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX9-NEXT: v_and_b32_e32 v2, s4, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xf000f, v2
; GFX9-NEXT: v_pk_lshrrev_b16 v1, 1, v1 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshrrev_b16 v1, 1, v1 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v3, v0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v3, v0
; GFX9-NEXT: v_pk_lshrrev_b16 v1, v2, v1		; GFX9-NEXT: v_pk_lshrrev_b16 v1, v2, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_v2i16:		; GFX10-LABEL: v_fshl_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v2, v1		; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: v_fshl_v2i16_ssv:		; GFX9-LABEL: v_fshl_v2i16_ssv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_mov_b32 s2, 0xf000f		; GFX9-NEXT: v_and_b32_e32 v1, 0xf000f, v0
; GFX9-NEXT: v_and_b32_e32 v1, s2, v0
; GFX9-NEXT: v_pk_lshlrev_b16 v1, v1, s0		; GFX9-NEXT: v_pk_lshlrev_b16 v1, v1, s0
; GFX9-NEXT: s_lshr_b32 s0, s1, 16		; GFX9-NEXT: s_lshr_b32 s0, s1, 16
; GFX9-NEXT: s_and_b32 s1, s1, 0xffff		; GFX9-NEXT: s_and_b32 s1, s1, 0xffff
; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX9-NEXT: s_lshr_b32 s1, s1, 0x10001		; GFX9-NEXT: s_lshr_b32 s1, s1, 0x10001
; GFX9-NEXT: s_lshr_b32 s0, s0, 1		; GFX9-NEXT: s_lshr_b32 s0, s0, 1
; GFX9-NEXT: v_and_b32_e32 v0, s2, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xf000f, v0
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s1, s0		; GFX9-NEXT: s_pack_ll_b32_b16 s0, s1, s0
; GFX9-NEXT: v_pk_lshrrev_b16 v0, v0, s0		; GFX9-NEXT: v_pk_lshrrev_b16 v0, v0, s0
; GFX9-NEXT: v_or_b32_e32 v0, v1, v0		; GFX9-NEXT: v_or_b32_e32 v0, v1, v0
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: v_fshl_v2i16_ssv:		; GFX10-LABEL: v_fshl_v2i16_ssv:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0		; GFX10-NEXT: v_xor_b32_e32 v1, -1, v0
▲ Show 20 Lines • Show All 469 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_v4i16:		; GFX9-LABEL: v_fshl_v4i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0xf000f		; GFX9-NEXT: v_and_b32_e32 v6, 0xf000f, v4
; GFX9-NEXT: v_and_b32_e32 v6, s4, v4
; GFX9-NEXT: v_xor_b32_e32 v4, -1, v4		; GFX9-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX9-NEXT: v_and_b32_e32 v4, s4, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xf000f, v4
; GFX9-NEXT: v_pk_lshrrev_b16 v2, 1, v2 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshrrev_b16 v2, 1, v2 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v6, v0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v6, v0
; GFX9-NEXT: v_pk_lshrrev_b16 v2, v4, v2		; GFX9-NEXT: v_pk_lshrrev_b16 v2, v4, v2
; GFX9-NEXT: v_or_b32_e32 v0, v0, v2		; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
; GFX9-NEXT: v_and_b32_e32 v2, s4, v5		; GFX9-NEXT: v_and_b32_e32 v2, 0xf000f, v5
; GFX9-NEXT: v_xor_b32_e32 v4, -1, v5		; GFX9-NEXT: v_xor_b32_e32 v4, -1, v5
; GFX9-NEXT: v_and_b32_e32 v4, s4, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xf000f, v4
; GFX9-NEXT: v_pk_lshlrev_b16 v1, v2, v1		; GFX9-NEXT: v_pk_lshlrev_b16 v1, v2, v1
; GFX9-NEXT: v_pk_lshrrev_b16 v2, 1, v3 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshrrev_b16 v2, 1, v3 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshrrev_b16 v2, v4, v2		; GFX9-NEXT: v_pk_lshrrev_b16 v2, v4, v2
; GFX9-NEXT: v_or_b32_e32 v1, v1, v2		; GFX9-NEXT: v_or_b32_e32 v1, v1, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshl_v4i16:		; GFX10-LABEL: v_fshl_v4i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 737 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call i128 @llvm.fshl.i128(i128 %lhs, i128 %rhs, i128 %amt)		%result = call i128 @llvm.fshl.i128(i128 %lhs, i128 %rhs, i128 %amt)
ret i128 %result		ret i128 %result
}		}

define i128 @v_fshl_i128(i128 %lhs, i128 %rhs, i128 %amt) {		define i128 @v_fshl_i128(i128 %lhs, i128 %rhs, i128 %amt) {
; GFX6-LABEL: v_fshl_i128:		; GFX6-LABEL: v_fshl_i128:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s4, 0x7f		; GFX6-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX6-NEXT: v_and_b32_e32 v14, s4, v8
; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX6-NEXT: v_and_b32_e32 v15, s4, v8		; GFX6-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX6-NEXT: v_sub_i32_e32 v8, vcc, 64, v14		; GFX6-NEXT: v_sub_i32_e32 v8, vcc, 64, v14
; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v14		; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v14
; GFX6-NEXT: v_lshr_b64 v[8:9], v[0:1], v8		; GFX6-NEXT: v_lshr_b64 v[8:9], v[0:1], v8
; GFX6-NEXT: v_lshl_b64 v[10:11], v[2:3], v14		; GFX6-NEXT: v_lshl_b64 v[10:11], v[2:3], v14
; GFX6-NEXT: v_lshl_b64 v[12:13], v[0:1], v14		; GFX6-NEXT: v_lshl_b64 v[12:13], v[0:1], v14
; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], v16		; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], v16
; GFX6-NEXT: v_or_b32_e32 v8, v8, v10		; GFX6-NEXT: v_or_b32_e32 v8, v8, v10
; GFX6-NEXT: v_or_b32_e32 v9, v9, v11		; GFX6-NEXT: v_or_b32_e32 v9, v9, v11
Show All 29 Lines
; GFX6-NEXT: v_or_b32_e32 v1, v11, v1		; GFX6-NEXT: v_or_b32_e32 v1, v11, v1
; GFX6-NEXT: v_or_b32_e32 v2, v12, v2		; GFX6-NEXT: v_or_b32_e32 v2, v12, v2
; GFX6-NEXT: v_or_b32_e32 v3, v13, v3		; GFX6-NEXT: v_or_b32_e32 v3, v13, v3
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_i128:		; GFX8-LABEL: v_fshl_i128:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX8-NEXT: v_and_b32_e32 v14, s4, v8
; GFX8-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX8-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX8-NEXT: v_and_b32_e32 v15, s4, v8		; GFX8-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX8-NEXT: v_sub_u32_e32 v8, vcc, 64, v14		; GFX8-NEXT: v_sub_u32_e32 v8, vcc, 64, v14
; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v14		; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v14
; GFX8-NEXT: v_lshrrev_b64 v[8:9], v8, v[0:1]		; GFX8-NEXT: v_lshrrev_b64 v[8:9], v8, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[10:11], v14, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[10:11], v14, v[2:3]
; GFX8-NEXT: v_lshlrev_b64 v[12:13], v14, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[12:13], v14, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[0:1], v16, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[0:1], v16, v[0:1]
; GFX8-NEXT: v_or_b32_e32 v8, v8, v10		; GFX8-NEXT: v_or_b32_e32 v8, v8, v10
; GFX8-NEXT: v_or_b32_e32 v9, v9, v11		; GFX8-NEXT: v_or_b32_e32 v9, v9, v11
Show All 29 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v11, v1		; GFX8-NEXT: v_or_b32_e32 v1, v11, v1
; GFX8-NEXT: v_or_b32_e32 v2, v12, v2		; GFX8-NEXT: v_or_b32_e32 v2, v12, v2
; GFX8-NEXT: v_or_b32_e32 v3, v13, v3		; GFX8-NEXT: v_or_b32_e32 v3, v13, v3
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_i128:		; GFX9-LABEL: v_fshl_i128:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX9-NEXT: v_and_b32_e32 v14, s4, v8
; GFX9-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX9-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX9-NEXT: v_and_b32_e32 v15, s4, v8		; GFX9-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX9-NEXT: v_sub_u32_e32 v8, 64, v14		; GFX9-NEXT: v_sub_u32_e32 v8, 64, v14
; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v14		; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v14
; GFX9-NEXT: v_lshrrev_b64 v[8:9], v8, v[0:1]		; GFX9-NEXT: v_lshrrev_b64 v[8:9], v8, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[10:11], v14, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[10:11], v14, v[2:3]
; GFX9-NEXT: v_lshlrev_b64 v[12:13], v14, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[12:13], v14, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[0:1], v16, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[0:1], v16, v[0:1]
; GFX9-NEXT: v_or_b32_e32 v8, v8, v10		; GFX9-NEXT: v_or_b32_e32 v8, v8, v10
; GFX9-NEXT: v_or_b32_e32 v9, v9, v11		; GFX9-NEXT: v_or_b32_e32 v9, v9, v11
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i128 @llvm.fshl.i128(i128 %lhs, i128 %rhs, i128 %amt)		%result = call i128 @llvm.fshl.i128(i128 %lhs, i128 %rhs, i128 %amt)
ret i128 %result		ret i128 %result
}		}

define amdgpu_ps <4 x float> @v_fshl_i128_ssv(i128 inreg %lhs, i128 inreg %rhs, i128 %amt) {		define amdgpu_ps <4 x float> @v_fshl_i128_ssv(i128 inreg %lhs, i128 inreg %rhs, i128 %amt) {
; GFX6-LABEL: v_fshl_i128_ssv:		; GFX6-LABEL: v_fshl_i128_ssv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_movk_i32 s8, 0x7f		; GFX6-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX6-NEXT: v_and_b32_e32 v6, s8, v0
; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX6-NEXT: v_and_b32_e32 v7, s8, v0		; GFX6-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v6		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v6
; GFX6-NEXT: v_lshr_b64 v[0:1], s[0:1], v0		; GFX6-NEXT: v_lshr_b64 v[0:1], s[0:1], v0
; GFX6-NEXT: v_lshl_b64 v[2:3], s[2:3], v6		; GFX6-NEXT: v_lshl_b64 v[2:3], s[2:3], v6
; GFX6-NEXT: v_subrev_i32_e32 v8, vcc, 64, v6		; GFX6-NEXT: v_subrev_i32_e32 v8, vcc, 64, v6
; GFX6-NEXT: v_lshl_b64 v[4:5], s[0:1], v6		; GFX6-NEXT: v_lshl_b64 v[4:5], s[0:1], v6
; GFX6-NEXT: v_or_b32_e32 v2, v0, v2		; GFX6-NEXT: v_or_b32_e32 v2, v0, v2
; GFX6-NEXT: v_or_b32_e32 v3, v1, v3		; GFX6-NEXT: v_or_b32_e32 v3, v1, v3
; GFX6-NEXT: v_lshl_b64 v[0:1], s[0:1], v8		; GFX6-NEXT: v_lshl_b64 v[0:1], s[0:1], v8
Show All 33 Lines
; GFX6-NEXT: v_or_b32_e32 v0, v8, v0		; GFX6-NEXT: v_or_b32_e32 v0, v8, v0
; GFX6-NEXT: v_or_b32_e32 v1, v9, v1		; GFX6-NEXT: v_or_b32_e32 v1, v9, v1
; GFX6-NEXT: v_or_b32_e32 v2, v6, v2		; GFX6-NEXT: v_or_b32_e32 v2, v6, v2
; GFX6-NEXT: v_or_b32_e32 v3, v10, v3		; GFX6-NEXT: v_or_b32_e32 v3, v10, v3
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: v_fshl_i128_ssv:		; GFX8-LABEL: v_fshl_i128_ssv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_movk_i32 s8, 0x7f		; GFX8-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v6, s8, v0
; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX8-NEXT: v_and_b32_e32 v7, s8, v0		; GFX8-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v6		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v6
; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]		; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[2:3], v6, s[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], v6, s[2:3]
; GFX8-NEXT: v_subrev_u32_e32 v8, vcc, 64, v6		; GFX8-NEXT: v_subrev_u32_e32 v8, vcc, 64, v6
; GFX8-NEXT: v_lshlrev_b64 v[4:5], v6, s[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[4:5], v6, s[0:1]
; GFX8-NEXT: v_or_b32_e32 v2, v0, v2		; GFX8-NEXT: v_or_b32_e32 v2, v0, v2
; GFX8-NEXT: v_or_b32_e32 v3, v1, v3		; GFX8-NEXT: v_or_b32_e32 v3, v1, v3
; GFX8-NEXT: v_lshlrev_b64 v[0:1], v8, s[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[0:1], v8, s[0:1]
Show All 33 Lines
; GFX8-NEXT: v_or_b32_e32 v0, v8, v0		; GFX8-NEXT: v_or_b32_e32 v0, v8, v0
; GFX8-NEXT: v_or_b32_e32 v1, v9, v1		; GFX8-NEXT: v_or_b32_e32 v1, v9, v1
; GFX8-NEXT: v_or_b32_e32 v2, v6, v2		; GFX8-NEXT: v_or_b32_e32 v2, v6, v2
; GFX8-NEXT: v_or_b32_e32 v3, v10, v3		; GFX8-NEXT: v_or_b32_e32 v3, v10, v3
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: v_fshl_i128_ssv:		; GFX9-LABEL: v_fshl_i128_ssv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_movk_i32 s8, 0x7f		; GFX9-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v6, s8, v0
; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX9-NEXT: v_and_b32_e32 v7, s8, v0		; GFX9-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX9-NEXT: v_sub_u32_e32 v0, 64, v6		; GFX9-NEXT: v_sub_u32_e32 v0, 64, v6
; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]		; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[2:3], v6, s[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], v6, s[2:3]
; GFX9-NEXT: v_subrev_u32_e32 v8, 64, v6		; GFX9-NEXT: v_subrev_u32_e32 v8, 64, v6
; GFX9-NEXT: v_lshlrev_b64 v[4:5], v6, s[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[4:5], v6, s[0:1]
; GFX9-NEXT: v_or_b32_e32 v2, v0, v2		; GFX9-NEXT: v_or_b32_e32 v2, v0, v2
; GFX9-NEXT: v_or_b32_e32 v3, v1, v3		; GFX9-NEXT: v_or_b32_e32 v3, v1, v3
; GFX9-NEXT: v_lshlrev_b64 v[0:1], v8, s[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[0:1], v8, s[0:1]
▲ Show 20 Lines • Show All 994 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i128> @llvm.fshl.v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt)		%result = call <2 x i128> @llvm.fshl.v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt)
ret <2 x i128> %result		ret <2 x i128> %result
}		}

define <2 x i128> @v_fshl_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt) {		define <2 x i128> @v_fshl_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt) {
; GFX6-LABEL: v_fshl_v2i128:		; GFX6-LABEL: v_fshl_v2i128:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s6, 0x7f		; GFX6-NEXT: v_and_b32_e32 v23, 0x7f, v16
; GFX6-NEXT: v_and_b32_e32 v23, s6, v16
; GFX6-NEXT: v_sub_i32_e32 v17, vcc, 64, v23		; GFX6-NEXT: v_sub_i32_e32 v17, vcc, 64, v23
; GFX6-NEXT: v_lshr_b64 v[17:18], v[0:1], v17		; GFX6-NEXT: v_lshr_b64 v[17:18], v[0:1], v17
; GFX6-NEXT: v_lshl_b64 v[21:22], v[2:3], v23		; GFX6-NEXT: v_lshl_b64 v[21:22], v[2:3], v23
; GFX6-NEXT: v_lshr_b64 v[8:9], v[8:9], 1		; GFX6-NEXT: v_lshr_b64 v[8:9], v[8:9], 1
; GFX6-NEXT: v_xor_b32_e32 v16, -1, v16		; GFX6-NEXT: v_xor_b32_e32 v16, -1, v16
; GFX6-NEXT: v_or_b32_e32 v21, v17, v21		; GFX6-NEXT: v_or_b32_e32 v21, v17, v21
; GFX6-NEXT: v_lshlrev_b32_e32 v17, 31, v10		; GFX6-NEXT: v_lshlrev_b32_e32 v17, 31, v10
; GFX6-NEXT: v_and_b32_e32 v24, s6, v16		; GFX6-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX6-NEXT: v_lshr_b64 v[10:11], v[10:11], 1		; GFX6-NEXT: v_lshr_b64 v[10:11], v[10:11], 1
; GFX6-NEXT: v_or_b32_e32 v9, v9, v17		; GFX6-NEXT: v_or_b32_e32 v9, v9, v17
; GFX6-NEXT: v_sub_i32_e32 v16, vcc, 64, v24		; GFX6-NEXT: v_sub_i32_e32 v16, vcc, 64, v24
; GFX6-NEXT: v_or_b32_e32 v22, v18, v22		; GFX6-NEXT: v_or_b32_e32 v22, v18, v22
; GFX6-NEXT: v_lshl_b64 v[16:17], v[10:11], v16		; GFX6-NEXT: v_lshl_b64 v[16:17], v[10:11], v16
; GFX6-NEXT: v_lshr_b64 v[18:19], v[8:9], v24		; GFX6-NEXT: v_lshr_b64 v[18:19], v[8:9], v24
; GFX6-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23		; GFX6-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23
; GFX6-NEXT: v_or_b32_e32 v18, v18, v16		; GFX6-NEXT: v_or_b32_e32 v18, v18, v16
Show All 18 Lines
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]		; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]
; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX6-NEXT: v_or_b32_e32 v0, v25, v2		; GFX6-NEXT: v_or_b32_e32 v0, v25, v2
; GFX6-NEXT: v_or_b32_e32 v1, v18, v3		; GFX6-NEXT: v_or_b32_e32 v1, v18, v3
; GFX6-NEXT: v_or_b32_e32 v2, v17, v8		; GFX6-NEXT: v_or_b32_e32 v2, v17, v8
; GFX6-NEXT: v_or_b32_e32 v3, v16, v9		; GFX6-NEXT: v_or_b32_e32 v3, v16, v9
; GFX6-NEXT: v_and_b32_e32 v16, s6, v20		; GFX6-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX6-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX6-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX6-NEXT: v_and_b32_e32 v17, s6, v8		; GFX6-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX6-NEXT: v_sub_i32_e32 v8, vcc, 64, v16		; GFX6-NEXT: v_sub_i32_e32 v8, vcc, 64, v16
; GFX6-NEXT: v_lshr_b64 v[8:9], v[4:5], v8		; GFX6-NEXT: v_lshr_b64 v[8:9], v[4:5], v8
; GFX6-NEXT: v_lshl_b64 v[10:11], v[6:7], v16		; GFX6-NEXT: v_lshl_b64 v[10:11], v[6:7], v16
; GFX6-NEXT: v_subrev_i32_e32 v18, vcc, 64, v16		; GFX6-NEXT: v_subrev_i32_e32 v18, vcc, 64, v16
; GFX6-NEXT: v_or_b32_e32 v10, v8, v10		; GFX6-NEXT: v_or_b32_e32 v10, v8, v10
; GFX6-NEXT: v_or_b32_e32 v11, v9, v11		; GFX6-NEXT: v_or_b32_e32 v11, v9, v11
; GFX6-NEXT: v_lshl_b64 v[8:9], v[4:5], v16		; GFX6-NEXT: v_lshl_b64 v[8:9], v[4:5], v16
; GFX6-NEXT: v_lshl_b64 v[4:5], v[4:5], v18		; GFX6-NEXT: v_lshl_b64 v[4:5], v[4:5], v18
Show All 29 Lines
; GFX6-NEXT: v_or_b32_e32 v5, v19, v5		; GFX6-NEXT: v_or_b32_e32 v5, v19, v5
; GFX6-NEXT: v_or_b32_e32 v6, v16, v6		; GFX6-NEXT: v_or_b32_e32 v6, v16, v6
; GFX6-NEXT: v_or_b32_e32 v7, v20, v7		; GFX6-NEXT: v_or_b32_e32 v7, v20, v7
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshl_v2i128:		; GFX8-LABEL: v_fshl_v2i128:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s6, 0x7f		; GFX8-NEXT: v_and_b32_e32 v23, 0x7f, v16
; GFX8-NEXT: v_and_b32_e32 v23, s6, v16
; GFX8-NEXT: v_sub_u32_e32 v17, vcc, 64, v23		; GFX8-NEXT: v_sub_u32_e32 v17, vcc, 64, v23
; GFX8-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]		; GFX8-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]
; GFX8-NEXT: v_lshrrev_b64 v[8:9], 1, v[8:9]		; GFX8-NEXT: v_lshrrev_b64 v[8:9], 1, v[8:9]
; GFX8-NEXT: v_xor_b32_e32 v16, -1, v16		; GFX8-NEXT: v_xor_b32_e32 v16, -1, v16
; GFX8-NEXT: v_or_b32_e32 v21, v17, v21		; GFX8-NEXT: v_or_b32_e32 v21, v17, v21
; GFX8-NEXT: v_lshlrev_b32_e32 v17, 31, v10		; GFX8-NEXT: v_lshlrev_b32_e32 v17, 31, v10
; GFX8-NEXT: v_and_b32_e32 v24, s6, v16		; GFX8-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX8-NEXT: v_lshrrev_b64 v[10:11], 1, v[10:11]		; GFX8-NEXT: v_lshrrev_b64 v[10:11], 1, v[10:11]
; GFX8-NEXT: v_or_b32_e32 v9, v9, v17		; GFX8-NEXT: v_or_b32_e32 v9, v9, v17
; GFX8-NEXT: v_sub_u32_e32 v16, vcc, 64, v24		; GFX8-NEXT: v_sub_u32_e32 v16, vcc, 64, v24
; GFX8-NEXT: v_or_b32_e32 v22, v18, v22		; GFX8-NEXT: v_or_b32_e32 v22, v18, v22
; GFX8-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]		; GFX8-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]
; GFX8-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]		; GFX8-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]
; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23		; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23
; GFX8-NEXT: v_or_b32_e32 v18, v18, v16		; GFX8-NEXT: v_or_b32_e32 v18, v18, v16
Show All 18 Lines
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX8-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]		; GFX8-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]
; GFX8-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX8-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX8-NEXT: v_or_b32_e32 v0, v25, v2		; GFX8-NEXT: v_or_b32_e32 v0, v25, v2
; GFX8-NEXT: v_or_b32_e32 v1, v18, v3		; GFX8-NEXT: v_or_b32_e32 v1, v18, v3
; GFX8-NEXT: v_or_b32_e32 v2, v17, v8		; GFX8-NEXT: v_or_b32_e32 v2, v17, v8
; GFX8-NEXT: v_or_b32_e32 v3, v16, v9		; GFX8-NEXT: v_or_b32_e32 v3, v16, v9
; GFX8-NEXT: v_and_b32_e32 v16, s6, v20		; GFX8-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX8-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX8-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX8-NEXT: v_and_b32_e32 v17, s6, v8		; GFX8-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX8-NEXT: v_sub_u32_e32 v8, vcc, 64, v16		; GFX8-NEXT: v_sub_u32_e32 v8, vcc, 64, v16
; GFX8-NEXT: v_lshrrev_b64 v[8:9], v8, v[4:5]		; GFX8-NEXT: v_lshrrev_b64 v[8:9], v8, v[4:5]
; GFX8-NEXT: v_lshlrev_b64 v[10:11], v16, v[6:7]		; GFX8-NEXT: v_lshlrev_b64 v[10:11], v16, v[6:7]
; GFX8-NEXT: v_subrev_u32_e32 v18, vcc, 64, v16		; GFX8-NEXT: v_subrev_u32_e32 v18, vcc, 64, v16
; GFX8-NEXT: v_or_b32_e32 v10, v8, v10		; GFX8-NEXT: v_or_b32_e32 v10, v8, v10
; GFX8-NEXT: v_or_b32_e32 v11, v9, v11		; GFX8-NEXT: v_or_b32_e32 v11, v9, v11
; GFX8-NEXT: v_lshlrev_b64 v[8:9], v16, v[4:5]		; GFX8-NEXT: v_lshlrev_b64 v[8:9], v16, v[4:5]
; GFX8-NEXT: v_lshlrev_b64 v[4:5], v18, v[4:5]		; GFX8-NEXT: v_lshlrev_b64 v[4:5], v18, v[4:5]
Show All 29 Lines
; GFX8-NEXT: v_or_b32_e32 v5, v19, v5		; GFX8-NEXT: v_or_b32_e32 v5, v19, v5
; GFX8-NEXT: v_or_b32_e32 v6, v16, v6		; GFX8-NEXT: v_or_b32_e32 v6, v16, v6
; GFX8-NEXT: v_or_b32_e32 v7, v20, v7		; GFX8-NEXT: v_or_b32_e32 v7, v20, v7
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshl_v2i128:		; GFX9-LABEL: v_fshl_v2i128:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s6, 0x7f		; GFX9-NEXT: v_and_b32_e32 v23, 0x7f, v16
; GFX9-NEXT: v_and_b32_e32 v23, s6, v16
; GFX9-NEXT: v_sub_u32_e32 v17, 64, v23		; GFX9-NEXT: v_sub_u32_e32 v17, 64, v23
; GFX9-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]		; GFX9-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]
; GFX9-NEXT: v_lshrrev_b64 v[8:9], 1, v[8:9]		; GFX9-NEXT: v_lshrrev_b64 v[8:9], 1, v[8:9]
; GFX9-NEXT: v_xor_b32_e32 v16, -1, v16		; GFX9-NEXT: v_xor_b32_e32 v16, -1, v16
; GFX9-NEXT: v_or_b32_e32 v21, v17, v21		; GFX9-NEXT: v_or_b32_e32 v21, v17, v21
; GFX9-NEXT: v_lshlrev_b32_e32 v17, 31, v10		; GFX9-NEXT: v_lshlrev_b32_e32 v17, 31, v10
; GFX9-NEXT: v_and_b32_e32 v24, s6, v16		; GFX9-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX9-NEXT: v_lshrrev_b64 v[10:11], 1, v[10:11]		; GFX9-NEXT: v_lshrrev_b64 v[10:11], 1, v[10:11]
; GFX9-NEXT: v_or_b32_e32 v9, v9, v17		; GFX9-NEXT: v_or_b32_e32 v9, v9, v17
; GFX9-NEXT: v_sub_u32_e32 v16, 64, v24		; GFX9-NEXT: v_sub_u32_e32 v16, 64, v24
; GFX9-NEXT: v_or_b32_e32 v22, v18, v22		; GFX9-NEXT: v_or_b32_e32 v22, v18, v22
; GFX9-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]		; GFX9-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]
; GFX9-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]		; GFX9-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]
; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v23		; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v23
; GFX9-NEXT: v_or_b32_e32 v18, v18, v16		; GFX9-NEXT: v_or_b32_e32 v18, v18, v16
Show All 18 Lines
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]		; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, v0, s[4:5]
; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX9-NEXT: v_or_b32_e32 v0, v25, v2		; GFX9-NEXT: v_or_b32_e32 v0, v25, v2
; GFX9-NEXT: v_or_b32_e32 v1, v18, v3		; GFX9-NEXT: v_or_b32_e32 v1, v18, v3
; GFX9-NEXT: v_or_b32_e32 v2, v17, v8		; GFX9-NEXT: v_or_b32_e32 v2, v17, v8
; GFX9-NEXT: v_or_b32_e32 v3, v16, v9		; GFX9-NEXT: v_or_b32_e32 v3, v16, v9
; GFX9-NEXT: v_and_b32_e32 v16, s6, v20		; GFX9-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX9-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX9-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX9-NEXT: v_and_b32_e32 v17, s6, v8		; GFX9-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX9-NEXT: v_sub_u32_e32 v8, 64, v16		; GFX9-NEXT: v_sub_u32_e32 v8, 64, v16
; GFX9-NEXT: v_lshrrev_b64 v[8:9], v8, v[4:5]		; GFX9-NEXT: v_lshrrev_b64 v[8:9], v8, v[4:5]
; GFX9-NEXT: v_lshlrev_b64 v[10:11], v16, v[6:7]		; GFX9-NEXT: v_lshlrev_b64 v[10:11], v16, v[6:7]
; GFX9-NEXT: v_subrev_u32_e32 v18, 64, v16		; GFX9-NEXT: v_subrev_u32_e32 v18, 64, v16
; GFX9-NEXT: v_or_b32_e32 v10, v8, v10		; GFX9-NEXT: v_or_b32_e32 v10, v8, v10
; GFX9-NEXT: v_or_b32_e32 v11, v9, v11		; GFX9-NEXT: v_or_b32_e32 v11, v9, v11
; GFX9-NEXT: v_lshlrev_b64 v[8:9], v16, v[4:5]		; GFX9-NEXT: v_lshlrev_b64 v[8:9], v16, v[4:5]
; GFX9-NEXT: v_lshlrev_b64 v[4:5], v18, v[4:5]		; GFX9-NEXT: v_lshlrev_b64 v[4:5], v18, v[4:5]
▲ Show 20 Lines • Show All 161 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -o - %s \| FileCheck -check-prefixes=GCN,GFX6 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -o - %s \| FileCheck -check-prefixes=GCN,GFX6 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - %s \| FileCheck -check-prefixes=GCN,GFX8 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji -o - %s \| FileCheck -check-prefixes=GCN,GFX8 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - %s \| FileCheck -check-prefixes=GCN,GFX9 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -o - %s \| FileCheck -check-prefixes=GCN,GFX9 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - %s \| FileCheck -check-prefixes=GCN,GFX10 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -o - %s \| FileCheck -check-prefixes=GCN,GFX10 %s

define amdgpu_ps i7 @s_fshr_i7(i7 inreg %lhs, i7 inreg %rhs, i7 inreg %amt) {		define amdgpu_ps i7 @s_fshr_i7(i7 inreg %lhs, i7 inreg %rhs, i7 inreg %amt) {
; GFX6-LABEL: s_fshr_i7:		; GFX6-LABEL: s_fshr_i7:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: s_and_b32 s2, s2, 0x7f		; GFX6-NEXT: s_and_b32 s2, s2, 0x7f
; GFX6-NEXT: s_movk_i32 s3, 0x7f
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
		; GFX6-NEXT: s_and_b32 s1, s1, 0x7f
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: s_and_b32 s1, s1, 0x7f
; GFX6-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX6-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 7, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 6, v0		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 6, v0
; GFX6-NEXT: v_and_b32_e32 v0, s3, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX6-NEXT: v_and_b32_e32 v1, s3, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX6-NEXT: v_lshl_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshl_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshr_b32_e32 v0, s1, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s1, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_i7:		; GFX8-LABEL: s_fshr_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_and_b32 s2, s2, 0x7f		; GFX8-NEXT: s_and_b32 s2, s2, 0x7f
; GFX8-NEXT: s_movk_i32 s3, 0x7f
; GFX8-NEXT: s_lshl_b32 s0, s0, 1		; GFX8-NEXT: s_lshl_b32 s0, s0, 1
		; GFX8-NEXT: s_and_b32 s1, s1, 0x7f
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_and_b32 s1, s1, 0x7f
; GFX8-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX8-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX8-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX8-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 7, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_sub_u16_e32 v1, 6, v0		; GFX8-NEXT: v_sub_u16_e32 v1, 6, v0
; GFX8-NEXT: v_and_b32_e32 v0, s3, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v1, s3, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s0		; GFX8-NEXT: v_lshlrev_b16_e64 v1, v1, s0
; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s1		; GFX8-NEXT: v_lshrrev_b16_e64 v0, v0, s1
; GFX8-NEXT: v_or_b32_e32 v0, v1, v0		; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_fshr_i7:		; GFX9-LABEL: s_fshr_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 7		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_and_b32 s2, s2, 0x7f		; GFX9-NEXT: s_and_b32 s2, s2, 0x7f
; GFX9-NEXT: s_movk_i32 s3, 0x7f
; GFX9-NEXT: s_lshl_b32 s0, s0, 1		; GFX9-NEXT: s_lshl_b32 s0, s0, 1
		; GFX9-NEXT: s_and_b32 s1, s1, 0x7f
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_and_b32 s1, s1, 0x7f
; GFX9-NEXT: v_mul_lo_u32 v1, -7, v0		; GFX9-NEXT: v_mul_lo_u32 v1, -7, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX9-NEXT: v_mul_lo_u32 v0, v0, 7		; GFX9-NEXT: v_mul_lo_u32 v0, v0, 7
; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 7, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_sub_u16_e32 v1, 6, v0		; GFX9-NEXT: v_sub_u16_e32 v1, 6, v0
; GFX9-NEXT: v_and_b32_e32 v0, s3, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v1, s3, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_lshlrev_b16_e64 v1, v1, s0		; GFX9-NEXT: v_lshlrev_b16_e64 v1, v1, s0
; GFX9-NEXT: v_lshrrev_b16_e64 v0, v0, s1		; GFX9-NEXT: v_lshrrev_b16_e64 v0, v0, s1
; GFX9-NEXT: v_or_b32_e32 v0, v1, v0		; GFX9-NEXT: v_or_b32_e32 v0, v1, v0
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_fshr_i7:		; GFX10-LABEL: s_fshr_i7:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
Show All 31 Lines
define i7 @v_fshr_i7(i7 %lhs, i7 %rhs, i7 %amt) {		define i7 @v_fshr_i7(i7 %lhs, i7 %rhs, i7 %amt) {
; GFX6-LABEL: v_fshr_i7:		; GFX6-LABEL: v_fshr_i7:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v3, 7		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v3, 7
; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
		; GFX6-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX6-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX6-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX6-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX6-NEXT: v_and_b32_e32 v1, v1, v4
; GFX6-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX6-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 7, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 6, v2		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 6, v2
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX6-NEXT: v_and_b32_e32 v3, v3, v4		; GFX6-NEXT: v_and_b32_e32 v3, 0x7f, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_i7:		; GFX8-LABEL: v_fshr_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 7		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 7
; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 1, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 1, v0
		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX8-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX8-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4		; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4
; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4
; GFX8-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX8-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 7, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_sub_u16_e32 v3, 6, v2		; GFX8-NEXT: v_sub_u16_e32 v3, 6, v2
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX8-NEXT: v_and_b32_e32 v3, v3, v4		; GFX8-NEXT: v_and_b32_e32 v3, 0x7f, v3
; GFX8-NEXT: v_lshlrev_b16_e32 v0, v3, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, v3, v0
; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1		; GFX8-NEXT: v_lshrrev_b16_e32 v1, v2, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_i7:		; GFX9-LABEL: v_fshr_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 7		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX9-NEXT: v_mul_lo_u32 v4, -7, v3		; GFX9-NEXT: v_mul_lo_u32 v4, -7, v3
; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX9-NEXT: v_add_u32_e32 v3, v3, v4		; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0x7f
; GFX9-NEXT: v_and_b32_e32 v1, v1, v4
; GFX9-NEXT: v_mul_lo_u32 v3, v3, 7		; GFX9-NEXT: v_mul_lo_u32 v3, v3, 7
; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3		; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3
; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 7, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_sub_u16_e32 v3, 6, v2		; GFX9-NEXT: v_sub_u16_e32 v3, 6, v2
; GFX9-NEXT: v_and_b32_e32 v2, v2, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0x7f, v2
; GFX9-NEXT: v_and_b32_e32 v3, v3, v4		; GFX9-NEXT: v_and_b32_e32 v3, 0x7f, v3
; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1		; GFX9-NEXT: v_lshrrev_b16_e32 v1, v2, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_i7:		; GFX10-LABEL: v_fshr_i7:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 410 Lines • ▼ Show 20 Lines
; GFX6-LABEL: v_fshr_v2i8:		; GFX6-LABEL: v_fshr_v2i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 8, v2
; GFX6-NEXT: v_and_b32_e32 v5, 7, v2		; GFX6-NEXT: v_and_b32_e32 v5, 7, v2
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX6-NEXT: v_and_b32_e32 v2, 7, v2		; GFX6-NEXT: v_and_b32_e32 v2, 7, v2
; GFX6-NEXT: s_movk_i32 s4, 0xff
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s4, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v5, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v5, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v2, 7, v4		; GFX6-NEXT: v_and_b32_e32 v2, 7, v4
; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX6-NEXT: v_and_b32_e32 v4, 7, v4		; GFX6-NEXT: v_and_b32_e32 v4, 7, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3
; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8		; GFX6-NEXT: v_bfe_u32 v1, v1, 8, 8
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v4, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v4, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v1, v3, v1		; GFX6-NEXT: v_or_b32_e32 v1, v3, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i8:		; GFX8-LABEL: v_fshr_v2i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
; GFX6-NEXT: v_lshrrev_b32_e32 v9, 24, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v9, 24, v2
; GFX6-NEXT: v_and_b32_e32 v10, 7, v2		; GFX6-NEXT: v_and_b32_e32 v10, 7, v2
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v5, 24, v0
; GFX6-NEXT: v_and_b32_e32 v2, 7, v2		; GFX6-NEXT: v_and_b32_e32 v2, 7, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_and_b32_e32 v11, 0xff, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v10, v10, v11		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v10		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v10, v2
; GFX6-NEXT: v_and_b32_e32 v10, 7, v7		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
		; GFX6-NEXT: v_and_b32_e32 v2, 7, v7
; GFX6-NEXT: v_xor_b32_e32 v7, -1, v7		; GFX6-NEXT: v_xor_b32_e32 v7, -1, v7
; GFX6-NEXT: v_and_b32_e32 v7, 7, v7		; GFX6-NEXT: v_and_b32_e32 v7, 7, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 1, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v7, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v7, v3
; GFX6-NEXT: v_bfe_u32 v7, v1, 8, 8		; GFX6-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX6-NEXT: v_lshrrev_b32_e32 v7, v10, v7		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v7
; GFX6-NEXT: v_or_b32_e32 v3, v3, v7		; GFX6-NEXT: v_xor_b32_e32 v7, -1, v8
; GFX6-NEXT: v_and_b32_e32 v7, 7, v8
; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX6-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v6, 24, v1
; GFX6-NEXT: v_and_b32_e32 v8, 7, v8		; GFX6-NEXT: v_or_b32_e32 v2, v3, v2
		; GFX6-NEXT: v_and_b32_e32 v3, 7, v8
		; GFX6-NEXT: v_and_b32_e32 v7, 7, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v4, 1, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v4, 1, v4
; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX6-NEXT: v_mov_b32_e32 v2, 0xff		; GFX6-NEXT: v_lshlrev_b32_e32 v4, v7, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v4, v8, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v3, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v7, v1
; GFX6-NEXT: v_xor_b32_e32 v7, -1, v9
; GFX6-NEXT: v_or_b32_e32 v1, v4, v1		; GFX6-NEXT: v_or_b32_e32 v1, v4, v1
; GFX6-NEXT: v_and_b32_e32 v4, 7, v9		; GFX6-NEXT: v_xor_b32_e32 v4, -1, v9
; GFX6-NEXT: v_and_b32_e32 v7, 7, v7		; GFX6-NEXT: v_and_b32_e32 v3, 7, v9
		; GFX6-NEXT: v_and_b32_e32 v4, 7, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v5, 1, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v5, 1, v5
; GFX6-NEXT: v_and_b32_e32 v3, v3, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v5, v7, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v4, v4, v5
; GFX6-NEXT: v_lshrrev_b32_e32 v4, v4, v6		; GFX6-NEXT: v_lshrrev_b32_e32 v3, v3, v6
; GFX6-NEXT: v_and_b32_e32 v0, v0, v2		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; GFX6-NEXT: v_and_b32_e32 v1, v1, v2		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_or_b32_e32 v4, v5, v4		; GFX6-NEXT: v_or_b32_e32 v3, v4, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v3		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, v4, v2		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v4i8:		; GFX8-LABEL: v_fshr_v4i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v5, 8, v2
Show All 28 Lines
; GFX8-NEXT: v_and_b32_e32 v5, 7, v7		; GFX8-NEXT: v_and_b32_e32 v5, 7, v7
; GFX8-NEXT: v_xor_b32_e32 v7, -1, v7		; GFX8-NEXT: v_xor_b32_e32 v7, -1, v7
; GFX8-NEXT: v_and_b32_e32 v7, 7, v7		; GFX8-NEXT: v_and_b32_e32 v7, 7, v7
; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX8-NEXT: v_lshlrev_b16_e32 v0, v7, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, v7, v0
; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX8-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: v_mov_b32_e32 v1, 8		; GFX8-NEXT: v_mov_b32_e32 v1, 8
; GFX8-NEXT: s_movk_i32 s4, 0xff
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v2, s4, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v4
; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_or_b32_e32 v1, v1, v2		; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX8-NEXT: v_or_b32_e32 v0, v1, v0		; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v4i8:		; GFX9-LABEL: v_fshr_v4i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 32 Lines
; GFX9-NEXT: v_lshlrev_b16_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_lshlrev_b16_sdwa v0, v6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_lshlrev_b16_e32 v0, v7, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, v7, v0
; GFX9-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3		; GFX9-NEXT: v_lshrrev_b16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_3
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 8		; GFX9-NEXT: v_mov_b32_e32 v1, 8
; GFX9-NEXT: s_movk_i32 s4, 0xff		; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0		; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
; GFX9-NEXT: v_and_or_b32 v1, v2, s4, v1		; GFX9-NEXT: v_and_or_b32 v1, v2, s4, v1
; GFX9-NEXT: v_and_b32_e32 v2, s4, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v4
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0		; GFX9-NEXT: v_or3_b32 v0, v1, v2, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_v4i8:		; GFX10-LABEL: v_fshr_v4i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines

define amdgpu_ps i24 @s_fshr_i24(i24 inreg %lhs, i24 inreg %rhs, i24 inreg %amt) {		define amdgpu_ps i24 @s_fshr_i24(i24 inreg %lhs, i24 inreg %rhs, i24 inreg %amt) {
; GFX6-LABEL: s_fshr_i24:		; GFX6-LABEL: s_fshr_i24:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX6-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX6-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX6-NEXT: s_mov_b32 s3, 0xffffff		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: s_lshl_b32 s0, s0, 1
; GFX6-NEXT: s_and_b32 s1, s1, 0xffffff		; GFX6-NEXT: s_and_b32 s1, s1, 0xffffff
; GFX6-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX6-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s2, v0
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 23, v0		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, 23, v0
; GFX6-NEXT: v_and_b32_e32 v0, s3, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX6-NEXT: v_and_b32_e32 v1, s3, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX6-NEXT: v_lshl_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshl_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshr_b32_e32 v0, s1, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s1, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: s_fshr_i24:		; GFX8-LABEL: s_fshr_i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX8-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX8-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX8-NEXT: s_mov_b32 s3, 0xffffff		; GFX8-NEXT: s_lshl_b32 s0, s0, 1
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_lshl_b32 s0, s0, 1
; GFX8-NEXT: s_and_b32 s1, s1, 0xffffff		; GFX8-NEXT: s_and_b32 s1, s1, 0xffffff
; GFX8-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX8-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX8-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX8-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, 24, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_sub_u32_e32 v1, vcc, 23, v0		; GFX8-NEXT: v_sub_u32_e32 v1, vcc, 23, v0
; GFX8-NEXT: v_and_b32_e32 v0, s3, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX8-NEXT: v_and_b32_e32 v1, s3, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v1, v1, s0
; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s1		; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s1
; GFX8-NEXT: v_or_b32_e32 v0, v1, v0		; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: s_fshr_i24:		; GFX9-LABEL: s_fshr_i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX9-NEXT: s_and_b32 s2, s2, 0xffffff		; GFX9-NEXT: s_and_b32 s2, s2, 0xffffff
; GFX9-NEXT: s_mov_b32 s3, 0xffffff		; GFX9-NEXT: s_and_b32 s1, s1, 0xffffff
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: s_and_b32 s1, s1, 0xffffff
; GFX9-NEXT: s_lshl_b32 s0, s0, 1		; GFX9-NEXT: s_lshl_b32 s0, s0, 1
; GFX9-NEXT: v_mul_lo_u32 v1, v1, v0		; GFX9-NEXT: v_mul_lo_u32 v1, v1, v0
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s2, v0
; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX9-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0		; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v1, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_sub_u32_e32 v1, 23, v0		; GFX9-NEXT: v_sub_u32_e32 v1, 23, v0
; GFX9-NEXT: v_and_b32_e32 v0, s3, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX9-NEXT: v_and_b32_e32 v1, s3, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s1		; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, v1, v0		; GFX9-NEXT: v_lshl_or_b32 v0, s0, v1, v0
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: s_fshr_i24:		; GFX10-LABEL: s_fshr_i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX10-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
Show All 32 Lines
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v3, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v3, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffffe8
; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
		; GFX6-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX6-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX6-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4		; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX6-NEXT: v_and_b32_e32 v1, v1, v4
; GFX6-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX6-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v2		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v2
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_and_b32_e32 v3, v3, v4		; GFX6-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v3, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_i24:		; GFX8-LABEL: v_fshr_i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v3, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffffe8
; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
		; GFX8-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX8-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX8-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX8-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4		; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v4
; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4
; GFX8-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX8-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v2, v3
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v2		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v2
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_and_b32_e32 v3, v3, v4		; GFX8-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX8-NEXT: v_lshlrev_b32_e32 v0, v3, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, v3, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX8-NEXT: v_or_b32_e32 v0, v0, v1		; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_i24:		; GFX9-LABEL: v_fshr_i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v3, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffffe8
; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3		; GFX9-NEXT: v_mul_lo_u32 v4, v4, v3
; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4		; GFX9-NEXT: v_mul_hi_u32 v4, v3, v4
; GFX9-NEXT: v_add_u32_e32 v3, v3, v4		; GFX9-NEXT: v_add_u32_e32 v3, v3, v4
; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX9-NEXT: v_and_b32_e32 v1, v1, v4
; GFX9-NEXT: v_mul_lo_u32 v3, v3, 24		; GFX9-NEXT: v_mul_lo_u32 v3, v3, 24
; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3		; GFX9-NEXT: v_sub_u32_e32 v2, v2, v3
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v2		; GFX9-NEXT: v_sub_u32_e32 v3, 23, v2
; GFX9-NEXT: v_and_b32_e32 v2, v2, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_and_b32_e32 v3, v3, v4		; GFX9-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX9-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX9-NEXT: v_lshl_or_b32 v0, v0, v3, v1		; GFX9-NEXT: v_lshl_or_b32 v0, v0, v3, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_i24:		; GFX10-LABEL: v_fshr_i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
Show All 31 Lines
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v0, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX6-NEXT: s_lshr_b32 s6, s0, 16		; GFX6-NEXT: s_lshr_b32 s6, s0, 16
; GFX6-NEXT: s_lshr_b32 s7, s0, 24		; GFX6-NEXT: s_lshr_b32 s7, s0, 24
; GFX6-NEXT: s_lshr_b32 s8, s1, 8		; GFX6-NEXT: s_lshr_b32 s8, s1, 8
; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX6-NEXT: s_and_b32 s10, s0, 0xff		; GFX6-NEXT: s_and_b32 s9, s0, 0xff
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x80008		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x80008
; GFX6-NEXT: s_and_b32 s1, s1, 0xff		; GFX6-NEXT: s_and_b32 s1, s1, 0xff
; GFX6-NEXT: s_lshl_b32 s0, s0, 8		; GFX6-NEXT: s_lshl_b32 s0, s0, 8
; GFX6-NEXT: s_lshl_b32 s1, s1, 8		; GFX6-NEXT: s_lshl_b32 s1, s1, 8
; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v1, 0xffffffe8
; GFX6-NEXT: s_or_b32 s0, s10, s0		; GFX6-NEXT: s_or_b32 s0, s9, s0
; GFX6-NEXT: s_or_b32 s1, s7, s1		; GFX6-NEXT: s_or_b32 s1, s7, s1
; GFX6-NEXT: s_and_b32 s7, s8, 0xff		; GFX6-NEXT: s_and_b32 s7, s8, 0xff
; GFX6-NEXT: s_lshr_b32 s8, s2, 16		; GFX6-NEXT: s_lshr_b32 s8, s2, 16
; GFX6-NEXT: s_lshr_b32 s10, s2, 24		; GFX6-NEXT: s_lshr_b32 s9, s2, 24
; GFX6-NEXT: s_and_b32 s12, s2, 0xff		; GFX6-NEXT: s_and_b32 s11, s2, 0xff
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x80008		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x80008
; GFX6-NEXT: v_mul_lo_u32 v2, v1, v0		; GFX6-NEXT: v_mul_lo_u32 v2, v1, v0
; GFX6-NEXT: s_lshl_b32 s2, s2, 8		; GFX6-NEXT: s_lshl_b32 s2, s2, 8
; GFX6-NEXT: s_and_b32 s8, s8, 0xff		; GFX6-NEXT: s_and_b32 s8, s8, 0xff
; GFX6-NEXT: s_or_b32 s2, s12, s2		; GFX6-NEXT: s_or_b32 s2, s11, s2
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: s_lshr_b32 s11, s3, 8		; GFX6-NEXT: s_lshr_b32 s10, s3, 8
; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000		; GFX6-NEXT: s_bfe_u32 s2, s2, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_and_b32 s3, s3, 0xff		; GFX6-NEXT: s_and_b32 s3, s3, 0xff
; GFX6-NEXT: s_or_b32 s2, s2, s8		; GFX6-NEXT: s_or_b32 s2, s2, s8
; GFX6-NEXT: s_lshl_b32 s3, s3, 8		; GFX6-NEXT: s_lshl_b32 s3, s3, 8
; GFX6-NEXT: s_and_b32 s8, s11, 0xff		; GFX6-NEXT: s_and_b32 s8, s10, 0xff
; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX6-NEXT: s_or_b32 s3, s10, s3		; GFX6-NEXT: s_or_b32 s3, s9, s3
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000		; GFX6-NEXT: s_bfe_u32 s3, s3, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_or_b32 s3, s3, s8		; GFX6-NEXT: s_or_b32 s3, s3, s8
; GFX6-NEXT: s_lshr_b32 s8, s4, 16		; GFX6-NEXT: s_lshr_b32 s8, s4, 16
; GFX6-NEXT: s_lshr_b32 s10, s4, 24		; GFX6-NEXT: s_lshr_b32 s9, s4, 24
; GFX6-NEXT: s_and_b32 s12, s4, 0xff		; GFX6-NEXT: s_and_b32 s11, s4, 0xff
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x80008		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x80008
; GFX6-NEXT: s_lshl_b32 s4, s4, 8		; GFX6-NEXT: s_lshl_b32 s4, s4, 8
; GFX6-NEXT: s_and_b32 s8, s8, 0xff		; GFX6-NEXT: s_and_b32 s8, s8, 0xff
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v2, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v2, 24
; GFX6-NEXT: s_or_b32 s4, s12, s4		; GFX6-NEXT: s_or_b32 s4, s11, s4
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, s4, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: s_or_b32 s4, s4, s8		; GFX6-NEXT: s_or_b32 s4, s4, s8
; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0		; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2		; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
; GFX6-NEXT: s_lshr_b32 s11, s5, 8		; GFX6-NEXT: s_lshr_b32 s10, s5, 8
; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24		; GFX6-NEXT: v_mul_lo_u32 v0, v0, 24
; GFX6-NEXT: s_and_b32 s5, s5, 0xff		; GFX6-NEXT: s_and_b32 s5, s5, 0xff
; GFX6-NEXT: v_mul_lo_u32 v1, v1, v2		; GFX6-NEXT: v_mul_lo_u32 v1, v1, v2
; GFX6-NEXT: s_lshl_b32 s5, s5, 8		; GFX6-NEXT: s_lshl_b32 s5, s5, 8
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: v_mul_hi_u32 v1, v2, v1		; GFX6-NEXT: v_mul_hi_u32 v1, v2, v1
; GFX6-NEXT: s_and_b32 s8, s11, 0xff		; GFX6-NEXT: s_and_b32 s8, s10, 0xff
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX6-NEXT: s_or_b32 s5, s10, s5		; GFX6-NEXT: s_or_b32 s5, s9, s5
; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000		; GFX6-NEXT: s_bfe_u32 s8, s8, 0x100000
; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0		; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, 24, v0
; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, s5, 0x100000
; GFX6-NEXT: s_lshl_b32 s8, s8, 16		; GFX6-NEXT: s_lshl_b32 s8, s8, 16
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX6-NEXT: s_or_b32 s5, s5, s8		; GFX6-NEXT: s_or_b32 s5, s5, s8
; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX6-NEXT: s_and_b32 s6, s6, 0xff		; GFX6-NEXT: s_and_b32 s6, s6, 0xff
; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX6-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX6-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX6-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX6-NEXT: s_mov_b32 s8, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0		; GFX6-NEXT: v_sub_i32_e32 v3, vcc, 23, v0
; GFX6-NEXT: s_lshl_b32 s4, s6, 17		; GFX6-NEXT: s_lshl_b32 s4, s6, 17
; GFX6-NEXT: s_lshl_b32 s0, s0, 1		; GFX6-NEXT: s_lshl_b32 s0, s0, 1
; GFX6-NEXT: s_or_b32 s0, s4, s0		; GFX6-NEXT: s_or_b32 s0, s4, s0
; GFX6-NEXT: v_and_b32_e32 v2, s8, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX6-NEXT: v_and_b32_e32 v0, s8, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: v_lshr_b32_e32 v0, s2, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s2, v0
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1		; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, 24, v1
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX6-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX6-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, 23, v1
; GFX6-NEXT: s_lshl_b32 s0, s7, 17		; GFX6-NEXT: s_lshl_b32 s0, s7, 17
; GFX6-NEXT: s_lshl_b32 s1, s1, 1		; GFX6-NEXT: s_lshl_b32 s1, s1, 1
; GFX6-NEXT: s_or_b32 s0, s0, s1		; GFX6-NEXT: s_or_b32 s0, s0, s1
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_and_b32_e32 v1, v1, v4		; GFX6-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX6-NEXT: s_movk_i32 s9, 0xff
; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2		; GFX6-NEXT: v_lshl_b32_e32 v2, s0, v2
; GFX6-NEXT: v_lshr_b32_e32 v1, s3, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s3, v1
; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX6-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_and_b32_e32 v2, s9, v0		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX6-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX6-NEXT: v_or_b32_e32 v0, v2, v0		; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s9, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xff, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8		; GFX6-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX6-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_readfirstlane_b32 s0, v0		; GFX6-NEXT: v_readfirstlane_b32 s0, v0
; GFX6-NEXT: v_readfirstlane_b32 s1, v1		; GFX6-NEXT: v_readfirstlane_b32 s1, v1
▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_lshl_b32 s8, s8, 16		; GFX8-NEXT: s_lshl_b32 s8, s8, 16
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX8-NEXT: s_or_b32 s5, s5, s8		; GFX8-NEXT: s_or_b32 s5, s5, s8
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v2, v1		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v2, v1
; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1
; GFX8-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX8-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX8-NEXT: s_bfe_u32 s6, s6, 0x100000		; GFX8-NEXT: s_bfe_u32 s6, s6, 0x100000
; GFX8-NEXT: s_mov_b32 s8, 0xffffff
; GFX8-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v0		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, 23, v0
		; GFX8-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX8-NEXT: s_lshl_b32 s4, s6, 17		; GFX8-NEXT: s_lshl_b32 s4, s6, 17
; GFX8-NEXT: s_lshl_b32 s0, s0, 1		; GFX8-NEXT: s_lshl_b32 s0, s0, 1
; GFX8-NEXT: s_or_b32 s0, s4, s0		; GFX8-NEXT: s_or_b32 s0, s4, s0
; GFX8-NEXT: v_and_b32_e32 v2, s8, v3		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX8-NEXT: v_and_b32_e32 v0, s8, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s2		; GFX8-NEXT: v_lshrrev_b32_e64 v0, v0, s2
; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1		; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
; GFX8-NEXT: v_or_b32_e32 v0, v2, v0		; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, 24, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX8-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX8-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX8-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX8-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX8-NEXT: v_mov_b32_e32 v4, 0xffffff
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, 23, v1
; GFX8-NEXT: s_lshl_b32 s0, s7, 17		; GFX8-NEXT: s_lshl_b32 s0, s7, 17
; GFX8-NEXT: s_lshl_b32 s1, s1, 1		; GFX8-NEXT: s_lshl_b32 s1, s1, 1
; GFX8-NEXT: s_or_b32 s0, s0, s1		; GFX8-NEXT: s_or_b32 s0, s0, s1
; GFX8-NEXT: v_and_b32_e32 v2, v2, v4		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_and_b32_e32 v1, v1, v4		; GFX8-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0		; GFX8-NEXT: v_lshlrev_b32_e64 v2, v2, s0
; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s3		; GFX8-NEXT: v_lshrrev_b32_e64 v1, v1, s3
; GFX8-NEXT: v_or_b32_e32 v1, v2, v1		; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
; GFX8-NEXT: v_mov_b32_e32 v2, 8		; GFX8-NEXT: v_mov_b32_e32 v2, 8
; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX8-NEXT: v_lshlrev_b32_sdwa v3, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX8-NEXT: v_mov_b32_e32 v4, 16		; GFX8-NEXT: v_mov_b32_e32 v4, 16
; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v3, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24		; GFX9-NEXT: v_mul_lo_u32 v1, v1, 24
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0		; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v0
; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x100000
; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000		; GFX9-NEXT: s_bfe_u32 s7, s7, 0x100000
; GFX9-NEXT: s_mov_b32 s10, 0xffffff
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v0		; GFX9-NEXT: v_sub_u32_e32 v3, 23, v0
; GFX9-NEXT: s_lshl_b32 s4, s7, 17		; GFX9-NEXT: s_lshl_b32 s4, s7, 17
; GFX9-NEXT: s_lshl_b32 s0, s0, 1		; GFX9-NEXT: s_lshl_b32 s0, s0, 1
; GFX9-NEXT: v_and_b32_e32 v0, s10, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GFX9-NEXT: s_or_b32 s0, s4, s0		; GFX9-NEXT: s_or_b32 s0, s4, s0
; GFX9-NEXT: v_and_b32_e32 v3, s10, v3		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v3
; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s2		; GFX9-NEXT: v_lshrrev_b32_e64 v0, v0, s2
; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
; GFX9-NEXT: v_lshl_or_b32 v0, s0, v3, v0		; GFX9-NEXT: v_lshl_or_b32 v0, s0, v2, v0
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, 24, v1		; GFX9-NEXT: v_subrev_u32_e32 v2, 24, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v1
; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000		; GFX9-NEXT: s_bfe_u32 s1, s1, 0x100000
; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000		; GFX9-NEXT: s_bfe_u32 s9, s9, 0x100000
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffffff		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_sub_u32_e32 v2, 23, v1
; GFX9-NEXT: v_sub_u32_e32 v3, 23, v1
; GFX9-NEXT: s_lshl_b32 s0, s9, 17		; GFX9-NEXT: s_lshl_b32 s0, s9, 17
; GFX9-NEXT: s_lshl_b32 s1, s1, 1		; GFX9-NEXT: s_lshl_b32 s1, s1, 1
; GFX9-NEXT: v_and_b32_e32 v1, v1, v2		; GFX9-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GFX9-NEXT: s_or_b32 s0, s0, s1		; GFX9-NEXT: s_or_b32 s0, s0, s1
; GFX9-NEXT: v_and_b32_e32 v3, v3, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s3		; GFX9-NEXT: v_lshrrev_b32_e64 v1, v1, s3
; GFX9-NEXT: s_mov_b32 s6, 8		; GFX9-NEXT: s_mov_b32 s6, 8
; GFX9-NEXT: v_lshl_or_b32 v1, s0, v3, v1		; GFX9-NEXT: v_lshl_or_b32 v1, s0, v2, v1
; GFX9-NEXT: s_movk_i32 s0, 0xff
; GFX9-NEXT: s_mov_b32 s8, 16		; GFX9-NEXT: s_mov_b32 s8, 16
		; GFX9-NEXT: s_movk_i32 s0, 0xff
; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1		; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s6, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
; GFX9-NEXT: v_and_b32_e32 v3, s0, v1		; GFX9-NEXT: v_and_b32_e32 v3, 0xff, v1
; GFX9-NEXT: v_and_or_b32 v2, v0, s0, v2		; GFX9-NEXT: v_and_or_b32 v2, v0, s0, v2
; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2		; GFX9-NEXT: v_lshlrev_b32_sdwa v0, s8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3		; GFX9-NEXT: v_or3_b32 v0, v2, v0, v3
; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8		; GFX9-NEXT: v_bfe_u32 v2, v1, 8, 8
; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX9-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2		; GFX9-NEXT: v_lshl_or_b32 v1, v1, 8, v2
; GFX9-NEXT: v_readfirstlane_b32 s0, v0		; GFX9-NEXT: v_readfirstlane_b32 s0, v0
▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX6-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX6-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX6-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX6-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX6-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v6
		; GFX6-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 1, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX6-NEXT: v_mul_lo_u32 v8, v7, v6
		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 1, v1
		; GFX6-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX6-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX6-NEXT: v_mul_hi_u32 v8, v6, v8
; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; GFX6-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX6-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v9		; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v9
; GFX6-NEXT: v_mov_b32_e32 v9, 0xffffff
; GFX6-NEXT: v_and_b32_e32 v5, v5, v9
; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX6-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8		; GFX6-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
; GFX6-NEXT: v_cvt_u32_f32_e32 v8, v8		; GFX6-NEXT: v_cvt_u32_f32_e32 v8, v8
; GFX6-NEXT: v_and_b32_e32 v2, v2, v9
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6
; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4		; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4		; GFX6-NEXT: v_subrev_i32_e32 v6, vcc, 24, v4
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX6-NEXT: v_mul_lo_u32 v6, v7, v8		; GFX6-NEXT: v_mul_lo_u32 v6, v7, v8
; GFX6-NEXT: v_sub_i32_e32 v7, vcc, 23, v4		; GFX6-NEXT: v_sub_i32_e32 v7, vcc, 23, v4
; GFX6-NEXT: v_and_b32_e32 v7, v7, v9		; GFX6-NEXT: v_and_b32_e32 v7, 0xffffff, v7
; GFX6-NEXT: v_mul_hi_u32 v6, v8, v6		; GFX6-NEXT: v_mul_hi_u32 v6, v8, v6
; GFX6-NEXT: v_and_b32_e32 v4, v4, v9		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v7, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v7, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX6-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; GFX6-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; GFX6-NEXT: v_mul_hi_u32 v6, v5, v6		; GFX6-NEXT: v_mul_hi_u32 v6, v5, v6
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_and_b32_e32 v3, v3, v9
; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX6-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v5, v6		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v5, v6
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2		; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, 24, v2
; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX6-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 23, v2		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 23, v2
; GFX6-NEXT: v_and_b32_e32 v4, v4, v9		; GFX6-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX6-NEXT: v_and_b32_e32 v2, v2, v9		; GFX6-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v4, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v4, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v2, v3
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i24:		; GFX8-LABEL: v_fshr_v2i24:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX8-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX8-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX8-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6
		; GFX8-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX8-NEXT: v_lshlrev_b32_e32 v1, 1, v1		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX8-NEXT: v_mul_lo_u32 v8, v7, v6
		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 1, v1
		; GFX8-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX8-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX8-NEXT: v_mul_hi_u32 v8, v6, v8
; GFX8-NEXT: v_add_u32_e32 v6, vcc, v6, v8		; GFX8-NEXT: v_add_u32_e32 v6, vcc, v6, v8
; GFX8-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX8-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX8-NEXT: v_rcp_iflag_f32_e32 v8, v9		; GFX8-NEXT: v_rcp_iflag_f32_e32 v8, v9
; GFX8-NEXT: v_mov_b32_e32 v9, 0xffffff
; GFX8-NEXT: v_and_b32_e32 v5, v5, v9
; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX8-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8		; GFX8-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
; GFX8-NEXT: v_cvt_u32_f32_e32 v8, v8		; GFX8-NEXT: v_cvt_u32_f32_e32 v8, v8
; GFX8-NEXT: v_and_b32_e32 v2, v2, v9
; GFX8-NEXT: v_sub_u32_e32 v4, vcc, v4, v6		; GFX8-NEXT: v_sub_u32_e32 v4, vcc, v4, v6
; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4		; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4		; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, 24, v4
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX8-NEXT: v_mul_lo_u32 v6, v7, v8		; GFX8-NEXT: v_mul_lo_u32 v6, v7, v8
; GFX8-NEXT: v_sub_u32_e32 v7, vcc, 23, v4		; GFX8-NEXT: v_sub_u32_e32 v7, vcc, 23, v4
; GFX8-NEXT: v_and_b32_e32 v7, v7, v9		; GFX8-NEXT: v_and_b32_e32 v7, 0xffffff, v7
; GFX8-NEXT: v_mul_hi_u32 v6, v8, v6		; GFX8-NEXT: v_mul_hi_u32 v6, v8, v6
; GFX8-NEXT: v_and_b32_e32 v4, v4, v9		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX8-NEXT: v_lshlrev_b32_e32 v0, v7, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, v7, v0
; GFX8-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX8-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX8-NEXT: v_add_u32_e32 v6, vcc, v8, v6		; GFX8-NEXT: v_add_u32_e32 v6, vcc, v8, v6
; GFX8-NEXT: v_mul_hi_u32 v6, v5, v6		; GFX8-NEXT: v_mul_hi_u32 v6, v5, v6
; GFX8-NEXT: v_or_b32_e32 v0, v0, v2		; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
; GFX8-NEXT: v_and_b32_e32 v3, v3, v9
; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24		; GFX8-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v5, v6		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, v5, v6
; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2		; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, 24, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 23, v2		; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 23, v2
; GFX8-NEXT: v_and_b32_e32 v4, v4, v9		; GFX8-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX8-NEXT: v_and_b32_e32 v2, v2, v9		; GFX8-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX8-NEXT: v_lshlrev_b32_e32 v1, v4, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v1, v4, v1
; GFX8-NEXT: v_lshrrev_b32_e32 v2, v2, v3		; GFX8-NEXT: v_lshrrev_b32_e32 v2, v2, v3
; GFX8-NEXT: v_or_b32_e32 v1, v1, v2		; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v2i24:		; GFX9-LABEL: v_fshr_v2i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v6, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v6, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v9, 24		; GFX9-NEXT: v_cvt_f32_ubyte0_e32 v9, 24
; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v9		; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v9
; GFX9-NEXT: v_mov_b32_e32 v7, 0xffffffe8		; GFX9-NEXT: v_mov_b32_e32 v7, 0xffffffe8
; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6		; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6
; GFX9-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v9		; GFX9-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v9
; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v9		; GFX9-NEXT: v_cvt_u32_f32_e32 v9, v9
; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_mul_lo_u32 v8, v7, v6		; GFX9-NEXT: v_mul_lo_u32 v8, v7, v6
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0		; GFX9-NEXT: v_and_b32_e32 v5, 0xffffff, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v9		; GFX9-NEXT: v_mul_lo_u32 v7, v7, v9
; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v1		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_mul_hi_u32 v8, v6, v8		; GFX9-NEXT: v_mul_hi_u32 v8, v6, v8
		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0
; GFX9-NEXT: v_mul_hi_u32 v7, v9, v7		; GFX9-NEXT: v_mul_hi_u32 v7, v9, v7
		; GFX9-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GFX9-NEXT: v_add_u32_e32 v6, v6, v8		; GFX9-NEXT: v_add_u32_e32 v6, v6, v8
; GFX9-NEXT: v_mul_hi_u32 v6, v4, v6		; GFX9-NEXT: v_mul_hi_u32 v6, v4, v6
; GFX9-NEXT: v_mov_b32_e32 v8, 0xffffff
; GFX9-NEXT: v_and_b32_e32 v5, v5, v8
; GFX9-NEXT: v_add_u32_e32 v7, v9, v7		; GFX9-NEXT: v_add_u32_e32 v7, v9, v7
; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
; GFX9-NEXT: v_mul_hi_u32 v7, v5, v7		; GFX9-NEXT: v_mul_hi_u32 v7, v5, v7
; GFX9-NEXT: v_and_b32_e32 v2, v2, v8		; GFX9-NEXT: v_lshlrev_b32_e32 v1, 1, v1
; GFX9-NEXT: v_and_b32_e32 v3, v3, v8		; GFX9-NEXT: v_mul_lo_u32 v6, v6, 24
		; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24
; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6		; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6
; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4		; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4		; GFX9-NEXT: v_subrev_u32_e32 v6, 24, v4
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v4
; GFX9-NEXT: v_mul_lo_u32 v7, v7, 24
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc
; GFX9-NEXT: v_sub_u32_e32 v6, 23, v4		; GFX9-NEXT: v_sub_u32_e32 v6, 23, v4
; GFX9-NEXT: v_and_b32_e32 v4, v4, v8		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_and_b32_e32 v6, v6, v8		; GFX9-NEXT: v_and_b32_e32 v6, 0xffffff, v6
; GFX9-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX9-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX9-NEXT: v_lshl_or_b32 v0, v0, v6, v2		; GFX9-NEXT: v_lshl_or_b32 v0, v0, v6, v2
; GFX9-NEXT: v_sub_u32_e32 v2, v5, v7		; GFX9-NEXT: v_sub_u32_e32 v2, v5, v7
; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, 24, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, 24, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_sub_u32_e32 v4, 23, v2		; GFX9-NEXT: v_sub_u32_e32 v4, 23, v2
; GFX9-NEXT: v_and_b32_e32 v2, v2, v8		; GFX9-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GFX9-NEXT: v_and_b32_e32 v4, v4, v8		; GFX9-NEXT: v_and_b32_e32 v4, 0xffffff, v4
; GFX9-NEXT: v_lshrrev_b32_e32 v2, v2, v3		; GFX9-NEXT: v_lshrrev_b32_e32 v2, v2, v3
; GFX9-NEXT: v_lshl_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_lshl_or_b32 v1, v1, v4, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_v2i24:		; GFX10-LABEL: v_fshr_v2i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
▲ Show 20 Lines • Show All 1,071 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_mov_b32_e32 v1, 16		; GFX8-NEXT: v_mov_b32_e32 v1, 16
; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v2i16:		; GFX9-LABEL: v_fshr_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0xf000f		; GFX9-NEXT: v_and_b32_e32 v3, 0xf000f, v2
; GFX9-NEXT: v_and_b32_e32 v3, s4, v2
; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX9-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX9-NEXT: v_and_b32_e32 v2, s4, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xf000f, v2
; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v2, v0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v2, v0
; GFX9-NEXT: v_pk_lshrrev_b16 v1, v3, v1		; GFX9-NEXT: v_pk_lshrrev_b16 v1, v3, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_v2i16:		; GFX10-LABEL: v_fshr_v2i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v2, v1		; GFX8-NEXT: v_or_b32_e32 v1, v2, v1
; GFX8-NEXT: v_mov_b32_e32 v2, 16		; GFX8-NEXT: v_mov_b32_e32 v2, 16
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: v_fshr_v2i16_ssv:		; GFX9-LABEL: v_fshr_v2i16_ssv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_mov_b32 s2, 0xf000f
; GFX9-NEXT: v_and_b32_e32 v1, s2, v0
; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX9-NEXT: v_and_b32_e32 v0, s2, v0
; GFX9-NEXT: s_lshr_b32 s2, s0, 16		; GFX9-NEXT: s_lshr_b32 s2, s0, 16
		; GFX9-NEXT: v_and_b32_e32 v1, 0xf000f, v0
		; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX9-NEXT: s_lshl_b32 s0, s0, 0x10001		; GFX9-NEXT: s_lshl_b32 s0, s0, 0x10001
; GFX9-NEXT: s_lshl_b32 s2, s2, 1		; GFX9-NEXT: s_lshl_b32 s2, s2, 1
		; GFX9-NEXT: v_and_b32_e32 v0, 0xf000f, v0
; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2		; GFX9-NEXT: s_pack_ll_b32_b16 s0, s0, s2
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v0, s0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v0, s0
; GFX9-NEXT: v_pk_lshrrev_b16 v1, v1, s1		; GFX9-NEXT: v_pk_lshrrev_b16 v1, v1, s1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: v_fshr_v2i16_ssv:		; GFX10-LABEL: v_fshr_v2i16_ssv:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 490 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast.result = bitcast <4 x i16> %result to <2 x i32>		%cast.result = bitcast <4 x i16> %result to <2 x i32>
ret <2 x i32> %cast.result		ret <2 x i32> %cast.result
}		}

define <4 x half> @v_fshr_v4i16(<4 x i16> %lhs, <4 x i16> %rhs, <4 x i16> %amt) {		define <4 x half> @v_fshr_v4i16(<4 x i16> %lhs, <4 x i16> %rhs, <4 x i16> %amt) {
; GFX6-LABEL: v_fshr_v4i16:		; GFX6-LABEL: v_fshr_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v12, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v9, 16, v9		; GFX6-NEXT: v_lshlrev_b32_e32 v9, 16, v9
; GFX6-NEXT: v_and_b32_e32 v8, v8, v12		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX6-NEXT: v_or_b32_e32 v8, v9, v8		; GFX6-NEXT: v_or_b32_e32 v8, v9, v8
; GFX6-NEXT: v_lshlrev_b32_e32 v9, 16, v11		; GFX6-NEXT: v_lshlrev_b32_e32 v9, 16, v11
; GFX6-NEXT: v_and_b32_e32 v10, v10, v12		; GFX6-NEXT: v_and_b32_e32 v10, 0xffff, v10
; GFX6-NEXT: v_or_b32_e32 v9, v9, v10		; GFX6-NEXT: v_or_b32_e32 v9, v9, v10
; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000		; GFX6-NEXT: s_bfe_u32 s4, 1, 0x100000
; GFX6-NEXT: v_bfe_u32 v10, v4, 1, 15		; GFX6-NEXT: v_bfe_u32 v10, v4, 1, 15
; GFX6-NEXT: s_bfe_u32 s5, 14, 0x100000		; GFX6-NEXT: s_bfe_u32 s5, 14, 0x100000
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v10, s5, v10		; GFX6-NEXT: v_lshrrev_b32_e32 v10, s5, v10
; GFX6-NEXT: v_or_b32_e32 v0, v0, v10		; GFX6-NEXT: v_or_b32_e32 v0, v0, v10
; GFX6-NEXT: v_bfe_u32 v10, v5, 1, 15		; GFX6-NEXT: v_bfe_u32 v10, v5, 1, 15
▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v1, v3		; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX8-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v4i16:		; GFX9-LABEL: v_fshr_v4i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0xf000f		; GFX9-NEXT: v_and_b32_e32 v6, 0xf000f, v4
; GFX9-NEXT: v_and_b32_e32 v6, s4, v4
; GFX9-NEXT: v_xor_b32_e32 v4, -1, v4		; GFX9-NEXT: v_xor_b32_e32 v4, -1, v4
; GFX9-NEXT: v_and_b32_e32 v4, s4, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xf000f, v4
; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v4, v0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v4, v0
; GFX9-NEXT: v_pk_lshrrev_b16 v2, v6, v2		; GFX9-NEXT: v_pk_lshrrev_b16 v2, v6, v2
; GFX9-NEXT: v_xor_b32_e32 v4, -1, v5		; GFX9-NEXT: v_xor_b32_e32 v4, -1, v5
; GFX9-NEXT: v_or_b32_e32 v0, v0, v2		; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
; GFX9-NEXT: v_and_b32_e32 v2, s4, v5		; GFX9-NEXT: v_and_b32_e32 v2, 0xf000f, v5
; GFX9-NEXT: v_and_b32_e32 v4, s4, v4		; GFX9-NEXT: v_and_b32_e32 v4, 0xf000f, v4
; GFX9-NEXT: v_pk_lshlrev_b16 v1, 1, v1 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v1, 1, v1 op_sel_hi:[0,1]
; GFX9-NEXT: v_pk_lshlrev_b16 v1, v4, v1		; GFX9-NEXT: v_pk_lshlrev_b16 v1, v4, v1
; GFX9-NEXT: v_pk_lshrrev_b16 v2, v2, v3		; GFX9-NEXT: v_pk_lshrrev_b16 v2, v2, v3
; GFX9-NEXT: v_or_b32_e32 v1, v1, v2		; GFX9-NEXT: v_or_b32_e32 v1, v1, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_fshr_v4i16:		; GFX10-LABEL: v_fshr_v4i16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 764 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call i128 @llvm.fshr.i128(i128 %lhs, i128 %rhs, i128 %amt)		%result = call i128 @llvm.fshr.i128(i128 %lhs, i128 %rhs, i128 %amt)
ret i128 %result		ret i128 %result
}		}

define i128 @v_fshr_i128(i128 %lhs, i128 %rhs, i128 %amt) {		define i128 @v_fshr_i128(i128 %lhs, i128 %rhs, i128 %amt) {
; GFX6-LABEL: v_fshr_i128:		; GFX6-LABEL: v_fshr_i128:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s4, 0x7f		; GFX6-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX6-NEXT: v_and_b32_e32 v14, s4, v8
; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX6-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX6-NEXT: v_lshl_b64 v[2:3], v[2:3], 1		; GFX6-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
; GFX6-NEXT: v_and_b32_e32 v15, s4, v8		; GFX6-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX6-NEXT: v_lshl_b64 v[8:9], v[0:1], 1		; GFX6-NEXT: v_lshl_b64 v[8:9], v[0:1], 1
; GFX6-NEXT: v_lshrrev_b32_e32 v0, 31, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v0, 31, v1
; GFX6-NEXT: v_or_b32_e32 v2, v2, v0		; GFX6-NEXT: v_or_b32_e32 v2, v2, v0
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v15		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v15
; GFX6-NEXT: v_lshr_b64 v[0:1], v[8:9], v0		; GFX6-NEXT: v_lshr_b64 v[0:1], v[8:9], v0
; GFX6-NEXT: v_lshl_b64 v[10:11], v[2:3], v15		; GFX6-NEXT: v_lshl_b64 v[10:11], v[2:3], v15
; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v15		; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v15
; GFX6-NEXT: v_lshl_b64 v[12:13], v[8:9], v15		; GFX6-NEXT: v_lshl_b64 v[12:13], v[8:9], v15
Show All 28 Lines
; GFX6-NEXT: v_or_b32_e32 v1, v13, v1		; GFX6-NEXT: v_or_b32_e32 v1, v13, v1
; GFX6-NEXT: v_or_b32_e32 v2, v10, v2		; GFX6-NEXT: v_or_b32_e32 v2, v10, v2
; GFX6-NEXT: v_or_b32_e32 v3, v11, v3		; GFX6-NEXT: v_or_b32_e32 v3, v11, v3
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_i128:		; GFX8-LABEL: v_fshr_i128:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX8-NEXT: v_and_b32_e32 v14, s4, v8
; GFX8-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX8-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX8-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
; GFX8-NEXT: v_and_b32_e32 v15, s4, v8		; GFX8-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX8-NEXT: v_lshlrev_b64 v[8:9], 1, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[8:9], 1, v[0:1]
; GFX8-NEXT: v_lshrrev_b32_e32 v0, 31, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v0, 31, v1
; GFX8-NEXT: v_or_b32_e32 v2, v2, v0		; GFX8-NEXT: v_or_b32_e32 v2, v2, v0
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v15		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v15
; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, v[8:9]		; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, v[8:9]
; GFX8-NEXT: v_lshlrev_b64 v[10:11], v15, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[10:11], v15, v[2:3]
; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v15		; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v15
; GFX8-NEXT: v_lshlrev_b64 v[12:13], v15, v[8:9]		; GFX8-NEXT: v_lshlrev_b64 v[12:13], v15, v[8:9]
Show All 28 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v13, v1		; GFX8-NEXT: v_or_b32_e32 v1, v13, v1
; GFX8-NEXT: v_or_b32_e32 v2, v10, v2		; GFX8-NEXT: v_or_b32_e32 v2, v10, v2
; GFX8-NEXT: v_or_b32_e32 v3, v11, v3		; GFX8-NEXT: v_or_b32_e32 v3, v11, v3
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_i128:		; GFX9-LABEL: v_fshr_i128:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v14, 0x7f, v8
; GFX9-NEXT: v_and_b32_e32 v14, s4, v8
; GFX9-NEXT: v_xor_b32_e32 v8, -1, v8		; GFX9-NEXT: v_xor_b32_e32 v8, -1, v8
; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
; GFX9-NEXT: v_and_b32_e32 v15, s4, v8		; GFX9-NEXT: v_and_b32_e32 v15, 0x7f, v8
; GFX9-NEXT: v_lshlrev_b64 v[8:9], 1, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[8:9], 1, v[0:1]
; GFX9-NEXT: v_lshrrev_b32_e32 v0, 31, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v0, 31, v1
; GFX9-NEXT: v_or_b32_e32 v2, v2, v0		; GFX9-NEXT: v_or_b32_e32 v2, v2, v0
; GFX9-NEXT: v_sub_u32_e32 v0, 64, v15		; GFX9-NEXT: v_sub_u32_e32 v0, 64, v15
; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, v[8:9]		; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, v[8:9]
; GFX9-NEXT: v_lshlrev_b64 v[10:11], v15, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[10:11], v15, v[2:3]
; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v15		; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v15
; GFX9-NEXT: v_lshlrev_b64 v[12:13], v15, v[8:9]		; GFX9-NEXT: v_lshlrev_b64 v[12:13], v15, v[8:9]
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i128 @llvm.fshr.i128(i128 %lhs, i128 %rhs, i128 %amt)		%result = call i128 @llvm.fshr.i128(i128 %lhs, i128 %rhs, i128 %amt)
ret i128 %result		ret i128 %result
}		}

define amdgpu_ps <4 x float> @v_fshr_i128_ssv(i128 inreg %lhs, i128 inreg %rhs, i128 %amt) {		define amdgpu_ps <4 x float> @v_fshr_i128_ssv(i128 inreg %lhs, i128 inreg %rhs, i128 %amt) {
; GFX6-LABEL: v_fshr_i128_ssv:		; GFX6-LABEL: v_fshr_i128_ssv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_movk_i32 s8, 0x7f		; GFX6-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX6-NEXT: v_and_b32_e32 v6, s8, v0
; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX6-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX6-NEXT: s_mov_b32 s9, 0		; GFX6-NEXT: s_mov_b32 s9, 0
; GFX6-NEXT: v_and_b32_e32 v7, s8, v0		; GFX6-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], 1		; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], 1
; GFX6-NEXT: s_lshr_b32 s8, s1, 31		; GFX6-NEXT: s_lshr_b32 s8, s1, 31
; GFX6-NEXT: s_lshl_b64 s[10:11], s[0:1], 1		; GFX6-NEXT: s_lshl_b64 s[10:11], s[0:1], 1
; GFX6-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]		; GFX6-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v7		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, 64, v7
; GFX6-NEXT: v_lshr_b64 v[0:1], s[10:11], v0		; GFX6-NEXT: v_lshr_b64 v[0:1], s[10:11], v0
; GFX6-NEXT: v_lshl_b64 v[2:3], s[0:1], v7		; GFX6-NEXT: v_lshl_b64 v[2:3], s[0:1], v7
; GFX6-NEXT: v_subrev_i32_e32 v8, vcc, 64, v7		; GFX6-NEXT: v_subrev_i32_e32 v8, vcc, 64, v7
Show All 32 Lines
; GFX6-NEXT: v_or_b32_e32 v0, v8, v0		; GFX6-NEXT: v_or_b32_e32 v0, v8, v0
; GFX6-NEXT: v_or_b32_e32 v1, v9, v1		; GFX6-NEXT: v_or_b32_e32 v1, v9, v1
; GFX6-NEXT: v_or_b32_e32 v2, v7, v2		; GFX6-NEXT: v_or_b32_e32 v2, v7, v2
; GFX6-NEXT: v_or_b32_e32 v3, v10, v3		; GFX6-NEXT: v_or_b32_e32 v3, v10, v3
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: v_fshr_i128_ssv:		; GFX8-LABEL: v_fshr_i128_ssv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_movk_i32 s8, 0x7f		; GFX8-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v6, s8, v0
; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX8-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX8-NEXT: s_mov_b32 s9, 0		; GFX8-NEXT: s_mov_b32 s9, 0
; GFX8-NEXT: v_and_b32_e32 v7, s8, v0		; GFX8-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX8-NEXT: s_lshl_b64 s[2:3], s[2:3], 1		; GFX8-NEXT: s_lshl_b64 s[2:3], s[2:3], 1
; GFX8-NEXT: s_lshr_b32 s8, s1, 31		; GFX8-NEXT: s_lshr_b32 s8, s1, 31
; GFX8-NEXT: s_lshl_b64 s[10:11], s[0:1], 1		; GFX8-NEXT: s_lshl_b64 s[10:11], s[0:1], 1
; GFX8-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]		; GFX8-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v7		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, 64, v7
; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[10:11]		; GFX8-NEXT: v_lshrrev_b64 v[0:1], v0, s[10:11]
; GFX8-NEXT: v_lshlrev_b64 v[2:3], v7, s[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], v7, s[0:1]
; GFX8-NEXT: v_subrev_u32_e32 v8, vcc, 64, v7		; GFX8-NEXT: v_subrev_u32_e32 v8, vcc, 64, v7
Show All 32 Lines
; GFX8-NEXT: v_or_b32_e32 v0, v8, v0		; GFX8-NEXT: v_or_b32_e32 v0, v8, v0
; GFX8-NEXT: v_or_b32_e32 v1, v9, v1		; GFX8-NEXT: v_or_b32_e32 v1, v9, v1
; GFX8-NEXT: v_or_b32_e32 v2, v7, v2		; GFX8-NEXT: v_or_b32_e32 v2, v7, v2
; GFX8-NEXT: v_or_b32_e32 v3, v10, v3		; GFX8-NEXT: v_or_b32_e32 v3, v10, v3
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: v_fshr_i128_ssv:		; GFX9-LABEL: v_fshr_i128_ssv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_movk_i32 s8, 0x7f		; GFX9-NEXT: v_and_b32_e32 v6, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v6, s8, v0
; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX9-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX9-NEXT: s_mov_b32 s9, 0		; GFX9-NEXT: s_mov_b32 s9, 0
; GFX9-NEXT: v_and_b32_e32 v7, s8, v0		; GFX9-NEXT: v_and_b32_e32 v7, 0x7f, v0
; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], 1		; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], 1
; GFX9-NEXT: s_lshr_b32 s8, s1, 31		; GFX9-NEXT: s_lshr_b32 s8, s1, 31
; GFX9-NEXT: s_lshl_b64 s[10:11], s[0:1], 1		; GFX9-NEXT: s_lshl_b64 s[10:11], s[0:1], 1
; GFX9-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]		; GFX9-NEXT: s_or_b64 s[0:1], s[2:3], s[8:9]
; GFX9-NEXT: v_sub_u32_e32 v0, 64, v7		; GFX9-NEXT: v_sub_u32_e32 v0, 64, v7
; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[10:11]		; GFX9-NEXT: v_lshrrev_b64 v[0:1], v0, s[10:11]
; GFX9-NEXT: v_lshlrev_b64 v[2:3], v7, s[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], v7, s[0:1]
; GFX9-NEXT: v_subrev_u32_e32 v8, 64, v7		; GFX9-NEXT: v_subrev_u32_e32 v8, 64, v7
▲ Show 20 Lines • Show All 999 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = call <2 x i128> @llvm.fshr.v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt)		%result = call <2 x i128> @llvm.fshr.v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt)
ret <2 x i128> %result		ret <2 x i128> %result
}		}

define <2 x i128> @v_fshr_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt) {		define <2 x i128> @v_fshr_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %amt) {
; GFX6-LABEL: v_fshr_v2i128:		; GFX6-LABEL: v_fshr_v2i128:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s6, 0x7f
; GFX6-NEXT: v_xor_b32_e32 v17, -1, v16		; GFX6-NEXT: v_xor_b32_e32 v17, -1, v16
; GFX6-NEXT: v_lshl_b64 v[2:3], v[2:3], 1		; GFX6-NEXT: v_lshl_b64 v[2:3], v[2:3], 1
; GFX6-NEXT: v_and_b32_e32 v23, s6, v17		; GFX6-NEXT: v_and_b32_e32 v23, 0x7f, v17
; GFX6-NEXT: v_lshrrev_b32_e32 v17, 31, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v17, 31, v1
; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 1		; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 1
; GFX6-NEXT: v_or_b32_e32 v2, v2, v17		; GFX6-NEXT: v_or_b32_e32 v2, v2, v17
; GFX6-NEXT: v_sub_i32_e32 v17, vcc, 64, v23		; GFX6-NEXT: v_sub_i32_e32 v17, vcc, 64, v23
; GFX6-NEXT: v_lshr_b64 v[17:18], v[0:1], v17		; GFX6-NEXT: v_lshr_b64 v[17:18], v[0:1], v17
; GFX6-NEXT: v_lshl_b64 v[21:22], v[2:3], v23		; GFX6-NEXT: v_lshl_b64 v[21:22], v[2:3], v23
; GFX6-NEXT: v_and_b32_e32 v24, s6, v16		; GFX6-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX6-NEXT: v_sub_i32_e32 v16, vcc, 64, v24		; GFX6-NEXT: v_sub_i32_e32 v16, vcc, 64, v24
; GFX6-NEXT: v_or_b32_e32 v21, v17, v21		; GFX6-NEXT: v_or_b32_e32 v21, v17, v21
; GFX6-NEXT: v_or_b32_e32 v22, v18, v22		; GFX6-NEXT: v_or_b32_e32 v22, v18, v22
; GFX6-NEXT: v_lshl_b64 v[16:17], v[10:11], v16		; GFX6-NEXT: v_lshl_b64 v[16:17], v[10:11], v16
; GFX6-NEXT: v_lshr_b64 v[18:19], v[8:9], v24		; GFX6-NEXT: v_lshr_b64 v[18:19], v[8:9], v24
; GFX6-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23		; GFX6-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23
; GFX6-NEXT: v_or_b32_e32 v18, v18, v16		; GFX6-NEXT: v_or_b32_e32 v18, v18, v16
; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v23		; GFX6-NEXT: v_subrev_i32_e32 v16, vcc, 64, v23
Show All 19 Lines
; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX6-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX6-NEXT: v_or_b32_e32 v0, v25, v2		; GFX6-NEXT: v_or_b32_e32 v0, v25, v2
; GFX6-NEXT: v_or_b32_e32 v2, v17, v8		; GFX6-NEXT: v_or_b32_e32 v2, v17, v8
; GFX6-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX6-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX6-NEXT: v_lshl_b64 v[6:7], v[6:7], 1		; GFX6-NEXT: v_lshl_b64 v[6:7], v[6:7], 1
; GFX6-NEXT: v_or_b32_e32 v1, v18, v3		; GFX6-NEXT: v_or_b32_e32 v1, v18, v3
; GFX6-NEXT: v_or_b32_e32 v3, v16, v9		; GFX6-NEXT: v_or_b32_e32 v3, v16, v9
; GFX6-NEXT: v_and_b32_e32 v17, s6, v8		; GFX6-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX6-NEXT: v_lshl_b64 v[8:9], v[4:5], 1		; GFX6-NEXT: v_lshl_b64 v[8:9], v[4:5], 1
; GFX6-NEXT: v_lshrrev_b32_e32 v4, 31, v5		; GFX6-NEXT: v_lshrrev_b32_e32 v4, 31, v5
; GFX6-NEXT: v_or_b32_e32 v6, v6, v4		; GFX6-NEXT: v_or_b32_e32 v6, v6, v4
; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 64, v17		; GFX6-NEXT: v_sub_i32_e32 v4, vcc, 64, v17
; GFX6-NEXT: v_lshr_b64 v[4:5], v[8:9], v4		; GFX6-NEXT: v_lshr_b64 v[4:5], v[8:9], v4
; GFX6-NEXT: v_lshl_b64 v[10:11], v[6:7], v17		; GFX6-NEXT: v_lshl_b64 v[10:11], v[6:7], v17
; GFX6-NEXT: v_subrev_i32_e32 v18, vcc, 64, v17		; GFX6-NEXT: v_subrev_i32_e32 v18, vcc, 64, v17
; GFX6-NEXT: v_or_b32_e32 v10, v4, v10		; GFX6-NEXT: v_or_b32_e32 v10, v4, v10
; GFX6-NEXT: v_or_b32_e32 v11, v5, v11		; GFX6-NEXT: v_or_b32_e32 v11, v5, v11
; GFX6-NEXT: v_lshl_b64 v[4:5], v[8:9], v17		; GFX6-NEXT: v_lshl_b64 v[4:5], v[8:9], v17
; GFX6-NEXT: v_lshl_b64 v[8:9], v[8:9], v18		; GFX6-NEXT: v_lshl_b64 v[8:9], v[8:9], v18
; GFX6-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17		; GFX6-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17
; GFX6-NEXT: v_and_b32_e32 v16, s6, v20		; GFX6-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX6-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc
; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17		; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17
; GFX6-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc
; GFX6-NEXT: v_sub_i32_e32 v6, vcc, 64, v16		; GFX6-NEXT: v_sub_i32_e32 v6, vcc, 64, v16
Show All 16 Lines
; GFX6-NEXT: v_or_b32_e32 v5, v19, v7		; GFX6-NEXT: v_or_b32_e32 v5, v19, v7
; GFX6-NEXT: v_or_b32_e32 v6, v8, v10		; GFX6-NEXT: v_or_b32_e32 v6, v8, v10
; GFX6-NEXT: v_or_b32_e32 v7, v9, v11		; GFX6-NEXT: v_or_b32_e32 v7, v9, v11
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_fshr_v2i128:		; GFX8-LABEL: v_fshr_v2i128:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s6, 0x7f
; GFX8-NEXT: v_xor_b32_e32 v17, -1, v16		; GFX8-NEXT: v_xor_b32_e32 v17, -1, v16
; GFX8-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
; GFX8-NEXT: v_and_b32_e32 v23, s6, v17		; GFX8-NEXT: v_and_b32_e32 v23, 0x7f, v17
; GFX8-NEXT: v_lshrrev_b32_e32 v17, 31, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v17, 31, v1
; GFX8-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
; GFX8-NEXT: v_or_b32_e32 v2, v2, v17		; GFX8-NEXT: v_or_b32_e32 v2, v2, v17
; GFX8-NEXT: v_sub_u32_e32 v17, vcc, 64, v23		; GFX8-NEXT: v_sub_u32_e32 v17, vcc, 64, v23
; GFX8-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]		; GFX8-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]
; GFX8-NEXT: v_and_b32_e32 v24, s6, v16		; GFX8-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX8-NEXT: v_sub_u32_e32 v16, vcc, 64, v24		; GFX8-NEXT: v_sub_u32_e32 v16, vcc, 64, v24
; GFX8-NEXT: v_or_b32_e32 v21, v17, v21		; GFX8-NEXT: v_or_b32_e32 v21, v17, v21
; GFX8-NEXT: v_or_b32_e32 v22, v18, v22		; GFX8-NEXT: v_or_b32_e32 v22, v18, v22
; GFX8-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]		; GFX8-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]
; GFX8-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]		; GFX8-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]
; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23		; GFX8-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v23
; GFX8-NEXT: v_or_b32_e32 v18, v18, v16		; GFX8-NEXT: v_or_b32_e32 v18, v18, v16
; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v23		; GFX8-NEXT: v_subrev_u32_e32 v16, vcc, 64, v23
Show All 19 Lines
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX8-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX8-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX8-NEXT: v_or_b32_e32 v0, v25, v2		; GFX8-NEXT: v_or_b32_e32 v0, v25, v2
; GFX8-NEXT: v_or_b32_e32 v2, v17, v8		; GFX8-NEXT: v_or_b32_e32 v2, v17, v8
; GFX8-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX8-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX8-NEXT: v_lshlrev_b64 v[6:7], 1, v[6:7]		; GFX8-NEXT: v_lshlrev_b64 v[6:7], 1, v[6:7]
; GFX8-NEXT: v_or_b32_e32 v1, v18, v3		; GFX8-NEXT: v_or_b32_e32 v1, v18, v3
; GFX8-NEXT: v_or_b32_e32 v3, v16, v9		; GFX8-NEXT: v_or_b32_e32 v3, v16, v9
; GFX8-NEXT: v_and_b32_e32 v17, s6, v8		; GFX8-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX8-NEXT: v_lshlrev_b64 v[8:9], 1, v[4:5]		; GFX8-NEXT: v_lshlrev_b64 v[8:9], 1, v[4:5]
; GFX8-NEXT: v_lshrrev_b32_e32 v4, 31, v5		; GFX8-NEXT: v_lshrrev_b32_e32 v4, 31, v5
; GFX8-NEXT: v_or_b32_e32 v6, v6, v4		; GFX8-NEXT: v_or_b32_e32 v6, v6, v4
; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 64, v17		; GFX8-NEXT: v_sub_u32_e32 v4, vcc, 64, v17
; GFX8-NEXT: v_lshrrev_b64 v[4:5], v4, v[8:9]		; GFX8-NEXT: v_lshrrev_b64 v[4:5], v4, v[8:9]
; GFX8-NEXT: v_lshlrev_b64 v[10:11], v17, v[6:7]		; GFX8-NEXT: v_lshlrev_b64 v[10:11], v17, v[6:7]
; GFX8-NEXT: v_subrev_u32_e32 v18, vcc, 64, v17		; GFX8-NEXT: v_subrev_u32_e32 v18, vcc, 64, v17
; GFX8-NEXT: v_or_b32_e32 v10, v4, v10		; GFX8-NEXT: v_or_b32_e32 v10, v4, v10
; GFX8-NEXT: v_or_b32_e32 v11, v5, v11		; GFX8-NEXT: v_or_b32_e32 v11, v5, v11
; GFX8-NEXT: v_lshlrev_b64 v[4:5], v17, v[8:9]		; GFX8-NEXT: v_lshlrev_b64 v[4:5], v17, v[8:9]
; GFX8-NEXT: v_lshlrev_b64 v[8:9], v18, v[8:9]		; GFX8-NEXT: v_lshlrev_b64 v[8:9], v18, v[8:9]
; GFX8-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17		; GFX8-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17
; GFX8-NEXT: v_and_b32_e32 v16, s6, v20		; GFX8-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX8-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc
; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17		; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17
; GFX8-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc
; GFX8-NEXT: v_sub_u32_e32 v6, vcc, 64, v16		; GFX8-NEXT: v_sub_u32_e32 v6, vcc, 64, v16
Show All 16 Lines
; GFX8-NEXT: v_or_b32_e32 v5, v19, v7		; GFX8-NEXT: v_or_b32_e32 v5, v19, v7
; GFX8-NEXT: v_or_b32_e32 v6, v8, v10		; GFX8-NEXT: v_or_b32_e32 v6, v8, v10
; GFX8-NEXT: v_or_b32_e32 v7, v9, v11		; GFX8-NEXT: v_or_b32_e32 v7, v9, v11
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v2i128:		; GFX9-LABEL: v_fshr_v2i128:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s6, 0x7f
; GFX9-NEXT: v_xor_b32_e32 v17, -1, v16		; GFX9-NEXT: v_xor_b32_e32 v17, -1, v16
; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], 1, v[2:3]
; GFX9-NEXT: v_and_b32_e32 v23, s6, v17		; GFX9-NEXT: v_and_b32_e32 v23, 0x7f, v17
; GFX9-NEXT: v_lshrrev_b32_e32 v17, 31, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v17, 31, v1
; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[0:1], 1, v[0:1]
; GFX9-NEXT: v_or_b32_e32 v2, v2, v17		; GFX9-NEXT: v_or_b32_e32 v2, v2, v17
; GFX9-NEXT: v_sub_u32_e32 v17, 64, v23		; GFX9-NEXT: v_sub_u32_e32 v17, 64, v23
; GFX9-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]		; GFX9-NEXT: v_lshrrev_b64 v[17:18], v17, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[21:22], v23, v[2:3]
; GFX9-NEXT: v_and_b32_e32 v24, s6, v16		; GFX9-NEXT: v_and_b32_e32 v24, 0x7f, v16
; GFX9-NEXT: v_sub_u32_e32 v16, 64, v24		; GFX9-NEXT: v_sub_u32_e32 v16, 64, v24
; GFX9-NEXT: v_or_b32_e32 v21, v17, v21		; GFX9-NEXT: v_or_b32_e32 v21, v17, v21
; GFX9-NEXT: v_or_b32_e32 v22, v18, v22		; GFX9-NEXT: v_or_b32_e32 v22, v18, v22
; GFX9-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]		; GFX9-NEXT: v_lshlrev_b64 v[16:17], v16, v[10:11]
; GFX9-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]		; GFX9-NEXT: v_lshrrev_b64 v[18:19], v24, v[8:9]
; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v23		; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v23
; GFX9-NEXT: v_or_b32_e32 v18, v18, v16		; GFX9-NEXT: v_or_b32_e32 v18, v18, v16
; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v23		; GFX9-NEXT: v_subrev_u32_e32 v16, 64, v23
Show All 19 Lines
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc
; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]		; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, v1, s[4:5]
; GFX9-NEXT: v_or_b32_e32 v0, v25, v2		; GFX9-NEXT: v_or_b32_e32 v0, v25, v2
; GFX9-NEXT: v_or_b32_e32 v2, v17, v8		; GFX9-NEXT: v_or_b32_e32 v2, v17, v8
; GFX9-NEXT: v_xor_b32_e32 v8, -1, v20		; GFX9-NEXT: v_xor_b32_e32 v8, -1, v20
; GFX9-NEXT: v_lshlrev_b64 v[6:7], 1, v[6:7]		; GFX9-NEXT: v_lshlrev_b64 v[6:7], 1, v[6:7]
; GFX9-NEXT: v_or_b32_e32 v1, v18, v3		; GFX9-NEXT: v_or_b32_e32 v1, v18, v3
; GFX9-NEXT: v_or_b32_e32 v3, v16, v9		; GFX9-NEXT: v_or_b32_e32 v3, v16, v9
; GFX9-NEXT: v_and_b32_e32 v17, s6, v8		; GFX9-NEXT: v_and_b32_e32 v17, 0x7f, v8
; GFX9-NEXT: v_lshlrev_b64 v[8:9], 1, v[4:5]		; GFX9-NEXT: v_lshlrev_b64 v[8:9], 1, v[4:5]
; GFX9-NEXT: v_lshrrev_b32_e32 v4, 31, v5		; GFX9-NEXT: v_lshrrev_b32_e32 v4, 31, v5
; GFX9-NEXT: v_or_b32_e32 v6, v6, v4		; GFX9-NEXT: v_or_b32_e32 v6, v6, v4
; GFX9-NEXT: v_sub_u32_e32 v4, 64, v17		; GFX9-NEXT: v_sub_u32_e32 v4, 64, v17
; GFX9-NEXT: v_lshrrev_b64 v[4:5], v4, v[8:9]		; GFX9-NEXT: v_lshrrev_b64 v[4:5], v4, v[8:9]
; GFX9-NEXT: v_lshlrev_b64 v[10:11], v17, v[6:7]		; GFX9-NEXT: v_lshlrev_b64 v[10:11], v17, v[6:7]
; GFX9-NEXT: v_subrev_u32_e32 v18, 64, v17		; GFX9-NEXT: v_subrev_u32_e32 v18, 64, v17
; GFX9-NEXT: v_or_b32_e32 v10, v4, v10		; GFX9-NEXT: v_or_b32_e32 v10, v4, v10
; GFX9-NEXT: v_or_b32_e32 v11, v5, v11		; GFX9-NEXT: v_or_b32_e32 v11, v5, v11
; GFX9-NEXT: v_lshlrev_b64 v[4:5], v17, v[8:9]		; GFX9-NEXT: v_lshlrev_b64 v[4:5], v17, v[8:9]
; GFX9-NEXT: v_lshlrev_b64 v[8:9], v18, v[8:9]		; GFX9-NEXT: v_lshlrev_b64 v[8:9], v18, v[8:9]
; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17		; GFX9-NEXT: v_cmp_gt_u32_e32 vcc, 64, v17
; GFX9-NEXT: v_and_b32_e32 v16, s6, v20		; GFX9-NEXT: v_and_b32_e32 v16, 0x7f, v20
; GFX9-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v18, 0, v4, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v19, 0, v5, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v4, v8, v10, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v5, v9, v11, vcc
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v17
; GFX9-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v8, v4, v6, vcc
; GFX9-NEXT: v_sub_u32_e32 v6, 64, v16		; GFX9-NEXT: v_sub_u32_e32 v6, 64, v16
; GFX9-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v9, v5, v7, vcc
▲ Show 20 Lines • Show All 148 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/hip.extern.shared.array.ll

Show First 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @dynamic_shared_array_3(i32 %idx) {
%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x		%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x
store float %val1, float addrspace(3)* %arrayidx1, align 4		store float %val1, float addrspace(3)* %arrayidx1, align 4
ret void		ret void
}		}

; The offset to the dynamic shared memory array should be aligned on the		; The offset to the dynamic shared memory array should be aligned on the
; maximal one.		; maximal one.
; CHECK-LABEL: {{^}}dynamic_shared_array_4:		; CHECK-LABEL: {{^}}dynamic_shared_array_4:
; CHECK: v_mov_b32_e32 [[DYNLDS:v[0-9]+]], 0x48
; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}		; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}
; CHECK: v_add_u32_e32 {{v[0-9]+}}, [[DYNLDS]], [[IDX]]		; CHECK: v_add_u32_e32 {{v[0-9]+}}, 0x48, [[IDX]]
define amdgpu_kernel void @dynamic_shared_array_4(i32 %idx) {		define amdgpu_kernel void @dynamic_shared_array_4(i32 %idx) {
%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%vidx = add i32 %tid.x, %idx		%vidx = add i32 %tid.x, %idx
%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx		%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx
%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4		%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4
%val1 = uitofp i8 %val0 to float		%val1 = uitofp i8 %val0 to float
%val2 = uitofp i8 %val0 to double		%val2 = uitofp i8 %val0 to double
%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x		%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x
store float %val1, float addrspace(3)* %arrayidx1, align 4		store float %val1, float addrspace(3)* %arrayidx1, align 4
%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared1, i32 0, i32 %tid.x		%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared1, i32 0, i32 %tid.x
store double %val2, double addrspace(3)* %arrayidx2, align 4		store double %val2, double addrspace(3)* %arrayidx2, align 4
ret void		ret void
}		}

; Honor the explicit alignment from the specified variable.		; Honor the explicit alignment from the specified variable.
; CHECK-LABEL: {{^}}dynamic_shared_array_5:		; CHECK-LABEL: {{^}}dynamic_shared_array_5:
; CHECK: v_mov_b32_e32 [[DYNLDS:v[0-9]+]], 0x44
; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}		; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}
; CHECK: v_add_u32_e32 {{v[0-9]+}}, [[DYNLDS]], [[IDX]]		; CHECK: v_add_u32_e32 {{v[0-9]+}}, 0x44, [[IDX]]
define amdgpu_kernel void @dynamic_shared_array_5(i32 %idx) {		define amdgpu_kernel void @dynamic_shared_array_5(i32 %idx) {
%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%vidx = add i32 %tid.x, %idx		%vidx = add i32 %tid.x, %idx
%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx		%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx
%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4		%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4
%val1 = uitofp i8 %val0 to float		%val1 = uitofp i8 %val0 to float
%val2 = uitofp i8 %val0 to double		%val2 = uitofp i8 %val0 to double
%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x		%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x
store float %val1, float addrspace(3)* %arrayidx1, align 4		store float %val1, float addrspace(3)* %arrayidx1, align 4
%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared2, i32 0, i32 %tid.x		%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared2, i32 0, i32 %tid.x
store double %val2, double addrspace(3)* %arrayidx2, align 4		store double %val2, double addrspace(3)* %arrayidx2, align 4
ret void		ret void
}		}

; Honor the explicit alignment from the specified variable.		; Honor the explicit alignment from the specified variable.
; CHECK-LABEL: {{^}}dynamic_shared_array_6:		; CHECK-LABEL: {{^}}dynamic_shared_array_6:
; CHECK: v_mov_b32_e32 [[DYNLDS:v[0-9]+]], 0x50
; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}		; CHECK: v_lshlrev_b32_e32 [[IDX:v[0-9]+]], 2, {{v[0-9]+}}
; CHECK: v_add_u32_e32 {{v[0-9]+}}, [[DYNLDS]], [[IDX]]		; CHECK: v_add_u32_e32 {{v[0-9]+}}, 0x50, [[IDX]]
define amdgpu_kernel void @dynamic_shared_array_6(i32 %idx) {		define amdgpu_kernel void @dynamic_shared_array_6(i32 %idx) {
%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%tid.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%vidx = add i32 %tid.x, %idx		%vidx = add i32 %tid.x, %idx
%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx		%arrayidx0 = getelementptr inbounds [67 x i8], [67 x i8] addrspace(3)* @lds3, i32 0, i32 %vidx
%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4		%val0 = load i8, i8 addrspace(3)* %arrayidx0, align 4
%val1 = uitofp i8 %val0 to float		%val1 = uitofp i8 %val0 to float
%val2 = uitofp i8 %val0 to double		%val2 = uitofp i8 %val0 to double
%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x		%arrayidx1 = getelementptr inbounds [0 x float], [0 x float] addrspace(3)* @dynamic_shared0, i32 0, i32 %tid.x
store float %val1, float addrspace(3)* %arrayidx1, align 4		store float %val1, float addrspace(3)* %arrayidx1, align 4
%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared3, i32 0, i32 %tid.x		%arrayidx2 = getelementptr inbounds [0 x double], [0 x double] addrspace(3)* @dynamic_shared3, i32 0, i32 %tid.x
store double %val2, double addrspace(3)* %arrayidx2, align 4		store double %val2, double addrspace(3)* %arrayidx2, align 4
ret void		ret void
}		}

declare i32 @llvm.amdgcn.workitem.id.x()		declare i32 @llvm.amdgcn.workitem.id.x()

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

	Show First 20 Lines • Show All 326 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v2i16_v_v:			; GFX7-LABEL: insertelement_s_v2i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0			; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v1			; GFX7-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX7-NEXT: s_mov_b32 s1, 0xffff
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s1, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v0, s1, v1			; GFX7-NEXT: v_lshl_b32_e32 v0, 0xffff, v1
	; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0			; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v3, s0, v0			; GFX7-NEXT: v_and_b32_e32 v3, s0, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: v_or_b32_e32 v2, v3, v2			; GFX8-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v2i16_v_v:			; GFX7-LABEL: insertelement_v_v2i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dword v0, v[0:1]			; GFX7-NEXT: flat_load_dword v0, v[0:1]
	; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v3			; GFX7-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v3, v0, v1			; GFX7-NEXT: v_and_b32_e32 v3, v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v0, 0			; GFX7-NEXT: v_mov_b32_e32 v0, 0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: v_or_b32_e32 v2, v3, v2			; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 444 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v4i16_v_v:			; GFX7-LABEL: insertelement_s_v4i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 1, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v1			; GFX7-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX7-NEXT: s_mov_b32 s2, 0xffff
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s2, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v3, s0			; GFX7-NEXT: v_mov_b32_e32 v3, s0
	; GFX7-NEXT: v_mov_b32_e32 v4, s1			; GFX7-NEXT: v_mov_b32_e32 v4, s1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s2, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, v3, v1			; GFX7-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX7-NEXT: v_or_b32_e32 v4, v1, v0			; GFX7-NEXT: v_or_b32_e32 v4, v1, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
	; GFX7-NEXT: v_mov_b32_e32 v2, 0			; GFX7-NEXT: v_mov_b32_e32 v2, 0
	▲ Show 20 Lines • Show All 268 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]			; GFX8-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: flat_store_dwordx2 v[4:5], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[4:5], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v4i16_v_v:			; GFX7-LABEL: insertelement_v_v4i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX7-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 1, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v3, 1, v3			; GFX7-NEXT: v_and_b32_e32 v3, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 4, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
	; GFX7-NEXT: v_lshl_b32_e32 v3, s0, v3			; GFX7-NEXT: v_lshl_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v6
	; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3			; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
	; GFX7-NEXT: v_mov_b32_e32 v4, 0			; GFX7-NEXT: v_mov_b32_e32 v4, 0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v6
	; GFX7-NEXT: v_mov_b32_e32 v5, 0			; GFX7-NEXT: v_mov_b32_e32 v5, 0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v7, v0, v1, vcc
	; GFX7-NEXT: v_and_b32_e32 v3, v7, v3			; GFX7-NEXT: v_and_b32_e32 v3, v7, v3
	▲ Show 20 Lines • Show All 672 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_s_v8i16_v_v:			; GFX7-LABEL: insertelement_s_v8i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0			; GFX7-NEXT: s_load_dwordx4 s[4:7], s[2:3], 0x0
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 1, v1			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 1, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v1			; GFX7-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX7-NEXT: s_mov_b32 s8, 0xffff			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v3, s5			; GFX7-NEXT: v_mov_b32_e32 v3, s5
	; GFX7-NEXT: v_mov_b32_e32 v5, s6			; GFX7-NEXT: v_mov_b32_e32 v5, s6
	; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s8, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mov_b32_e32 v6, s7			; GFX7-NEXT: v_mov_b32_e32 v6, s7
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s8, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, v2, v1			; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_or_b32_e32 v5, v1, v0			; GFX7-NEXT: v_or_b32_e32 v5, v1, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v2, s6			; GFX7-NEXT: v_mov_b32_e32 v2, s6
	; GFX7-NEXT: v_mov_b32_e32 v3, s7			; GFX7-NEXT: v_mov_b32_e32 v3, s7
	▲ Show 20 Lines • Show All 349 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: insertelement_v_v8i16_v_v:			; GFX7-LABEL: insertelement_v_v8i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, 0xf000			; GFX7-NEXT: s_mov_b32 s11, 0xf000
	; GFX7-NEXT: s_mov_b64 s[8:9], 0			; GFX7-NEXT: s_mov_b64 s[8:9], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 1, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v3			; GFX7-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2
				; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v0
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]
	▲ Show 20 Lines • Show All 1,081 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX7-NEXT: v_mov_b32_e32 v6, s16			; GFX7-NEXT: v_mov_b32_e32 v6, s16
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[2:3]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v8
	; GFX7-NEXT: v_mov_b32_e32 v7, s17			; GFX7-NEXT: v_mov_b32_e32 v7, s17
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[4:5]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[4:5]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v8
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v1			; GFX7-NEXT: v_and_b32_e32 v1, 1, v1
	; GFX7-NEXT: s_mov_b32 s20, 0xffff
	; GFX7-NEXT: v_mov_b32_e32 v9, s18			; GFX7-NEXT: v_mov_b32_e32 v9, s18
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v7, s[6:7]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v7, s[6:7]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_and_b32_e32 v0, s20, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mov_b32_e32 v10, s19			; GFX7-NEXT: v_mov_b32_e32 v10, s19
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v9, s[8:9]
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8			; GFX7-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshl_b32_e32 v1, s20, v1			; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]			; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v10, s[10:11]
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_and_b32_e32 v1, v2, v1			; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX7-NEXT: v_or_b32_e32 v9, v1, v0			; GFX7-NEXT: v_or_b32_e32 v9, v1, v0
	; GFX7-NEXT: v_mov_b32_e32 v0, s12			; GFX7-NEXT: v_mov_b32_e32 v0, s12
	; GFX7-NEXT: v_mov_b32_e32 v1, s13			; GFX7-NEXT: v_mov_b32_e32 v1, s13
	; GFX7-NEXT: v_mov_b32_e32 v2, s14			; GFX7-NEXT: v_mov_b32_e32 v2, s14
	; GFX7-NEXT: v_mov_b32_e32 v3, s15			; GFX7-NEXT: v_mov_b32_e32 v3, s15
	▲ Show 20 Lines • Show All 555 Lines • ▼ Show 20 Lines
	;			;
	; GFX7-LABEL: insertelement_v_v16i16_v_v:			; GFX7-LABEL: insertelement_v_v16i16_v_v:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s18, 0			; GFX7-NEXT: s_mov_b32 s18, 0
	; GFX7-NEXT: s_mov_b32 s19, 0xf000			; GFX7-NEXT: s_mov_b32 s19, 0xf000
	; GFX7-NEXT: s_mov_b64 s[16:17], 0			; GFX7-NEXT: s_mov_b64 s[16:17], 0
	; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[16:19], 0 addr64			; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[16:19], 0 addr64
	; GFX7-NEXT: buffer_load_dwordx4 v[8:11], v[0:1], s[16:19], 0 addr64 offset:16			; GFX7-NEXT: buffer_load_dwordx4 v[8:11], v[0:1], s[16:19], 0 addr64 offset:16
	; GFX7-NEXT: s_mov_b32 s0, 0xffff
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 1, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX7-NEXT: v_and_b32_e32 v2, s0, v2
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2			; GFX7-NEXT: v_and_b32_e32 v1, 1, v3
	; GFX7-NEXT: v_lshl_b32_e32 v1, s0, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 4, v0
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[6:7], 5, v0
				; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
				; GFX7-NEXT: v_lshlrev_b32_e32 v1, 4, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[8:9], 6, v0
				; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2
				; GFX7-NEXT: v_lshl_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[10:11], 7, v0
	; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1			; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
	; GFX7-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0			; GFX7-NEXT: v_cmp_eq_u32_e64 s[12:13], 0, v0
	; GFX7-NEXT: s_mov_b32 s18, -1			; GFX7-NEXT: s_mov_b32 s18, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX7-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]			; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v7, s[2:3]
	▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
;		;
; GFX7-LABEL: insertelement_s_v2i8_s_s:		; GFX7-LABEL: insertelement_s_v2i8_s_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0
; GFX7-NEXT: v_mov_b32_e32 v2, s4		; GFX7-NEXT: v_mov_b32_e32 v1, s4
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
; GFX7-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v2i8_s_s:		; GFX10-LABEL: insertelement_s_v2i8_s_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v0, 0		; GFX10-NEXT: v_mov_b32_e32 v0, 0
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v2i8_s_s:		; GFX7-LABEL: insertelement_v_v2i8_s_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: v_mov_b32_e32 v2, s2		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
; GFX7-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v2i8_s_s:		; GFX10-LABEL: insertelement_v_v2i8_s_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_ushort v0, v[0:1], off		; GFX10-NEXT: global_load_ushort v0, v[0:1], off
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
; GFX7-LABEL: insertelement_s_v2i8_v_s:		; GFX7-LABEL: insertelement_s_v2i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 0
; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 8, v1
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
; GFX7-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v1, v1, v2		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v2i8_v_s:		; GFX10-LABEL: insertelement_s_v2i8_v_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
;		;
; GFX7-LABEL: insertelement_s_v2i8_s_v:		; GFX7-LABEL: insertelement_s_v2i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
; GFX7-NEXT: v_mov_b32_e32 v3, s4		; GFX7-NEXT: v_mov_b32_e32 v2, s4
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v1
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v1, v1, v2		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v2i8_s_v:		; GFX10-LABEL: insertelement_s_v2i8_s_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v1, 0		; GFX10-NEXT: v_mov_b32_e32 v1, 0
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
; GFX7-LABEL: insertelement_s_v2i8_v_v:		; GFX7-LABEL: insertelement_s_v2i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v2, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v2, off, s[0:3], 0
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; GFX7-NEXT: v_mov_b32_e32 v3, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v2
; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v1
; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v3		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v1, v2, v3		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v2i8_v_v:		; GFX10-LABEL: insertelement_s_v2i8_v_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: v_mov_b32_e32 v2, 0		; GFX10-NEXT: v_mov_b32_e32 v2, 0
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v2i8_s_v:		; GFX7-LABEL: insertelement_v_v2i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: v_mov_b32_e32 v3, s2		; GFX7-NEXT: v_mov_b32_e32 v1, s2
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
; GFX7-NEXT: v_cndmask_b32_e32 v2, v4, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v2i8_s_v:		; GFX10-LABEL: insertelement_v_v2i8_s_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_ushort v0, v[0:1], off		; GFX10-NEXT: global_load_ushort v0, v[0:1], off
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
;		;
; GFX7-LABEL: insertelement_v_v2i8_v_s:		; GFX7-LABEL: insertelement_v_v2i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1
; GFX7-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v2i8_v_s:		; GFX10-LABEL: insertelement_v_v2i8_v_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_ushort v0, v[0:1], off		; GFX10-NEXT: global_load_ushort v0, v[0:1], off
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
;		;
; GFX7-LABEL: insertelement_v_v2i8_v_v:		; GFX7-LABEL: insertelement_v_v2i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s2, 0		; GFX7-NEXT: s_mov_b32 s2, 0
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[0:3], 0 addr64		; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[0:3], 0 addr64
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
; GFX7-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v2i8_v_v:		; GFX10-LABEL: insertelement_v_v2i8_v_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_ushort v0, v[0:1], off		; GFX10-NEXT: global_load_ushort v0, v[0:1], off
▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
store <4 x i8> %insert, <4 x i8> addrspace(1)* null		store <4 x i8> %insert, <4 x i8> addrspace(1)* null
ret void		ret void
}		}

define amdgpu_ps void @insertelement_s_v4i8_v_s(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {		define amdgpu_ps void @insertelement_s_v4i8_v_s(<4 x i8> addrspace(4)* inreg %ptr, i8 %val, i32 inreg %idx) {
; GFX9-LABEL: insertelement_s_v4i8_v_s:		; GFX9-LABEL: insertelement_s_v4i8_v_s:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX9-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX9-NEXT: s_movk_i32 s5, 0xff		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX9-NEXT: v_and_b32_e32 v0, s5, v0
; GFX9-NEXT: s_mov_b32 s1, 8		; GFX9-NEXT: s_mov_b32 s1, 8
; GFX9-NEXT: s_mov_b32 s2, 16		; GFX9-NEXT: s_mov_b32 s2, 16
		; GFX9-NEXT: s_movk_i32 s5, 0xff
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_u32 s7, s0, 0x80008		; GFX9-NEXT: s_bfe_u32 s7, s0, 0x80008
; GFX9-NEXT: s_lshr_b32 s3, s0, 24		; GFX9-NEXT: s_lshr_b32 s3, s0, 24
; GFX9-NEXT: s_and_b32 s6, s0, 0xff		; GFX9-NEXT: s_and_b32 s6, s0, 0xff
; GFX9-NEXT: s_lshl_b32 s7, s7, 8		; GFX9-NEXT: s_lshl_b32 s7, s7, 8
; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX9-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX9-NEXT: s_or_b32 s6, s6, s7		; GFX9-NEXT: s_or_b32 s6, s6, s7
; GFX9-NEXT: s_lshl_b32 s0, s0, 16		; GFX9-NEXT: s_lshl_b32 s0, s0, 16
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: v_or_b32_e32 v2, v2, v3		; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v4i8_v_s:		; GFX7-LABEL: insertelement_s_v4i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s2, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s2, v0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s1, s0, 24		; GFX7-NEXT: s_lshr_b32 s1, s0, 24
; GFX7-NEXT: s_and_b32 s3, s0, 0xff		; GFX7-NEXT: s_and_b32 s2, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s5, s5, 8		; GFX7-NEXT: s_lshl_b32 s3, s3, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s3, s3, s5		; GFX7-NEXT: s_or_b32 s2, s2, s3
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s3, s0		; GFX7-NEXT: s_or_b32 s0, s2, s0
; GFX7-NEXT: s_lshl_b32 s1, s1, 24		; GFX7-NEXT: s_lshl_b32 s1, s1, 24
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: s_and_b32 s1, s4, 3		; GFX7-NEXT: s_and_b32 s1, s4, 3
; GFX7-NEXT: s_lshl_b32 s1, s1, 3		; GFX7-NEXT: s_lshl_b32 s1, s1, 3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, s1, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, s1, v0
; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1		; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1
; GFX7-NEXT: s_andn2_b32 s0, s0, s1		; GFX7-NEXT: s_andn2_b32 s0, s0, s1
; GFX7-NEXT: v_or_b32_e32 v0, s0, v0		; GFX7-NEXT: v_or_b32_e32 v0, s0, v0
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v2, s2, v0		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v2, v0		; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v2, v2, v3		; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v4i8_s_v:		; GFX7-LABEL: insertelement_s_v4i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX7-NEXT: v_and_b32_e32 v0, 3, v0		; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
; GFX7-NEXT: s_movk_i32 s2, 0xff
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s5, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s1, s0, 24		; GFX7-NEXT: s_lshr_b32 s1, s0, 24
; GFX7-NEXT: s_and_b32 s3, s0, 0xff		; GFX7-NEXT: s_and_b32 s2, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s5, s5, 8		; GFX7-NEXT: s_lshl_b32 s3, s3, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s3, s3, s5		; GFX7-NEXT: s_or_b32 s2, s2, s3
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s3, s0		; GFX7-NEXT: s_or_b32 s0, s2, s0
; GFX7-NEXT: s_lshl_b32 s1, s1, 24		; GFX7-NEXT: s_lshl_b32 s1, s1, 24
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: s_and_b32 s1, s4, 0xff		; GFX7-NEXT: s_and_b32 s1, s4, 0xff
; GFX7-NEXT: v_lshl_b32_e32 v1, s1, v0		; GFX7-NEXT: v_lshl_b32_e32 v1, s1, v0
; GFX7-NEXT: v_lshl_b32_e32 v0, s2, v0		; GFX7-NEXT: v_lshl_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX7-NEXT: v_and_b32_e32 v0, s0, v0		; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v2, s2, v0		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v2, v0		; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: v_or_b32_e32 v2, v2, v3		; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v4i8_v_v:		; GFX7-LABEL: insertelement_s_v4i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0		; GFX7-NEXT: s_load_dword s0, s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s2, 0xff
; GFX7-NEXT: v_and_b32_e32 v1, 3, v1		; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
; GFX7-NEXT: v_and_b32_e32 v0, s2, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s4, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s3, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s1, s0, 24		; GFX7-NEXT: s_lshr_b32 s1, s0, 24
; GFX7-NEXT: s_and_b32 s3, s0, 0xff		; GFX7-NEXT: s_and_b32 s2, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s4, s4, 8		; GFX7-NEXT: s_lshl_b32 s3, s3, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s3, s3, s4		; GFX7-NEXT: s_or_b32 s2, s2, s3
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s3, s0		; GFX7-NEXT: s_or_b32 s0, s2, s0
; GFX7-NEXT: s_lshl_b32 s1, s1, 24		; GFX7-NEXT: s_lshl_b32 s1, s1, 24
; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0		; GFX7-NEXT: v_lshl_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_lshl_b32_e32 v1, s2, v1
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX7-NEXT: v_and_b32_e32 v1, s0, v1		; GFX7-NEXT: v_and_b32_e32 v1, s0, v1
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v2, s2, v0		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v2, v0		; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v4i8_s_v:		; GFX7-LABEL: insertelement_v_v4i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: v_and_b32_e32 v2, 3, v2		; GFX7-NEXT: v_and_b32_e32 v1, 3, v2
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_and_b32 s0, s2, 0xff		; GFX7-NEXT: s_and_b32 s0, s2, 0xff
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
; GFX7-NEXT: v_lshl_b32_e32 v3, s0, v2		; GFX7-NEXT: v_lshl_b32_e32 v2, s0, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v2, v1		; GFX7-NEXT: v_lshl_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0
; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v3		; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
		; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v1, v0, v1		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v1, v1, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v4i8_s_v:		; GFX10-LABEL: insertelement_v_v4i8_s_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: v_and_b32_e32 v1, 3, v2		; GFX10-NEXT: v_and_b32_e32 v1, 3, v2
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v4i8_v_s:		; GFX7-LABEL: insertelement_v_v4i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_and_b32 s0, s2, 3
; GFX7-NEXT: s_and_b32 s1, s2, 3		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
; GFX7-NEXT: v_and_b32_e32 v1, s0, v2		; GFX7-NEXT: s_lshl_b32 s0, s0, 3
; GFX7-NEXT: s_lshl_b32 s1, s1, 3		; GFX7-NEXT: v_lshlrev_b32_e32 v1, s0, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v1, s1, v1		; GFX7-NEXT: s_lshl_b32 s0, 0xff, s0
; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1		; GFX7-NEXT: s_not_b32 s0, s0
; GFX7-NEXT: s_not_b32 s1, s1
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v4, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v4, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v3, s0, v0		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_or_b32_e32 v0, v3, v0		; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_and_b32_e32 v0, s1, v0		; GFX7-NEXT: v_and_b32_e32 v0, s0, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v4i8_v_v:		; GFX7-LABEL: insertelement_v_v4i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s2, 0		; GFX7-NEXT: s_mov_b32 s2, 0
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64		; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[0:3], 0 addr64
; GFX7-NEXT: s_movk_i32 s2, 0xff		; GFX7-NEXT: v_and_b32_e32 v1, 3, v3
; GFX7-NEXT: v_and_b32_e32 v3, 3, v3		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
; GFX7-NEXT: v_and_b32_e32 v2, s2, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, v1, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3		; GFX7-NEXT: v_lshl_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2		; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0
; GFX7-NEXT: v_and_b32_e32 v5, s2, v0		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v4		; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
; GFX7-NEXT: v_and_b32_e32 v0, v0, v3		; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v3, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v0
; GFX7-NEXT: v_and_b32_e32 v1, v0, v1		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v1, v1, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v2, v0
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v4i8_v_v:		; GFX10-LABEL: insertelement_v_v4i8_v_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dword v0, v[0:1], off		; GFX10-NEXT: global_load_dword v0, v[0:1], off
; GFX10-NEXT: v_and_b32_e32 v1, 3, v3		; GFX10-NEXT: v_and_b32_e32 v1, 3, v3
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
▲ Show 20 Lines • Show All 405 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v8i8_s_s:		; GFX7-LABEL: insertelement_v_v8i8_s_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_and_b32 s1, s3, 3
; GFX7-NEXT: s_lshr_b32 s1, s3, 2		; GFX7-NEXT: s_lshr_b32 s0, s3, 2
; GFX7-NEXT: s_and_b32 s3, s3, 3
; GFX7-NEXT: s_and_b32 s2, s2, 0xff		; GFX7-NEXT: s_and_b32 s2, s2, 0xff
; GFX7-NEXT: s_lshl_b32 s3, s3, 3		; GFX7-NEXT: s_lshl_b32 s1, s1, 3
; GFX7-NEXT: s_lshl_b32 s2, s2, s3		; GFX7-NEXT: s_lshl_b32 s2, s2, s1
; GFX7-NEXT: s_lshl_b32 s3, 0xff, s3		; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
; GFX7-NEXT: s_not_b32 s3, s3		; GFX7-NEXT: s_not_b32 s1, s1
; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_and_b32_e32 v5, s0, v0		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v7, s0, v1		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_or_b32_e32 v6, v7, v8		; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_or_b32_e32 v1, v6, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v3		; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4		; GFX7-NEXT: v_cndmask_b32_e32 v2, v0, v1, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc		; GFX7-NEXT: v_and_b32_e32 v2, s1, v2
; GFX7-NEXT: v_and_b32_e32 v3, s3, v3		; GFX7-NEXT: v_or_b32_e32 v2, s2, v2
; GFX7-NEXT: v_or_b32_e32 v3, s2, v3		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_and_b32_e32 v5, v0, v2		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v2, v1, v2		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_or_b32_e32 v2, v2, v7		; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v3		; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v8i8_s_s:		; GFX10-LABEL: insertelement_v_v8i8_s_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
; GFX10-NEXT: s_mov_b32 s1, 16		; GFX10-NEXT: s_mov_b32 s1, 16
▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v1, v1, v4		; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v8i8_v_s:		; GFX7-LABEL: insertelement_s_v8i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s6, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s2, s0, 24		; GFX7-NEXT: s_lshr_b32 s2, s0, 24
; GFX7-NEXT: s_and_b32 s5, s0, 0xff		; GFX7-NEXT: s_and_b32 s5, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s6, s6, 8		; GFX7-NEXT: s_lshl_b32 s6, s6, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s5, s5, s6		; GFX7-NEXT: s_or_b32 s5, s5, s6
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
Show All 13 Lines
; GFX7-NEXT: s_lshr_b32 s2, s4, 2		; GFX7-NEXT: s_lshr_b32 s2, s4, 2
; GFX7-NEXT: s_cmp_eq_u32 s2, 1		; GFX7-NEXT: s_cmp_eq_u32 s2, 1
; GFX7-NEXT: s_cselect_b32 s3, s1, s0		; GFX7-NEXT: s_cselect_b32 s3, s1, s0
; GFX7-NEXT: s_and_b32 s4, s4, 3		; GFX7-NEXT: s_and_b32 s4, s4, 3
; GFX7-NEXT: s_lshl_b32 s4, s4, 3		; GFX7-NEXT: s_lshl_b32 s4, s4, 3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX7-NEXT: s_lshl_b32 s4, 0xff, s4		; GFX7-NEXT: s_lshl_b32 s4, 0xff, s4
; GFX7-NEXT: s_andn2_b32 s3, s3, s4		; GFX7-NEXT: s_andn2_b32 s3, s3, s4
; GFX7-NEXT: v_or_b32_e32 v3, s3, v0		; GFX7-NEXT: v_or_b32_e32 v2, s3, v0
; GFX7-NEXT: v_mov_b32_e32 v0, s0		; GFX7-NEXT: v_mov_b32_e32 v0, s0
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s2, 1
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v5, v0, v2		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v3		; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
; GFX7-NEXT: v_bfe_u32 v3, v1, 8, 8		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_and_b32_e32 v2, v1, v2		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v4
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v1, v2, v1		; GFX7-NEXT: v_or_b32_e32 v1, v2, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v3
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v1, v1, v2		; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0		; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v8i8_v_s:		; GFX10-LABEL: insertelement_s_v8i8_v_s:
▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v8i8_s_v:		; GFX7-LABEL: insertelement_s_v8i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v0
; GFX7-NEXT: v_and_b32_e32 v0, 3, v0		; GFX7-NEXT: v_and_b32_e32 v0, 3, v0
; GFX7-NEXT: s_movk_i32 s5, 0xff
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s7, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s6, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s2, s0, 24		; GFX7-NEXT: s_lshr_b32 s2, s0, 24
; GFX7-NEXT: s_and_b32 s6, s0, 0xff		; GFX7-NEXT: s_and_b32 s5, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s7, s7, 8		; GFX7-NEXT: s_lshl_b32 s6, s6, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s6, s6, s7		; GFX7-NEXT: s_or_b32 s5, s5, s6
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s6, s0		; GFX7-NEXT: s_or_b32 s0, s5, s0
; GFX7-NEXT: s_lshl_b32 s2, s2, 24		; GFX7-NEXT: s_lshl_b32 s2, s2, 24
; GFX7-NEXT: s_bfe_u32 s6, s1, 0x80008		; GFX7-NEXT: s_bfe_u32 s5, s1, 0x80008
; GFX7-NEXT: s_lshr_b32 s3, s1, 24		; GFX7-NEXT: s_lshr_b32 s3, s1, 24
; GFX7-NEXT: s_or_b32 s0, s0, s2		; GFX7-NEXT: s_or_b32 s0, s0, s2
; GFX7-NEXT: s_and_b32 s2, s1, 0xff		; GFX7-NEXT: s_and_b32 s2, s1, 0xff
; GFX7-NEXT: s_lshl_b32 s6, s6, 8		; GFX7-NEXT: s_lshl_b32 s5, s5, 8
; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010
; GFX7-NEXT: s_or_b32 s2, s2, s6		; GFX7-NEXT: s_or_b32 s2, s2, s5
; GFX7-NEXT: s_lshl_b32 s1, s1, 16		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
; GFX7-NEXT: s_or_b32 s1, s2, s1		; GFX7-NEXT: s_or_b32 s1, s2, s1
; GFX7-NEXT: s_lshl_b32 s2, s3, 24		; GFX7-NEXT: s_lshl_b32 s2, s3, 24
; GFX7-NEXT: s_or_b32 s1, s1, s2		; GFX7-NEXT: s_or_b32 s1, s1, s2
; GFX7-NEXT: v_mov_b32_e32 v1, s0		; GFX7-NEXT: v_mov_b32_e32 v1, s0
; GFX7-NEXT: v_mov_b32_e32 v3, s1		; GFX7-NEXT: v_mov_b32_e32 v3, s1
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; GFX7-NEXT: s_and_b32 s2, s4, 0xff		; GFX7-NEXT: s_and_b32 s2, s4, 0xff
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX7-NEXT: v_lshl_b32_e32 v3, s2, v0		; GFX7-NEXT: v_lshl_b32_e32 v3, s2, v0
; GFX7-NEXT: v_lshl_b32_e32 v0, s5, v0		; GFX7-NEXT: v_lshl_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX7-NEXT: v_and_b32_e32 v0, v1, v0		; GFX7-NEXT: v_and_b32_e32 v0, v1, v0
; GFX7-NEXT: v_or_b32_e32 v3, v0, v3		; GFX7-NEXT: v_or_b32_e32 v3, v0, v3
; GFX7-NEXT: v_mov_b32_e32 v0, s0		; GFX7-NEXT: v_mov_b32_e32 v0, s0
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v4, s5, v0		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v4, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
▲ Show 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_mov_b32_e32 v3, 0		; GFX8-NEXT: v_mov_b32_e32 v3, 0
; GFX8-NEXT: v_or_b32_e32 v1, v1, v4		; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]		; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v8i8_v_v:		; GFX7-LABEL: insertelement_s_v8i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0		; GFX7-NEXT: s_load_dwordx2 s[0:1], s[2:3], 0x0
; GFX7-NEXT: s_movk_i32 s4, 0xff
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 2, v1
; GFX7-NEXT: v_and_b32_e32 v1, 3, v1		; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s6, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s5, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s2, s0, 24		; GFX7-NEXT: s_lshr_b32 s2, s0, 24
; GFX7-NEXT: s_and_b32 s5, s0, 0xff		; GFX7-NEXT: s_and_b32 s4, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s6, s6, 8		; GFX7-NEXT: s_lshl_b32 s5, s5, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s5, s5, s6		; GFX7-NEXT: s_or_b32 s4, s4, s5
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s5, s0		; GFX7-NEXT: s_or_b32 s0, s4, s0
; GFX7-NEXT: s_lshl_b32 s2, s2, 24		; GFX7-NEXT: s_lshl_b32 s2, s2, 24
; GFX7-NEXT: s_bfe_u32 s5, s1, 0x80008		; GFX7-NEXT: s_bfe_u32 s4, s1, 0x80008
; GFX7-NEXT: s_lshr_b32 s3, s1, 24		; GFX7-NEXT: s_lshr_b32 s3, s1, 24
; GFX7-NEXT: s_or_b32 s0, s0, s2		; GFX7-NEXT: s_or_b32 s0, s0, s2
; GFX7-NEXT: s_and_b32 s2, s1, 0xff		; GFX7-NEXT: s_and_b32 s2, s1, 0xff
; GFX7-NEXT: s_lshl_b32 s5, s5, 8		; GFX7-NEXT: s_lshl_b32 s4, s4, 8
; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010
; GFX7-NEXT: s_or_b32 s2, s2, s5		; GFX7-NEXT: s_or_b32 s2, s2, s4
; GFX7-NEXT: s_lshl_b32 s1, s1, 16		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
; GFX7-NEXT: s_or_b32 s1, s2, s1		; GFX7-NEXT: s_or_b32 s1, s2, s1
; GFX7-NEXT: s_lshl_b32 s2, s3, 24		; GFX7-NEXT: s_lshl_b32 s2, s3, 24
; GFX7-NEXT: s_or_b32 s1, s1, s2		; GFX7-NEXT: s_or_b32 s1, s1, s2
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0
; GFX7-NEXT: v_mov_b32_e32 v3, s0		; GFX7-NEXT: v_mov_b32_e32 v3, s0
; GFX7-NEXT: v_mov_b32_e32 v4, s1		; GFX7-NEXT: v_mov_b32_e32 v4, s1
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
; GFX7-NEXT: v_lshl_b32_e32 v1, s4, v1		; GFX7-NEXT: v_lshl_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX7-NEXT: v_and_b32_e32 v1, v3, v1		; GFX7-NEXT: v_and_b32_e32 v1, v3, v1
; GFX7-NEXT: v_or_b32_e32 v3, v1, v0		; GFX7-NEXT: v_or_b32_e32 v3, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v0, s0		; GFX7-NEXT: v_mov_b32_e32 v0, s0
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v2
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v4, s4, v0		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v4, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v4, v1, 8, 8
▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v8i8_s_v:		; GFX7-LABEL: insertelement_v_v8i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 2, v2
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v2
; GFX7-NEXT: v_and_b32_e32 v2, 3, v2		; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
; GFX7-NEXT: v_mov_b32_e32 v3, 0xff		; GFX7-NEXT: s_and_b32 s0, s2, 0xff
; GFX7-NEXT: s_and_b32 s1, s2, 0xff
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2
; GFX7-NEXT: v_lshl_b32_e32 v5, s1, v2		; GFX7-NEXT: v_lshl_b32_e32 v4, s0, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v2, v3		; GFX7-NEXT: v_lshl_b32_e32 v2, 0xff, v2
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v3
; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v3
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v10, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
; GFX7-NEXT: v_and_b32_e32 v8, s0, v0		; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v10, s0, v1		; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11		; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v8, v8, v9		; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
; GFX7-NEXT: v_or_b32_e32 v9, v10, v11		; GFX7-NEXT: v_or_b32_e32 v8, v9, v10
		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7		; GFX7-NEXT: v_or_b32_e32 v0, v7, v0
; GFX7-NEXT: v_or_b32_e32 v0, v8, v0		; GFX7-NEXT: v_or_b32_e32 v1, v8, v1
; GFX7-NEXT: v_or_b32_e32 v1, v9, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
; GFX7-NEXT: v_or_b32_e32 v0, v0, v6		; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
; GFX7-NEXT: v_or_b32_e32 v1, v1, v7		; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc		; GFX7-NEXT: v_and_b32_e32 v2, v5, v2
; GFX7-NEXT: v_and_b32_e32 v2, v6, v2		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
; GFX7-NEXT: v_or_b32_e32 v2, v2, v5
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_and_b32_e32 v5, v0, v3		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v3, v1, v3		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_or_b32_e32 v3, v3, v7		; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v1, v3, v1		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4		; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v8i8_s_v:		; GFX10-LABEL: insertelement_v_v8i8_s_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
; GFX10-NEXT: v_and_b32_e32 v3, 3, v2		; GFX10-NEXT: v_and_b32_e32 v3, 3, v2
▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v8i8_v_s:		; GFX7-LABEL: insertelement_v_v8i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_and_b32 s1, s2, 3
; GFX7-NEXT: v_mov_b32_e32 v3, 0xff		; GFX7-NEXT: s_lshr_b32 s0, s2, 2
; GFX7-NEXT: s_lshr_b32 s1, s2, 2		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX7-NEXT: s_and_b32 s2, s2, 3		; GFX7-NEXT: s_lshl_b32 s1, s1, 3
; GFX7-NEXT: v_and_b32_e32 v2, v2, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v2, s1, v2
; GFX7-NEXT: s_lshl_b32 s2, s2, 3		; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, s2, v2		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
; GFX7-NEXT: s_lshl_b32 s2, 0xff, s2		; GFX7-NEXT: s_not_b32 s1, s1
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s1, 1
; GFX7-NEXT: s_not_b32 s2, s2
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1
; GFX7-NEXT: v_and_b32_e32 v6, s0, v0		; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v8, s0, v1		; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v6, v6, v7		; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
; GFX7-NEXT: v_or_b32_e32 v7, v8, v9		; GFX7-NEXT: v_or_b32_e32 v6, v7, v8
		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
; GFX7-NEXT: v_or_b32_e32 v0, v6, v0		; GFX7-NEXT: v_or_b32_e32 v1, v6, v1
; GFX7-NEXT: v_or_b32_e32 v1, v7, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v3
; GFX7-NEXT: v_or_b32_e32 v0, v0, v4		; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
; GFX7-NEXT: v_or_b32_e32 v1, v1, v5		; GFX7-NEXT: v_cndmask_b32_e32 v3, v0, v1, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc		; GFX7-NEXT: v_and_b32_e32 v3, s1, v3
; GFX7-NEXT: v_and_b32_e32 v4, s2, v4		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_or_b32_e32 v2, v4, v2		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s0, 0
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, 0
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_and_b32_e32 v5, v0, v3		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v3, v1, v3		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_or_b32_e32 v3, v3, v7		; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v1, v3, v1		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4		; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v8i8_v_s:		; GFX10-LABEL: insertelement_v_v8i8_v_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
; GFX10-NEXT: s_mov_b32 s1, 16		; GFX10-NEXT: s_mov_b32 s1, 16
▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v8i8_v_v:		; GFX7-LABEL: insertelement_v_v8i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s6, 0		; GFX7-NEXT: s_mov_b32 s6, 0
; GFX7-NEXT: s_mov_b32 s7, 0xf000		; GFX7-NEXT: s_mov_b32 s7, 0xf000
; GFX7-NEXT: s_mov_b64 s[4:5], 0		; GFX7-NEXT: s_mov_b64 s[4:5], 0
; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64		; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v3
; GFX7-NEXT: v_mov_b32_e32 v4, 0xff
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 2, v3
; GFX7-NEXT: v_and_b32_e32 v3, 3, v3		; GFX7-NEXT: v_and_b32_e32 v3, 3, v3
; GFX7-NEXT: v_and_b32_e32 v2, v2, v4		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v4		; GFX7-NEXT: v_lshl_b32_e32 v3, 0xff, v3
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v5		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3		; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v4
; GFX7-NEXT: s_mov_b32 s6, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v10, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1
; GFX7-NEXT: v_and_b32_e32 v8, s0, v0		; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v10, s0, v1		; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11		; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v8, v8, v9		; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
; GFX7-NEXT: v_or_b32_e32 v9, v10, v11		; GFX7-NEXT: v_or_b32_e32 v8, v9, v10
		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7		; GFX7-NEXT: v_or_b32_e32 v0, v7, v0
; GFX7-NEXT: v_or_b32_e32 v0, v8, v0		; GFX7-NEXT: v_or_b32_e32 v1, v8, v1
; GFX7-NEXT: v_or_b32_e32 v1, v9, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v5
; GFX7-NEXT: v_or_b32_e32 v0, v0, v6		; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
; GFX7-NEXT: v_or_b32_e32 v1, v1, v7		; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc		; GFX7-NEXT: v_and_b32_e32 v3, v5, v3
; GFX7-NEXT: v_and_b32_e32 v3, v6, v3
; GFX7-NEXT: v_or_b32_e32 v2, v3, v2		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 0, v5
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v7, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v1
; GFX7-NEXT: v_and_b32_e32 v5, v0, v4		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v4, v1, v4		; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_or_b32_e32 v4, v4, v7		; GFX7-NEXT: v_or_b32_e32 v5, v6, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v3
; GFX7-NEXT: v_or_b32_e32 v0, v5, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v1, v4, v1		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v3		; GFX7-NEXT: v_or_b32_e32 v1, v1, v3
; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; GFX7-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v8i8_v_v:		; GFX10-LABEL: insertelement_v_v8i8_v_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
▲ Show 20 Lines • Show All 689 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v16i8_s_s:		; GFX7-LABEL: insertelement_v_v16i8_s_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s11, 0xf000
; GFX7-NEXT: s_mov_b64 s[8:9], 0		; GFX7-NEXT: s_mov_b64 s[8:9], 0
; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[8:11], 0 addr64		; GFX7-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[8:11], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: s_and_b32 s0, s3, 3
; GFX7-NEXT: v_mov_b32_e32 v4, 0xff
; GFX7-NEXT: s_and_b32 s1, s3, 3
; GFX7-NEXT: s_lshr_b32 s4, s3, 2		; GFX7-NEXT: s_lshr_b32 s4, s3, 2
; GFX7-NEXT: s_and_b32 s2, s2, 0xff		; GFX7-NEXT: s_and_b32 s1, s2, 0xff
; GFX7-NEXT: s_lshl_b32 s1, s1, 3		; GFX7-NEXT: s_lshl_b32 s0, s0, 3
; GFX7-NEXT: s_lshl_b32 s5, s2, s1		; GFX7-NEXT: s_lshl_b32 s5, s1, s0
; GFX7-NEXT: s_lshl_b32 s1, 0xff, s1		; GFX7-NEXT: s_lshl_b32 s0, 0xff, s0
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
; GFX7-NEXT: s_not_b32 s6, s1		; GFX7-NEXT: s_not_b32 s6, s0
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_mov_b32 s10, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_and_b32_e32 v9, s0, v0		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_and_b32_e32 v11, s0, v1		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_bfe_u32 v14, v2, 8, 8		; GFX7-NEXT: v_bfe_u32 v13, v2, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
; GFX7-NEXT: v_and_b32_e32 v13, v2, v4		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v2
; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_bfe_u32 v16, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v15, v3, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_or_b32_e32 v10, v11, v12		; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
; GFX7-NEXT: v_and_b32_e32 v15, v3, v4		; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16		; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
; GFX7-NEXT: v_or_b32_e32 v11, v13, v14		; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
; GFX7-NEXT: v_or_b32_e32 v1, v10, v1		; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v12, v15, v16		; GFX7-NEXT: v_or_b32_e32 v11, v14, v15
; GFX7-NEXT: v_or_b32_e32 v2, v11, v2		; GFX7-NEXT: v_or_b32_e32 v2, v10, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v5		; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
; GFX7-NEXT: v_or_b32_e32 v1, v1, v6		; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
; GFX7-NEXT: v_or_b32_e32 v3, v12, v3		; GFX7-NEXT: v_or_b32_e32 v3, v11, v3
; GFX7-NEXT: v_or_b32_e32 v2, v2, v7		; GFX7-NEXT: v_or_b32_e32 v2, v2, v6
; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v4, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2		; GFX7-NEXT: v_or_b32_e32 v3, v3, v7
; GFX7-NEXT: v_or_b32_e32 v3, v3, v8		; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v3, s[2:3]
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[2:3]		; GFX7-NEXT: v_and_b32_e32 v4, s6, v4
; GFX7-NEXT: v_and_b32_e32 v5, s6, v5		; GFX7-NEXT: v_or_b32_e32 v4, s5, v4
; GFX7-NEXT: v_or_b32_e32 v5, s5, v5
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[4:5]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]		; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0		; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[2:3]
; GFX7-NEXT: v_and_b32_e32 v9, v0, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v14, v2, 8, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10		; GFX7-NEXT: v_bfe_u32 v13, v2, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_and_b32_e32 v11, v1, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_and_b32_e32 v13, v2, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v2
; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
		; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_or_b32_e32 v0, v0, v5		; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
; GFX7-NEXT: v_or_b32_e32 v2, v11, v2		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v7		; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
; GFX7-NEXT: v_or_b32_e32 v2, v2, v5		; GFX7-NEXT: v_or_b32_e32 v2, v10, v2
		; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
		; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v3
; GFX7-NEXT: v_and_b32_e32 v4, v3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 24, v6
; GFX7-NEXT: v_or_b32_e32 v1, v10, v1
; GFX7-NEXT: v_or_b32_e32 v3, v4, v3		; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: v_or_b32_e32 v1, v1, v6
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v16i8_s_s:		; GFX10-LABEL: insertelement_v_v16i8_s_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off		; GFX10-NEXT: global_load_dwordx4 v[0:3], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
▲ Show 20 Lines • Show All 289 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v3, v3, v6		; GFX8-NEXT: v_or_b32_e32 v3, v3, v6
; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v16i8_v_s:		; GFX7-LABEL: insertelement_s_v16i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_mov_b32_e32 v4, 0xff
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s5, s0, 24		; GFX7-NEXT: s_lshr_b32 s5, s0, 24
; GFX7-NEXT: s_and_b32 s9, s0, 0xff		; GFX7-NEXT: s_and_b32 s9, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s10, s10, 8		; GFX7-NEXT: s_lshl_b32 s10, s10, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s9, s9, s10		; GFX7-NEXT: s_or_b32 s9, s9, s10
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
Show All 37 Lines
; GFX7-NEXT: s_cselect_b32 s6, s2, s6		; GFX7-NEXT: s_cselect_b32 s6, s2, s6
; GFX7-NEXT: s_cmp_eq_u32 s5, 3		; GFX7-NEXT: s_cmp_eq_u32 s5, 3
; GFX7-NEXT: s_cselect_b32 s6, s3, s6		; GFX7-NEXT: s_cselect_b32 s6, s3, s6
; GFX7-NEXT: s_and_b32 s4, s4, 3		; GFX7-NEXT: s_and_b32 s4, s4, 3
; GFX7-NEXT: s_lshl_b32 s4, s4, 3		; GFX7-NEXT: s_lshl_b32 s4, s4, 3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, s4, v0
; GFX7-NEXT: s_lshl_b32 s4, 0xff, s4		; GFX7-NEXT: s_lshl_b32 s4, 0xff, s4
; GFX7-NEXT: s_andn2_b32 s4, s6, s4		; GFX7-NEXT: s_andn2_b32 s4, s6, s4
; GFX7-NEXT: v_or_b32_e32 v5, s4, v0		; GFX7-NEXT: v_or_b32_e32 v4, s4, v0
; GFX7-NEXT: v_mov_b32_e32 v0, s0		; GFX7-NEXT: v_mov_b32_e32 v0, s0
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
; GFX7-NEXT: v_mov_b32_e32 v1, s1		; GFX7-NEXT: v_mov_b32_e32 v1, s1
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
; GFX7-NEXT: v_mov_b32_e32 v2, s2		; GFX7-NEXT: v_mov_b32_e32 v2, s2
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 2
; GFX7-NEXT: v_mov_b32_e32 v3, s3		; GFX7-NEXT: v_mov_b32_e32 v3, s3
; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 3
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
; GFX7-NEXT: v_and_b32_e32 v9, v0, v4		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v5		; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
; GFX7-NEXT: v_and_b32_e32 v5, v1, v4		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_or_b32_e32 v5, v5, v9		; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v1, v5, v1		; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v5		; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
; GFX7-NEXT: v_and_b32_e32 v5, v2, v4		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_or_b32_e32 v5, v5, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_or_b32_e32 v2, v5, v2		; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
; GFX7-NEXT: v_or_b32_e32 v2, v2, v5
; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
; GFX7-NEXT: v_and_b32_e32 v4, v3, v4		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v3, v4, v3		; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v16i8_v_s:		; GFX10-LABEL: insertelement_s_v16i8_v_s:
▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
; GFX7-NEXT: v_mov_b32_e32 v5, s11		; GFX7-NEXT: v_mov_b32_e32 v5, s11
; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
; GFX7-NEXT: v_lshl_b32_e32 v2, s4, v0		; GFX7-NEXT: v_lshl_b32_e32 v2, s4, v0
; GFX7-NEXT: v_lshl_b32_e32 v0, 0xff, v0		; GFX7-NEXT: v_lshl_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v5, s[2:3]
; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0		; GFX7-NEXT: v_xor_b32_e32 v0, -1, v0
; GFX7-NEXT: v_and_b32_e32 v0, v1, v0		; GFX7-NEXT: v_and_b32_e32 v0, v1, v0
; GFX7-NEXT: v_or_b32_e32 v6, v0, v2		; GFX7-NEXT: v_or_b32_e32 v5, v0, v2
; GFX7-NEXT: v_mov_b32_e32 v0, s8		; GFX7-NEXT: v_mov_b32_e32 v0, s8
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
; GFX7-NEXT: v_mov_b32_e32 v5, 0xff		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
; GFX7-NEXT: v_mov_b32_e32 v1, s9		; GFX7-NEXT: v_mov_b32_e32 v1, s9
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
; GFX7-NEXT: v_and_b32_e32 v9, v0, v5		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_mov_b32_e32 v2, s10		; GFX7-NEXT: v_mov_b32_e32 v2, s10
; GFX7-NEXT: v_mov_b32_e32 v3, s11		; GFX7-NEXT: v_mov_b32_e32 v3, s11
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v4		; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
; GFX7-NEXT: v_and_b32_e32 v4, v1, v5		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v9		; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v1, v4, v1		; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4		; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
; GFX7-NEXT: v_and_b32_e32 v4, v2, v5		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_or_b32_e32 v2, v4, v2		; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
; GFX7-NEXT: v_and_b32_e32 v4, v3, v5
; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v3, v4, v3		; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v16i8_s_v:		; GFX10-LABEL: insertelement_s_v16i8_s_v:
▲ Show 20 Lines • Show All 316 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_or_b32_e32 v3, v3, v6		; GFX8-NEXT: v_or_b32_e32 v3, v3, v6
; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GFX8-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v16i8_v_v:		; GFX7-LABEL: insertelement_s_v16i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0		; GFX7-NEXT: s_load_dwordx4 s[0:3], s[2:3], 0x0
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 2, v1
; GFX7-NEXT: s_movk_i32 s8, 0xff
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v4
; GFX7-NEXT: v_and_b32_e32 v1, 3, v1		; GFX7-NEXT: v_and_b32_e32 v1, 3, v1
		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1
; GFX7-NEXT: s_waitcnt lgkmcnt(0)		; GFX7-NEXT: s_waitcnt lgkmcnt(0)
; GFX7-NEXT: s_bfe_u32 s10, s0, 0x80008		; GFX7-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX7-NEXT: s_lshr_b32 s4, s0, 24		; GFX7-NEXT: s_lshr_b32 s4, s0, 24
; GFX7-NEXT: s_and_b32 s9, s0, 0xff		; GFX7-NEXT: s_and_b32 s8, s0, 0xff
; GFX7-NEXT: s_lshl_b32 s10, s10, 8		; GFX7-NEXT: s_lshl_b32 s9, s9, 8
; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010		; GFX7-NEXT: s_bfe_u32 s0, s0, 0x80010
; GFX7-NEXT: s_or_b32 s9, s9, s10		; GFX7-NEXT: s_or_b32 s8, s8, s9
; GFX7-NEXT: s_lshl_b32 s0, s0, 16		; GFX7-NEXT: s_lshl_b32 s0, s0, 16
; GFX7-NEXT: s_or_b32 s0, s9, s0		; GFX7-NEXT: s_or_b32 s0, s8, s0
; GFX7-NEXT: s_lshl_b32 s4, s4, 24		; GFX7-NEXT: s_lshl_b32 s4, s4, 24
; GFX7-NEXT: s_bfe_u32 s9, s1, 0x80008		; GFX7-NEXT: s_bfe_u32 s8, s1, 0x80008
; GFX7-NEXT: s_lshr_b32 s5, s1, 24		; GFX7-NEXT: s_lshr_b32 s5, s1, 24
; GFX7-NEXT: s_or_b32 s4, s0, s4		; GFX7-NEXT: s_or_b32 s4, s0, s4
; GFX7-NEXT: s_and_b32 s0, s1, 0xff		; GFX7-NEXT: s_and_b32 s0, s1, 0xff
; GFX7-NEXT: s_lshl_b32 s9, s9, 8		; GFX7-NEXT: s_lshl_b32 s8, s8, 8
; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010		; GFX7-NEXT: s_bfe_u32 s1, s1, 0x80010
; GFX7-NEXT: s_or_b32 s0, s0, s9		; GFX7-NEXT: s_or_b32 s0, s0, s8
; GFX7-NEXT: s_lshl_b32 s1, s1, 16		; GFX7-NEXT: s_lshl_b32 s1, s1, 16
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: s_lshl_b32 s1, s5, 24		; GFX7-NEXT: s_lshl_b32 s1, s5, 24
; GFX7-NEXT: s_or_b32 s5, s0, s1		; GFX7-NEXT: s_or_b32 s5, s0, s1
; GFX7-NEXT: s_bfe_u32 s1, s2, 0x80008		; GFX7-NEXT: s_bfe_u32 s1, s2, 0x80008
; GFX7-NEXT: s_and_b32 s0, s2, 0xff		; GFX7-NEXT: s_and_b32 s0, s2, 0xff
; GFX7-NEXT: s_lshl_b32 s1, s1, 8		; GFX7-NEXT: s_lshl_b32 s1, s1, 8
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
Show All 13 Lines
; GFX7-NEXT: s_or_b32 s0, s0, s1		; GFX7-NEXT: s_or_b32 s0, s0, s1
; GFX7-NEXT: s_lshl_b32 s1, s7, 24		; GFX7-NEXT: s_lshl_b32 s1, s7, 24
; GFX7-NEXT: v_mov_b32_e32 v2, s4		; GFX7-NEXT: v_mov_b32_e32 v2, s4
; GFX7-NEXT: v_mov_b32_e32 v3, s5		; GFX7-NEXT: v_mov_b32_e32 v3, s5
; GFX7-NEXT: s_or_b32 s7, s0, s1		; GFX7-NEXT: s_or_b32 s7, s0, s1
; GFX7-NEXT: v_mov_b32_e32 v5, s6		; GFX7-NEXT: v_mov_b32_e32 v5, s6
; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 3, v1		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s8, v0
; GFX7-NEXT: v_mov_b32_e32 v6, s7		; GFX7-NEXT: v_mov_b32_e32 v6, s7
; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, v1, v0
; GFX7-NEXT: v_lshl_b32_e32 v1, s8, v1		; GFX7-NEXT: v_lshl_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[2:3]
; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX7-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
; GFX7-NEXT: v_or_b32_e32 v6, v1, v0		; GFX7-NEXT: v_or_b32_e32 v5, v1, v0
; GFX7-NEXT: v_mov_b32_e32 v0, s4		; GFX7-NEXT: v_mov_b32_e32 v0, s4
; GFX7-NEXT: v_mov_b32_e32 v1, s5		; GFX7-NEXT: v_mov_b32_e32 v1, s5
; GFX7-NEXT: v_mov_b32_e32 v2, s6		; GFX7-NEXT: v_mov_b32_e32 v2, s6
; GFX7-NEXT: v_mov_b32_e32 v3, s7		; GFX7-NEXT: v_mov_b32_e32 v3, s7
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v6, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v5, s[4:5]
; GFX7-NEXT: v_mov_b32_e32 v5, 0xff		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 24, v0
; GFX7-NEXT: v_and_b32_e32 v9, v0, v5		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v4
; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8		; GFX7-NEXT: v_bfe_u32 v8, v1, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[2:3]
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v4		; GFX7-NEXT: v_or_b32_e32 v0, v0, v4
; GFX7-NEXT: v_and_b32_e32 v4, v1, v5		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 8, v8
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v9		; GFX7-NEXT: v_or_b32_e32 v4, v4, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_or_b32_e32 v1, v4, v1		; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v5
; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v4		; GFX7-NEXT: v_or_b32_e32 v1, v1, v4
; GFX7-NEXT: v_and_b32_e32 v4, v2, v5		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 8, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v6		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_or_b32_e32 v2, v4, v2		; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v6
; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
; GFX7-NEXT: v_and_b32_e32 v4, v3, v5
; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v3, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v3
		; GFX7-NEXT: v_or_b32_e32 v2, v2, v4
		; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_or_b32_e32 v4, v4, v5		; GFX7-NEXT: v_or_b32_e32 v4, v4, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v3, v4, v3		; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_s_v16i8_v_v:		; GFX10-LABEL: insertelement_s_v16i8_v_v:
▲ Show 20 Lines • Show All 275 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v16i8_s_v:		; GFX7-LABEL: insertelement_v_v16i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s11, 0xf000
; GFX7-NEXT: s_mov_b64 s[8:9], 0		; GFX7-NEXT: s_mov_b64 s[8:9], 0
; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64		; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: v_lshrrev_b32_e32 v17, 2, v2
; GFX7-NEXT: v_mov_b32_e32 v7, 0xff
; GFX7-NEXT: v_lshrrev_b32_e32 v18, 2, v2
; GFX7-NEXT: v_and_b32_e32 v2, 3, v2		; GFX7-NEXT: v_and_b32_e32 v2, 3, v2
		; GFX7-NEXT: s_and_b32 s0, s2, 0xff
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 3, v2
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v18		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v17
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v18		; GFX7-NEXT: v_lshl_b32_e32 v18, s0, v2
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v17
		; GFX7-NEXT: v_lshl_b32_e32 v2, 0xff, v2
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v17
		; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v17
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_mov_b32 s10, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v11, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
; GFX7-NEXT: v_bfe_u32 v13, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v4
; GFX7-NEXT: v_and_b32_e32 v10, s0, v3		; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_and_b32_e32 v12, s0, v4		; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v4
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_bfe_u32 v15, v5, 8, 8		; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11		; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13		; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v5		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v5
; GFX7-NEXT: v_and_b32_e32 v14, v5, v7		; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v5
; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8		; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
; GFX7-NEXT: v_bfe_u32 v17, v6, 8, 8		; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15		; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
; GFX7-NEXT: v_or_b32_e32 v10, v10, v11		; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
; GFX7-NEXT: v_or_b32_e32 v11, v12, v13		; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6		; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
; GFX7-NEXT: v_and_b32_e32 v16, v6, v7		; GFX7-NEXT: v_and_b32_e32 v15, 0xff, v6
; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8		; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v17, 8, v17		; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
; GFX7-NEXT: v_or_b32_e32 v12, v14, v15		; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
; GFX7-NEXT: v_or_b32_e32 v3, v10, v3		; GFX7-NEXT: v_or_b32_e32 v3, v9, v3
; GFX7-NEXT: v_or_b32_e32 v4, v11, v4		; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
; GFX7-NEXT: s_and_b32 s0, s2, 0xff		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX7-NEXT: v_or_b32_e32 v13, v16, v17		; GFX7-NEXT: v_or_b32_e32 v12, v15, v16
; GFX7-NEXT: v_or_b32_e32 v5, v12, v5		; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
; GFX7-NEXT: v_or_b32_e32 v0, v3, v0		; GFX7-NEXT: v_or_b32_e32 v0, v3, v0
; GFX7-NEXT: v_or_b32_e32 v1, v4, v1		; GFX7-NEXT: v_or_b32_e32 v1, v4, v1
; GFX7-NEXT: v_lshl_b32_e32 v19, s0, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9		; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
; GFX7-NEXT: v_or_b32_e32 v6, v13, v6		; GFX7-NEXT: v_or_b32_e32 v3, v5, v7
; GFX7-NEXT: v_or_b32_e32 v3, v5, v8
; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v18		; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v2, v7
; GFX7-NEXT: v_or_b32_e32 v4, v6, v9
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v18
; GFX7-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
; GFX7-NEXT: v_and_b32_e32 v2, v5, v2		; GFX7-NEXT: v_and_b32_e32 v2, v5, v2
; GFX7-NEXT: v_or_b32_e32 v2, v2, v19		; GFX7-NEXT: v_or_b32_e32 v2, v2, v18
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[0:1]
		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
		; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[2:3]
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v9, v0, v7
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_and_b32_e32 v11, v1, v7		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_bfe_u32 v14, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
; GFX7-NEXT: v_and_b32_e32 v13, v3, v7		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_or_b32_e32 v10, v11, v12		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_or_b32_e32 v11, v13, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v1, v10, v1		; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
		; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
		; GFX7-NEXT: v_or_b32_e32 v3, v10, v3
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX7-NEXT: v_or_b32_e32 v1, v1, v5		; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
; GFX7-NEXT: v_or_b32_e32 v2, v11, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6
; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_and_b32_e32 v3, v4, v7		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_or_b32_e32 v3, v3, v5		; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v16i8_s_v:		; GFX10-LABEL: insertelement_v_v16i8_s_v:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off		; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
▲ Show 20 Lines • Show All 250 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v16i8_v_s:		; GFX7-LABEL: insertelement_v_v16i8_v_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s11, 0xf000
; GFX7-NEXT: s_mov_b64 s[8:9], 0		; GFX7-NEXT: s_mov_b64 s[8:9], 0
; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64		; GFX7-NEXT: buffer_load_dwordx4 v[3:6], v[0:1], s[8:11], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v2
; GFX7-NEXT: v_mov_b32_e32 v7, 0xff		; GFX7-NEXT: s_and_b32 s0, s2, 3
; GFX7-NEXT: s_lshr_b32 s4, s2, 2		; GFX7-NEXT: s_lshr_b32 s4, s2, 2
; GFX7-NEXT: v_and_b32_e32 v2, v2, v7		; GFX7-NEXT: s_lshl_b32 s0, s0, 3
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, s0, v0
		; GFX7-NEXT: s_lshl_b32 s0, 0xff, s0
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s4, 1
		; GFX7-NEXT: s_not_b32 s5, s0
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_mov_b32 s10, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v11, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v10, v3, 8, 8
; GFX7-NEXT: v_bfe_u32 v13, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v3
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v4
; GFX7-NEXT: v_and_b32_e32 v10, s0, v3		; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_and_b32_e32 v12, s0, v4		; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v4
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_bfe_u32 v15, v5, 8, 8		; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11		; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13		; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v5		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v5
; GFX7-NEXT: v_and_b32_e32 v14, v5, v7		; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v5
; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8		; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
; GFX7-NEXT: v_bfe_u32 v17, v6, 8, 8		; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8
; GFX7-NEXT: s_and_b32 s0, s2, 3
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15		; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14
; GFX7-NEXT: v_or_b32_e32 v10, v10, v11		; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
; GFX7-NEXT: v_or_b32_e32 v11, v12, v13		; GFX7-NEXT: v_or_b32_e32 v10, v11, v12
; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6		; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
; GFX7-NEXT: v_and_b32_e32 v16, v6, v7		; GFX7-NEXT: v_and_b32_e32 v15, 0xff, v6
; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8		; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
; GFX7-NEXT: s_lshl_b32 s0, s0, 3
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v17, 8, v17		; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16
; GFX7-NEXT: v_or_b32_e32 v12, v14, v15		; GFX7-NEXT: v_or_b32_e32 v11, v13, v14
; GFX7-NEXT: v_or_b32_e32 v3, v10, v3		; GFX7-NEXT: v_or_b32_e32 v3, v9, v3
; GFX7-NEXT: v_or_b32_e32 v4, v11, v4		; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v2, s0, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 24, v7
; GFX7-NEXT: s_lshl_b32 s0, 0xff, s0
; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX7-NEXT: v_or_b32_e32 v13, v16, v17		; GFX7-NEXT: v_or_b32_e32 v12, v15, v16
; GFX7-NEXT: v_or_b32_e32 v5, v12, v5		; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
; GFX7-NEXT: v_or_b32_e32 v0, v3, v0		; GFX7-NEXT: v_or_b32_e32 v1, v3, v1
; GFX7-NEXT: v_or_b32_e32 v1, v4, v1		; GFX7-NEXT: v_or_b32_e32 v2, v4, v2
; GFX7-NEXT: s_not_b32 s5, s0		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9		; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
; GFX7-NEXT: v_or_b32_e32 v6, v13, v6		; GFX7-NEXT: v_or_b32_e32 v3, v5, v7
; GFX7-NEXT: v_or_b32_e32 v3, v5, v8		; GFX7-NEXT: v_cndmask_b32_e32 v5, v1, v2, vcc
; GFX7-NEXT: v_cndmask_b32_e32 v5, v0, v1, vcc		; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], s4, 2
; GFX7-NEXT: v_or_b32_e32 v4, v6, v9
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v3, s[0:1]
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], s4, 3
; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v5, v5, v4, s[2:3]
; GFX7-NEXT: v_and_b32_e32 v5, s5, v5		; GFX7-NEXT: v_and_b32_e32 v5, s5, v5
; GFX7-NEXT: v_or_b32_e32 v2, v5, v2		; GFX7-NEXT: v_or_b32_e32 v0, v5, v0
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], s4, 0
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v1, v1, v0, s[4:5]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8		; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v0, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v3, v3, v2, s[0:1]		; GFX7-NEXT: v_bfe_u32 v9, v1, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v2, s[2:3]		; GFX7-NEXT: v_bfe_u32 v11, v2, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_cndmask_b32_e64 v4, v4, v0, s[2:3]
; GFX7-NEXT: v_and_b32_e32 v9, v0, v7		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v1
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v2
; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_and_b32_e32 v11, v1, v7
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_bfe_u32 v14, v3, 8, 8		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 8
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
; GFX7-NEXT: v_and_b32_e32 v13, v3, v7		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX7-NEXT: v_or_b32_e32 v10, v11, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
		; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_or_b32_e32 v11, v13, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v1, v10, v1		; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v1, v8, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v3		; GFX7-NEXT: v_or_b32_e32 v2, v9, v2
; GFX7-NEXT: v_or_b32_e32 v1, v1, v5		; GFX7-NEXT: v_or_b32_e32 v3, v10, v3
; GFX7-NEXT: v_or_b32_e32 v2, v11, v2		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6		; GFX7-NEXT: v_or_b32_e32 v1, v2, v5
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v6
; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_and_b32_e32 v3, v4, v7		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_or_b32_e32 v3, v3, v5		; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v8		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
;		;
; GFX10-LABEL: insertelement_v_v16i8_v_s:		; GFX10-LABEL: insertelement_v_v16i8_v_s:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off		; GFX10-NEXT: global_load_dwordx4 v[3:6], v[0:1], off
; GFX10-NEXT: s_mov_b32 s0, 8		; GFX10-NEXT: s_mov_b32 s0, 8
▲ Show 20 Lines • Show All 249 Lines • ▼ Show 20 Lines
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v16i8_v_v:		; GFX7-LABEL: insertelement_v_v16i8_v_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s10, 0		; GFX7-NEXT: s_mov_b32 s10, 0
; GFX7-NEXT: s_mov_b32 s11, 0xf000		; GFX7-NEXT: s_mov_b32 s11, 0xf000
; GFX7-NEXT: s_mov_b64 s[8:9], 0		; GFX7-NEXT: s_mov_b64 s[8:9], 0
; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64		; GFX7-NEXT: buffer_load_dwordx4 v[4:7], v[0:1], s[8:11], 0 addr64
; GFX7-NEXT: s_movk_i32 s0, 0xff		; GFX7-NEXT: v_lshrrev_b32_e32 v18, 2, v3
; GFX7-NEXT: v_mov_b32_e32 v8, 0xff
; GFX7-NEXT: v_lshrrev_b32_e32 v19, 2, v3
; GFX7-NEXT: v_and_b32_e32 v3, 3, v3		; GFX7-NEXT: v_and_b32_e32 v3, 3, v3
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v19		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v18
; GFX7-NEXT: v_and_b32_e32 v2, v2, v8		; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 3, v3
		; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v18
; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, v3, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v3, v3, v8		; GFX7-NEXT: v_lshl_b32_e32 v3, 0xff, v3
; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v19		; GFX7-NEXT: v_cmp_eq_u32_e64 s[2:3], 3, v18
; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3		; GFX7-NEXT: v_xor_b32_e32 v3, -1, v3
; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v19		; GFX7-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v18
; GFX7-NEXT: s_mov_b32 s10, -1		; GFX7-NEXT: s_mov_b32 s10, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_bfe_u32 v12, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v11, v4, 8, 8
; GFX7-NEXT: v_bfe_u32 v14, v5, 8, 8		; GFX7-NEXT: v_bfe_u32 v13, v5, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v4
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v5		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v5
; GFX7-NEXT: v_and_b32_e32 v11, s0, v4		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v4
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_and_b32_e32 v13, s0, v5		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v5
; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8		; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
; GFX7-NEXT: v_bfe_u32 v16, v6, 8, 8		; GFX7-NEXT: v_bfe_u32 v15, v6, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v6		; GFX7-NEXT: v_lshrrev_b32_e32 v8, 24, v6
; GFX7-NEXT: v_and_b32_e32 v15, v6, v8		; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v6
; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8		; GFX7-NEXT: v_bfe_u32 v6, v6, 16, 8
; GFX7-NEXT: v_bfe_u32 v18, v7, 8, 8		; GFX7-NEXT: v_bfe_u32 v17, v7, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v16, 8, v16		; GFX7-NEXT: v_lshlrev_b32_e32 v15, 8, v15
; GFX7-NEXT: v_or_b32_e32 v11, v11, v12		; GFX7-NEXT: v_or_b32_e32 v10, v10, v11
; GFX7-NEXT: v_or_b32_e32 v12, v13, v14		; GFX7-NEXT: v_or_b32_e32 v11, v12, v13
; GFX7-NEXT: v_lshrrev_b32_e32 v10, 24, v7		; GFX7-NEXT: v_lshrrev_b32_e32 v9, 24, v7
; GFX7-NEXT: v_and_b32_e32 v17, v7, v8		; GFX7-NEXT: v_and_b32_e32 v16, 0xff, v7
; GFX7-NEXT: v_bfe_u32 v7, v7, 16, 8		; GFX7-NEXT: v_bfe_u32 v7, v7, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 24, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 24, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6		; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v18, 8, v18		; GFX7-NEXT: v_lshlrev_b32_e32 v17, 8, v17
; GFX7-NEXT: v_or_b32_e32 v13, v15, v16		; GFX7-NEXT: v_or_b32_e32 v12, v14, v15
; GFX7-NEXT: v_or_b32_e32 v4, v11, v4		; GFX7-NEXT: v_or_b32_e32 v4, v10, v4
; GFX7-NEXT: v_or_b32_e32 v5, v12, v5		; GFX7-NEXT: v_or_b32_e32 v5, v11, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9		; GFX7-NEXT: v_lshlrev_b32_e32 v8, 24, v8
; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v7
; GFX7-NEXT: v_or_b32_e32 v14, v17, v18		; GFX7-NEXT: v_or_b32_e32 v13, v16, v17
; GFX7-NEXT: v_or_b32_e32 v6, v13, v6		; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
; GFX7-NEXT: v_or_b32_e32 v0, v4, v0		; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
; GFX7-NEXT: v_or_b32_e32 v1, v5, v1		; GFX7-NEXT: v_or_b32_e32 v1, v5, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 24, v10		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 24, v9
; GFX7-NEXT: v_or_b32_e32 v7, v14, v7		; GFX7-NEXT: v_or_b32_e32 v7, v13, v7
; GFX7-NEXT: v_or_b32_e32 v4, v6, v9		; GFX7-NEXT: v_or_b32_e32 v4, v6, v8
; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v6, v0, v1, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 s[0:1], 2, v19		; GFX7-NEXT: v_or_b32_e32 v5, v7, v9
; GFX7-NEXT: v_or_b32_e32 v5, v7, v10
; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v4, s[0:1]
; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v6, v6, v5, s[2:3]
; GFX7-NEXT: v_and_b32_e32 v3, v6, v3		; GFX7-NEXT: v_and_b32_e32 v3, v6, v3
; GFX7-NEXT: v_or_b32_e32 v2, v3, v2		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]		; GFX7-NEXT: v_cndmask_b32_e64 v0, v0, v2, s[4:5]
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[0:1]		; GFX7-NEXT: v_cndmask_b32_e64 v3, v4, v2, s[0:1]
		; GFX7-NEXT: v_bfe_u32 v9, v0, 8, 8
		; GFX7-NEXT: v_bfe_u32 v11, v1, 8, 8
; GFX7-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[2:3]		; GFX7-NEXT: v_cndmask_b32_e64 v4, v5, v2, s[2:3]
; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v0
; GFX7-NEXT: v_and_b32_e32 v9, v0, v8
; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
; GFX7-NEXT: v_bfe_u32 v12, v1, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v10
; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v1
; GFX7-NEXT: v_and_b32_e32 v11, v1, v8		; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v0
		; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
		; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v1
; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8		; GFX7-NEXT: v_bfe_u32 v1, v1, 16, 8
; GFX7-NEXT: v_bfe_u32 v14, v3, 8, 8		; GFX7-NEXT: v_bfe_u32 v13, v3, 8, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v12		; GFX7-NEXT: v_lshlrev_b32_e32 v11, 8, v11
; GFX7-NEXT: v_or_b32_e32 v9, v9, v10
; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3		; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v3
; GFX7-NEXT: v_and_b32_e32 v13, v3, v8		; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v3
; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8		; GFX7-NEXT: v_bfe_u32 v3, v3, 16, 8
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v13, 8, v13
; GFX7-NEXT: v_or_b32_e32 v10, v11, v12		; GFX7-NEXT: v_or_b32_e32 v8, v8, v9
; GFX7-NEXT: v_or_b32_e32 v0, v9, v0		; GFX7-NEXT: v_or_b32_e32 v9, v10, v11
		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 24, v5
; GFX7-NEXT: v_or_b32_e32 v11, v13, v14		; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX7-NEXT: v_or_b32_e32 v1, v10, v1		; GFX7-NEXT: v_or_b32_e32 v10, v12, v13
		; GFX7-NEXT: v_or_b32_e32 v0, v8, v0
		; GFX7-NEXT: v_or_b32_e32 v1, v9, v1
		; GFX7-NEXT: v_or_b32_e32 v3, v10, v3
; GFX7-NEXT: v_or_b32_e32 v0, v0, v2		; GFX7-NEXT: v_or_b32_e32 v0, v0, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v3
; GFX7-NEXT: v_or_b32_e32 v1, v1, v5		; GFX7-NEXT: v_or_b32_e32 v1, v1, v5
; GFX7-NEXT: v_or_b32_e32 v2, v11, v2		; GFX7-NEXT: v_lshlrev_b32_e32 v2, 24, v6
; GFX7-NEXT: v_lshlrev_b32_e32 v3, 24, v6
; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8		; GFX7-NEXT: v_bfe_u32 v5, v4, 8, 8
; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4		; GFX7-NEXT: v_lshrrev_b32_e32 v7, 24, v4
; GFX7-NEXT: v_or_b32_e32 v2, v2, v3		; GFX7-NEXT: v_or_b32_e32 v2, v3, v2
; GFX7-NEXT: v_and_b32_e32 v3, v4, v8		; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5		; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8		; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
; GFX7-NEXT: v_or_b32_e32 v3, v3, v5		; GFX7-NEXT: v_or_b32_e32 v3, v3, v5
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7		; GFX7-NEXT: v_lshlrev_b32_e32 v4, 24, v7
; GFX7-NEXT: v_or_b32_e32 v3, v3, v4		; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0		; GFX7-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

	Show First 20 Lines • Show All 502 Lines • ▼ Show 20 Lines
	; GFX8-UNPACKED-NEXT: s_mov_b32 s1, s3			; GFX8-UNPACKED-NEXT: s_mov_b32 s1, s3
	; GFX8-UNPACKED-NEXT: s_mov_b32 s2, s4			; GFX8-UNPACKED-NEXT: s_mov_b32 s2, s4
	; GFX8-UNPACKED-NEXT: s_mov_b32 s3, s5			; GFX8-UNPACKED-NEXT: s_mov_b32 s3, s5
	; GFX8-UNPACKED-NEXT: s_mov_b32 s4, s6			; GFX8-UNPACKED-NEXT: s_mov_b32 s4, s6
	; GFX8-UNPACKED-NEXT: s_mov_b32 s5, s7			; GFX8-UNPACKED-NEXT: s_mov_b32 s5, s7
	; GFX8-UNPACKED-NEXT: s_mov_b32 s6, s8			; GFX8-UNPACKED-NEXT: s_mov_b32 s6, s8
	; GFX8-UNPACKED-NEXT: s_mov_b32 s7, s9			; GFX8-UNPACKED-NEXT: s_mov_b32 s7, s9
	; GFX8-UNPACKED-NEXT: image_load v[0:2], v0, s[0:7] dmask:0x7 unorm d16			; GFX8-UNPACKED-NEXT: image_load v[0:2], v0, s[0:7] dmask:0x7 unorm d16
	; GFX8-UNPACKED-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-UNPACKED-NEXT: s_waitcnt vmcnt(0)			; GFX8-UNPACKED-NEXT: s_waitcnt vmcnt(0)
	; GFX8-UNPACKED-NEXT: v_and_b32_e32 v3, s0, v1			; GFX8-UNPACKED-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX8-UNPACKED-NEXT: v_and_b32_e32 v1, s0, v2			; GFX8-UNPACKED-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-UNPACKED-NEXT: ; return to shader part epilog			; GFX8-UNPACKED-NEXT: ; return to shader part epilog
	;			;
	; GFX8-PACKED-LABEL: load_1d_v3f16_xyz:			; GFX8-PACKED-LABEL: load_1d_v3f16_xyz:
	; GFX8-PACKED: ; %bb.0:			; GFX8-PACKED: ; %bb.0:
	; GFX8-PACKED-NEXT: s_mov_b32 s0, s2			; GFX8-PACKED-NEXT: s_mov_b32 s0, s2
	; GFX8-PACKED-NEXT: s_mov_b32 s1, s3			; GFX8-PACKED-NEXT: s_mov_b32 s1, s3
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; GFX8-UNPACKED-NEXT: s_mov_b32 s1, s3			; GFX8-UNPACKED-NEXT: s_mov_b32 s1, s3
	; GFX8-UNPACKED-NEXT: s_mov_b32 s2, s4			; GFX8-UNPACKED-NEXT: s_mov_b32 s2, s4
	; GFX8-UNPACKED-NEXT: s_mov_b32 s3, s5			; GFX8-UNPACKED-NEXT: s_mov_b32 s3, s5
	; GFX8-UNPACKED-NEXT: s_mov_b32 s4, s6			; GFX8-UNPACKED-NEXT: s_mov_b32 s4, s6
	; GFX8-UNPACKED-NEXT: s_mov_b32 s5, s7			; GFX8-UNPACKED-NEXT: s_mov_b32 s5, s7
	; GFX8-UNPACKED-NEXT: s_mov_b32 s6, s8			; GFX8-UNPACKED-NEXT: s_mov_b32 s6, s8
	; GFX8-UNPACKED-NEXT: s_mov_b32 s7, s9			; GFX8-UNPACKED-NEXT: s_mov_b32 s7, s9
	; GFX8-UNPACKED-NEXT: image_load v[0:3], v0, s[0:7] dmask:0xf unorm d16			; GFX8-UNPACKED-NEXT: image_load v[0:3], v0, s[0:7] dmask:0xf unorm d16
	; GFX8-UNPACKED-NEXT: s_mov_b32 s0, 0xffff
	; GFX8-UNPACKED-NEXT: s_waitcnt vmcnt(0)			; GFX8-UNPACKED-NEXT: s_waitcnt vmcnt(0)
	; GFX8-UNPACKED-NEXT: v_and_b32_e32 v1, s0, v1			; GFX8-UNPACKED-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX8-UNPACKED-NEXT: v_and_b32_e32 v3, s0, v3			; GFX8-UNPACKED-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX8-UNPACKED-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v1, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-UNPACKED-NEXT: v_or_b32_sdwa v1, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-UNPACKED-NEXT: ; return to shader part epilog			; GFX8-UNPACKED-NEXT: ; return to shader part epilog
	;			;
	; GFX8-PACKED-LABEL: load_1d_v4f16_xyzw:			; GFX8-PACKED-LABEL: load_1d_v4f16_xyzw:
	; GFX8-PACKED: ; %bb.0:			; GFX8-PACKED: ; %bb.0:
	▲ Show 20 Lines • Show All 356 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.sdot4.ll

	Show All 40 Lines
	define i32 @v_sdot4_cast_v4i8(<4 x i8> %a, <4 x i8> %b, i32 %c) {			define i32 @v_sdot4_cast_v4i8(<4 x i8> %a, <4 x i8> %b, i32 %c) {
	; GFX906-LABEL: v_sdot4_cast_v4i8:			; GFX906-LABEL: v_sdot4_cast_v4i8:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: s_mov_b32 s5, 8			; GFX906-NEXT: s_mov_b32 s5, 8
	; GFX906-NEXT: s_movk_i32 s4, 0xff			; GFX906-NEXT: s_movk_i32 s4, 0xff
	; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX906-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX906-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX906-NEXT: v_and_b32_e32 v1, s4, v2			; GFX906-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX906-NEXT: v_and_b32_e32 v2, s4, v3			; GFX906-NEXT: v_and_b32_e32 v2, 0xff, v3
	; GFX906-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX906-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX906-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX906-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX906-NEXT: v_or3_b32 v0, v0, v1, v2			; GFX906-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX906-NEXT: v_and_b32_e32 v2, s4, v6			; GFX906-NEXT: v_and_b32_e32 v2, 0xff, v6
	; GFX906-NEXT: v_and_b32_e32 v3, s4, v7			; GFX906-NEXT: v_and_b32_e32 v3, 0xff, v7
	; GFX906-NEXT: v_and_or_b32 v1, v4, s4, v1			; GFX906-NEXT: v_and_or_b32 v1, v4, s4, v1
	; GFX906-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX906-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX906-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX906-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX906-NEXT: v_or3_b32 v1, v1, v2, v3			; GFX906-NEXT: v_or3_b32 v1, v1, v2, v3
	; GFX906-NEXT: v_dot4_i32_i8 v0, v0, v1, v8			; GFX906-NEXT: v_dot4_i32_i8 v0, v0, v1, v8
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_sdot4_cast_v4i8:			; GFX10-LABEL: v_sdot4_cast_v4i8:
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.udot4.ll

	Show All 40 Lines
	define i32 @v_udot4_cast_v4i8(<4 x i8> %a, <4 x i8> %b, i32 %c) {			define i32 @v_udot4_cast_v4i8(<4 x i8> %a, <4 x i8> %b, i32 %c) {
	; GFX906-LABEL: v_udot4_cast_v4i8:			; GFX906-LABEL: v_udot4_cast_v4i8:
	; GFX906: ; %bb.0:			; GFX906: ; %bb.0:
	; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX906-NEXT: s_mov_b32 s5, 8			; GFX906-NEXT: s_mov_b32 s5, 8
	; GFX906-NEXT: s_movk_i32 s4, 0xff			; GFX906-NEXT: s_movk_i32 s4, 0xff
	; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX906-NEXT: v_and_or_b32 v0, v0, s4, v1			; GFX906-NEXT: v_and_or_b32 v0, v0, s4, v1
	; GFX906-NEXT: v_and_b32_e32 v1, s4, v2			; GFX906-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX906-NEXT: v_and_b32_e32 v2, s4, v3			; GFX906-NEXT: v_and_b32_e32 v2, 0xff, v3
	; GFX906-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX906-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX906-NEXT: v_lshlrev_b32_e32 v2, 24, v2			; GFX906-NEXT: v_lshlrev_b32_e32 v2, 24, v2
	; GFX906-NEXT: v_or3_b32 v0, v0, v1, v2			; GFX906-NEXT: v_or3_b32 v0, v0, v1, v2
	; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX906-NEXT: v_lshlrev_b32_sdwa v1, s5, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX906-NEXT: v_and_b32_e32 v2, s4, v6			; GFX906-NEXT: v_and_b32_e32 v2, 0xff, v6
	; GFX906-NEXT: v_and_b32_e32 v3, s4, v7			; GFX906-NEXT: v_and_b32_e32 v3, 0xff, v7
	; GFX906-NEXT: v_and_or_b32 v1, v4, s4, v1			; GFX906-NEXT: v_and_or_b32 v1, v4, s4, v1
	; GFX906-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX906-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX906-NEXT: v_lshlrev_b32_e32 v3, 24, v3			; GFX906-NEXT: v_lshlrev_b32_e32 v3, 24, v3
	; GFX906-NEXT: v_or3_b32 v1, v1, v2, v3			; GFX906-NEXT: v_or3_b32 v1, v1, v2, v3
	; GFX906-NEXT: v_dot4_u32_u8 v0, v0, v1, v8			; GFX906-NEXT: v_dot4_u32_u8 v0, v0, v1, v8
	; GFX906-NEXT: s_setpc_b64 s[30:31]			; GFX906-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_udot4_cast_v4i8:			; GFX10-LABEL: v_udot4_cast_v4i8:
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/lshr.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,GFX6 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,GFX6 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck -check-prefixes=GCN,GFX8 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck -check-prefixes=GCN,GFX8 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck -check-prefixes=GFX10 %s		; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck -check-prefixes=GFX10 %s

define i8 @v_lshr_i8(i8 %value, i8 %amount) {		define i8 @v_lshr_i8(i8 %value, i8 %amount) {
; GFX6-LABEL: v_lshr_i8:		; GFX6-LABEL: v_lshr_i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s4, 0xff		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v1, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_i8:		; GFX8-LABEL: v_lshr_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
ret i8 %result		ret i8 %result
}		}


define i24 @v_lshr_i24(i24 %value, i24 %amount) {		define i24 @v_lshr_i24(i24 %value, i24 %amount) {
; GCN-LABEL: v_lshr_i24:		; GCN-LABEL: v_lshr_i24:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0xffffff		; GCN-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GCN-NEXT: v_and_b32_e32 v1, s4, v1		; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GCN-NEXT: v_and_b32_e32 v0, s4, v0
; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0		; GCN-NEXT: v_lshrrev_b32_e32 v0, v1, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_lshr_i24:		; GFX10-LABEL: v_lshr_i24:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_and_b32_e32 v1, 0xffffff, v1		; GFX10-NEXT: v_and_b32_e32 v1, 0xffffff, v1
▲ Show 20 Lines • Show All 430 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = lshr <16 x i32> %value, %amount		%result = lshr <16 x i32> %value, %amount
ret <16 x i32> %result		ret <16 x i32> %result
}		}

define i16 @v_lshr_i16(i16 %value, i16 %amount) {		define i16 @v_lshr_i16(i16 %value, i16 %amount) {
; GFX6-LABEL: v_lshr_i16:		; GFX6-LABEL: v_lshr_i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v1, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v1, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_i16:		; GFX8-LABEL: v_lshr_i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e32 v0, v1, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v0, v1, v0
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_lshr_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_lshr_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_lshr_v2i16:		; GFX6-LABEL: v_lshr_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_v2i16:		; GFX8-LABEL: v_lshr_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshrrev_b16_e32 v2, v1, v0		; GFX8-NEXT: v_lshrrev_b16_e32 v2, v1, v0
; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_lshrrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = lshr <2 x i16> %value, %amount		%result = lshr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @lshr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @lshr_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: lshr_v2i16_sv:		; GFX6-LABEL: lshr_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: s_and_b32 s0, s0, 0xffff		; GFX6-NEXT: s_and_b32 s0, s0, 0xffff
; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshr_b32_e32 v0, s0, v0
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: s_and_b32 s0, s1, 0xffff		; GFX6-NEXT: s_and_b32 s0, s1, 0xffff
; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshr_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: lshr_v2i16_sv:		; GFX8-LABEL: lshr_v2i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
Show All 16 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = lshr <2 x i16> %value, %amount		%result = lshr <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to float		%cast = bitcast <2 x i16> %result to float
ret float %cast		ret float %cast
}		}

define amdgpu_ps float @lshr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @lshr_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: lshr_v2i16_vs:		; GFX6-LABEL: lshr_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: s_and_b32 s0, s0, 0xffff		; GFX6-NEXT: s_and_b32 s0, s0, 0xffff
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s1, 0xffff		; GFX6-NEXT: s_and_b32 s0, s1, 0xffff
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, s0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: lshr_v2i16_vs:		; GFX8-LABEL: lshr_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
Show All 27 Lines
; %result = lshr <3 x i16> %value, %amount		; %result = lshr <3 x i16> %value, %amount
; ret <3 x i16> %result		; ret <3 x i16> %result
; }		; }

define <2 x float> @v_lshr_v4i16(<4 x i16> %value, <4 x i16> %amount) {		define <2 x float> @v_lshr_v4i16(<4 x i16> %value, <4 x i16> %amount) {
; GFX6-LABEL: v_lshr_v4i16:		; GFX6-LABEL: v_lshr_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v4, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v4, v0
; GFX6-NEXT: v_and_b32_e32 v4, s4, v5		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v5
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v4, v1
; GFX6-NEXT: v_and_b32_e32 v4, s4, v6		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v4, v2
; GFX6-NEXT: v_and_b32_e32 v4, s4, v7		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v3, v4, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v3, v4, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_lshr_v4i16:		; GFX8-LABEL: v_lshr_v4i16:
▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
; %cast = bitcast <6 x i16> %result to <3 x i32>		; %cast = bitcast <6 x i16> %result to <3 x i32>
; ret <3 x i32> %cast		; ret <3 x i32> %cast
; }		; }

define <4 x float> @v_lshr_v8i16(<8 x i16> %value, <8 x i16> %amount) {		define <4 x float> @v_lshr_v8i16(<8 x i16> %value, <8 x i16> %amount) {
; GFX6-LABEL: v_lshr_v8i16:		; GFX6-LABEL: v_lshr_v8i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX6-NEXT: v_and_b32_e32 v8, s4, v8		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v0, v8, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v0, v8, v0
; GFX6-NEXT: v_and_b32_e32 v8, s4, v9		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v9
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, v8, v1		; GFX6-NEXT: v_lshrrev_b32_e32 v1, v8, v1
; GFX6-NEXT: v_and_b32_e32 v8, s4, v10		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v10
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_lshrrev_b32_e32 v2, v8, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v2, v8, v2
; GFX6-NEXT: v_and_b32_e32 v8, s4, v11		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v11
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v3, v8, v3		; GFX6-NEXT: v_lshrrev_b32_e32 v3, v8, v3
; GFX6-NEXT: v_and_b32_e32 v8, s4, v12		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v12
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_lshrrev_b32_e32 v4, v8, v4		; GFX6-NEXT: v_lshrrev_b32_e32 v4, v8, v4
; GFX6-NEXT: v_and_b32_e32 v8, s4, v13		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v13
; GFX6-NEXT: v_and_b32_e32 v5, s4, v5		; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX6-NEXT: v_mov_b32_e32 v16, 0xffff
; GFX6-NEXT: v_lshrrev_b32_e32 v5, v8, v5		; GFX6-NEXT: v_lshrrev_b32_e32 v5, v8, v5
; GFX6-NEXT: v_and_b32_e32 v8, s4, v14		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v14
; GFX6-NEXT: v_and_b32_e32 v6, s4, v6		; GFX6-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX6-NEXT: v_lshrrev_b32_e32 v6, v8, v6		; GFX6-NEXT: v_lshrrev_b32_e32 v6, v8, v6
; GFX6-NEXT: v_and_b32_e32 v8, v15, v16		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v15
; GFX6-NEXT: v_and_b32_e32 v7, v7, v16		; GFX6-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v7, v8, v7		; GFX6-NEXT: v_lshrrev_b32_e32 v7, v8, v7
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_or_b32_e32 v1, v2, v1		; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7
; GFX6-NEXT: v_or_b32_e32 v2, v4, v2		; GFX6-NEXT: v_or_b32_e32 v2, v4, v2
▲ Show 20 Lines • Show All 719 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll

Show All 32 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = mul i16 %num, %den		%result = mul i16 %num, %den
ret i16 %result		ret i16 %result
}		}

define i16 @v_mul_i16(i16 %num, i16 %den) {		define i16 @v_mul_i16(i16 %num, i16 %den) {
; GFX7-LABEL: v_mul_i16:		; GFX7-LABEL: v_mul_i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_mov_b32 s4, 0xffff		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_i16:		; GFX8-LABEL: v_mul_i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_mul_lo_u16_e32 v0, v0, v1		; GFX8-NEXT: v_mul_lo_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = mul i16 %num, %den		%result = mul i16 %num, %den
ret i16 %result		ret i16 %result
}		}

define signext i16 @v_mul_i16_signext(i16 signext %num, i16 signext %den) {		define signext i16 @v_mul_i16_signext(i16 signext %num, i16 signext %den) {
; GFX7-LABEL: v_mul_i16_signext:		; GFX7-LABEL: v_mul_i16_signext:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_mov_b32 s4, 0xffff		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v1		; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v1
; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 16		; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 16
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_mul_i16_signext:		; GFX8-LABEL: v_mul_i16_signext:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_mul_lo_u16_e32 v0, v0, v1		; GFX8-NEXT: v_mul_lo_u16_e32 v0, v0, v1
▲ Show 20 Lines • Show All 2,642 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/mul.v2i16.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_mul_lo_u16 v0, v0, v1 neg_lo:[1,1] neg_hi:[1,1]			; GFX9-NEXT: v_pk_mul_lo_u16 v0, v0, v1 neg_lo:[1,1] neg_hi:[1,1]
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_mul_v2i16_fneg_lhs_fneg_rhs:			; GFX8-LABEL: v_mul_v2i16_fneg_lhs_fneg_rhs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_mov_b32 s4, 0x80008000			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s4, v0			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80008000, v1
	; GFX8-NEXT: v_xor_b32_e32 v1, s4, v1
	; GFX8-NEXT: v_mul_lo_u16_e32 v2, v0, v1			; GFX8-NEXT: v_mul_lo_u16_e32 v2, v0, v1
	; GFX8-NEXT: v_mul_lo_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX8-NEXT: v_mul_lo_u16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX8-NEXT: v_or_b32_e32 v0, v2, v0			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_mul_v2i16_fneg_lhs_fneg_rhs:			; GFX10-LABEL: v_mul_v2i16_fneg_lhs_fneg_rhs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	Show All 10 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/orn2.ll

Show First 20 Lines • Show All 553 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1		%insert.1 = insertvalue { i32, i32 } %insert.0, i32 %cast.1, 1
ret { i32, i32 } %insert.1		ret { i32, i32 } %insert.1
}		}

define <2 x i16> @v_orn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {		define <2 x i16> @v_orn2_v2i16(<2 x i16> %src0, <2 x i16> %src1) {
; GFX6-LABEL: v_orn2_v2i16:		; GFX6-LABEL: v_orn2_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_and_b32_e32 v2, v2, v4		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1		; GFX6-NEXT: v_xor_b32_e32 v1, -1, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_orn2_v2i16:		; GFX9-LABEL: v_orn2_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%insert.1 = insertvalue { i64, i64 } %insert.0, i64 %cast.1, 1		%insert.1 = insertvalue { i64, i64 } %insert.0, i64 %cast.1, 1
ret { i64, i64 } %insert.1		ret { i64, i64 } %insert.1
}		}

define <4 x i16> @v_orn2_v4i16(<4 x i16> %src0, <4 x i16> %src1) {		define <4 x i16> @v_orn2_v4i16(<4 x i16> %src0, <4 x i16> %src1) {
; GFX6-LABEL: v_orn2_v4i16:		; GFX6-LABEL: v_orn2_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: v_mov_b32_e32 v8, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_and_b32_e32 v0, v0, v8		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_or_b32_e32 v0, v1, v0		; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
; GFX6-NEXT: v_and_b32_e32 v2, v2, v8		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v5
; GFX6-NEXT: v_and_b32_e32 v3, v4, v8		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v4
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v7
; GFX6-NEXT: v_and_b32_e32 v4, v6, v8		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2		; GFX6-NEXT: v_xor_b32_e32 v2, -1, v2
; GFX6-NEXT: v_xor_b32_e32 v3, -1, v3		; GFX6-NEXT: v_xor_b32_e32 v3, -1, v3
; GFX6-NEXT: v_or_b32_e32 v0, v0, v2		; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
; GFX6-NEXT: v_or_b32_e32 v2, v1, v3		; GFX6-NEXT: v_or_b32_e32 v2, v1, v3
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2		; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
Show All 23 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

Show First 20 Lines • Show All 602 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%roundeven = call double @llvm.roundeven.f64(double %neg.x)		%roundeven = call double @llvm.roundeven.f64(double %neg.x)
ret double %roundeven		ret double %roundeven
}		}

define <2 x double> @v_roundeven_v2f64(<2 x double> %x) {		define <2 x double> @v_roundeven_v2f64(<2 x double> %x) {
; GFX6-LABEL: v_roundeven_v2f64:		; GFX6-LABEL: v_roundeven_v2f64:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_brev_b32 s6, 1		; GFX6-NEXT: v_and_b32_e32 v5, 0x80000000, v1
; GFX6-NEXT: v_and_b32_e32 v5, s6, v1
; GFX6-NEXT: s_mov_b32 s7, 0x43300000
; GFX6-NEXT: v_mov_b32_e32 v4, 0		; GFX6-NEXT: v_mov_b32_e32 v4, 0
; GFX6-NEXT: v_or_b32_e32 v5, s7, v5		; GFX6-NEXT: v_or_b32_e32 v5, 0x43300000, v5
; GFX6-NEXT: v_add_f64 v[6:7], v[0:1], v[4:5]		; GFX6-NEXT: v_add_f64 v[6:7], v[0:1], v[4:5]
; GFX6-NEXT: s_mov_b32 s4, -1		; GFX6-NEXT: s_mov_b32 s4, -1
; GFX6-NEXT: s_mov_b32 s5, 0x432fffff		; GFX6-NEXT: s_mov_b32 s5, 0x432fffff
; GFX6-NEXT: v_add_f64 v[5:6], v[6:7], -v[4:5]		; GFX6-NEXT: v_add_f64 v[5:6], v[6:7], -v[4:5]
; GFX6-NEXT: v_cmp_gt_f64_e64 vcc, \|v[0:1]\|, s[4:5]		; GFX6-NEXT: v_cmp_gt_f64_e64 vcc, \|v[0:1]\|, s[4:5]
; GFX6-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc
; GFX6-NEXT: v_and_b32_e32 v5, s6, v3		; GFX6-NEXT: v_and_b32_e32 v5, 0x80000000, v3
; GFX6-NEXT: v_or_b32_e32 v5, s7, v5		; GFX6-NEXT: v_or_b32_e32 v5, 0x43300000, v5
; GFX6-NEXT: v_add_f64 v[7:8], v[2:3], v[4:5]		; GFX6-NEXT: v_add_f64 v[7:8], v[2:3], v[4:5]
; GFX6-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
; GFX6-NEXT: v_add_f64 v[4:5], v[7:8], -v[4:5]		; GFX6-NEXT: v_add_f64 v[4:5], v[7:8], -v[4:5]
; GFX6-NEXT: v_cmp_gt_f64_e64 vcc, \|v[2:3]\|, s[4:5]		; GFX6-NEXT: v_cmp_gt_f64_e64 vcc, \|v[2:3]\|, s[4:5]
; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
; GFX6-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc		; GFX6-NEXT: v_cndmask_b32_e32 v3, v5, v3, vcc
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
▲ Show 20 Lines • Show All 48 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

	Show First 20 Lines • Show All 253 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 24, v3
	; GFX6-NEXT: v_max_i32_e32 v3, 0, v1			; GFX6-NEXT: v_max_i32_e32 v3, 0, v1
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v4			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s5, v4
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: v_max_i32_e32 v2, v4, v2			; GFX6-NEXT: v_max_i32_e32 v2, v4, v2
	; GFX6-NEXT: v_min_i32_e32 v2, v2, v3			; GFX6-NEXT: v_min_i32_e32 v2, v2, v3
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, 0xff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX6-NEXT: v_and_b32_e32 v1, v1, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, v0, v2			; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v2i8:			; GFX8-LABEL: v_saddsat_v2i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000
	; GFX8-NEXT: v_min_i16_e32 v5, 0, v0			; GFX8-NEXT: v_min_i16_e32 v5, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v4, 0, v0			; GFX8-NEXT: v_max_i16_e32 v4, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v5, s5, v5			; GFX8-NEXT: v_sub_u16_e32 v5, 0x8000, v5
	; GFX8-NEXT: v_sub_u16_e32 v4, s4, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_max_i16_e32 v1, v5, v1			; GFX8-NEXT: v_max_i16_e32 v1, v5, v1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v4			; GFX8-NEXT: v_min_i16_e32 v1, v1, v4
	; GFX8-NEXT: v_min_i16_e32 v4, 0, v3			; GFX8-NEXT: v_min_i16_e32 v4, 0, v3
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v1			; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
	; GFX8-NEXT: v_max_i16_e32 v1, 0, v3			; GFX8-NEXT: v_max_i16_e32 v1, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v4, s5, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_sub_u16_e32 v1, s4, v1			; GFX8-NEXT: v_sub_u16_e32 v1, 0x7fff, v1
	; GFX8-NEXT: v_max_i16_e32 v2, v4, v2			; GFX8-NEXT: v_max_i16_e32 v2, v4, v2
	; GFX8-NEXT: v_min_i16_e32 v1, v2, v1			; GFX8-NEXT: v_min_i16_e32 v1, v2, v1
	; GFX8-NEXT: v_add_u16_e32 v1, v3, v1			; GFX8-NEXT: v_add_u16_e32 v1, v3, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, 0xff			; GFX8-NEXT: v_mov_b32_e32 v2, 0xff
	; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX6-NEXT: v_bfrev_b32_e32 v11, 1			; GFX6-NEXT: v_bfrev_b32_e32 v11, 1
	; GFX6-NEXT: v_min_i32_e32 v6, 0, v3			; GFX6-NEXT: v_min_i32_e32 v6, 0, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX6-NEXT: v_max_i32_e32 v5, 0, v3			; GFX6-NEXT: v_max_i32_e32 v5, 0, v3
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v11, v6			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v11, v6
	; GFX6-NEXT: s_movk_i32 s4, 0xff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v9, v5			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v9, v5
	; GFX6-NEXT: v_max_i32_e32 v4, v6, v4			; GFX6-NEXT: v_max_i32_e32 v4, v6, v4
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 24, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 24, v2
	; GFX6-NEXT: v_min_i32_e32 v4, v4, v5			; GFX6-NEXT: v_min_i32_e32 v4, v4, v5
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 24, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 24, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v3			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v4i8:			; GFX8-LABEL: v_saddsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_min_i16_e32 v9, 0, v0
	; GFX8-NEXT: v_min_i16_e32 v10, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v8, 0, v0			; GFX8-NEXT: v_max_i16_e32 v8, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v10, s5, v10			; GFX8-NEXT: v_sub_u16_e32 v9, 0x8000, v9
	; GFX8-NEXT: v_sub_u16_e32 v8, s4, v8			; GFX8-NEXT: v_sub_u16_e32 v8, 0x7fff, v8
	; GFX8-NEXT: v_max_i16_e32 v1, v10, v1			; GFX8-NEXT: v_max_i16_e32 v1, v9, v1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v8			; GFX8-NEXT: v_min_i16_e32 v1, v1, v8
	; GFX8-NEXT: v_min_i16_e32 v8, 0, v3			; GFX8-NEXT: v_min_i16_e32 v8, 0, v3
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v1			; GFX8-NEXT: v_add_u16_e32 v0, v0, v1
	; GFX8-NEXT: v_max_i16_e32 v1, 0, v3			; GFX8-NEXT: v_max_i16_e32 v1, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v8, s5, v8			; GFX8-NEXT: v_sub_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_sub_u16_e32 v1, s4, v1			; GFX8-NEXT: v_sub_u16_e32 v1, 0x7fff, v1
	; GFX8-NEXT: v_max_i16_e32 v2, v8, v2			; GFX8-NEXT: v_max_i16_e32 v2, v8, v2
	; GFX8-NEXT: v_min_i16_e32 v1, v2, v1			; GFX8-NEXT: v_min_i16_e32 v1, v2, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v2, 8, v4			; GFX8-NEXT: v_lshlrev_b16_e32 v2, 8, v4
	; GFX8-NEXT: v_add_u16_e32 v1, v3, v1			; GFX8-NEXT: v_add_u16_e32 v1, v3, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v6			; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v6
	; GFX8-NEXT: v_min_i16_e32 v6, 0, v2			; GFX8-NEXT: v_min_i16_e32 v6, 0, v2
	; GFX8-NEXT: v_mov_b32_e32 v9, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v4, 0, v2			; GFX8-NEXT: v_max_i16_e32 v4, 0, v2
	; GFX8-NEXT: v_sub_u16_e32 v6, s5, v6			; GFX8-NEXT: v_sub_u16_e32 v6, 0x8000, v6
	; GFX8-NEXT: v_sub_u16_e32 v4, v9, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_max_i16_e32 v3, v6, v3			; GFX8-NEXT: v_max_i16_e32 v3, v6, v3
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v4			; GFX8-NEXT: v_min_i16_e32 v3, v3, v4
	; GFX8-NEXT: v_add_u16_e32 v2, v2, v3			; GFX8-NEXT: v_add_u16_e32 v2, v2, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v5			; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v5
	; GFX8-NEXT: v_min_i16_e32 v6, 0, v3			; GFX8-NEXT: v_min_i16_e32 v6, 0, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v4, 8, v7			; GFX8-NEXT: v_lshlrev_b16_e32 v4, 8, v7
	; GFX8-NEXT: v_max_i16_e32 v5, 0, v3			; GFX8-NEXT: v_max_i16_e32 v5, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v6, 0x8000, v6			; GFX8-NEXT: v_sub_u16_e32 v6, 0x8000, v6
	; GFX8-NEXT: v_sub_u16_e32 v5, v9, v5			; GFX8-NEXT: v_sub_u16_e32 v5, 0x7fff, v5
	; GFX8-NEXT: v_max_i16_e32 v4, v6, v4			; GFX8-NEXT: v_max_i16_e32 v4, v6, v4
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v5			; GFX8-NEXT: v_min_i16_e32 v4, v4, v5
	; GFX8-NEXT: v_add_u16_e32 v3, v3, v4			; GFX8-NEXT: v_add_u16_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	Show All 27 Lines
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_add_i16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_add_i16 v1, v2, v3 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_saddsat_v4i8:			; GFX10-LABEL: v_saddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s2, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_add_i16 v1, s3, v1 clamp			; GFX9-NEXT: v_pk_add_i16 v1, s3, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff			; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: s_mov_b32 s5, 24			; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_saddsat_v4i8:			; GFX10-LABEL: s_saddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 1,829 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v2i16:			; GFX8-LABEL: v_saddsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s5, 0x8000
	; GFX8-NEXT: v_min_i16_e32 v4, 0, v0			; GFX8-NEXT: v_min_i16_e32 v4, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v3, 0, v0			; GFX8-NEXT: v_max_i16_e32 v3, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v4, s5, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_sub_u16_e32 v3, s4, v3			; GFX8-NEXT: v_sub_u16_e32 v3, 0x7fff, v3
	; GFX8-NEXT: v_max_i16_e32 v4, v4, v1			; GFX8-NEXT: v_max_i16_e32 v4, v4, v1
	; GFX8-NEXT: v_min_i16_e32 v5, 0, v2			; GFX8-NEXT: v_min_i16_e32 v5, 0, v2
	; GFX8-NEXT: v_min_i16_e32 v3, v4, v3			; GFX8-NEXT: v_min_i16_e32 v3, v4, v3
	; GFX8-NEXT: v_max_i16_e32 v4, 0, v2			; GFX8-NEXT: v_max_i16_e32 v4, 0, v2
	; GFX8-NEXT: v_sub_u16_e32 v5, s5, v5			; GFX8-NEXT: v_sub_u16_e32 v5, 0x8000, v5
	; GFX8-NEXT: v_sub_u16_e32 v4, s4, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_max_i16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v4			; GFX8-NEXT: v_min_i16_e32 v1, v1, v4
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v3			; GFX8-NEXT: v_add_u16_e32 v0, v0, v3
	; GFX8-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v2i16:			; GFX9-LABEL: v_saddsat_v2i16:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: s_max_i32 s1, s0, 0			; GFX6-NEXT: s_max_i32 s1, s0, 0
	; GFX6-NEXT: s_sub_i32 s2, 0x80000000, s2			; GFX6-NEXT: s_sub_i32 s2, 0x80000000, s2
	; GFX6-NEXT: s_sub_i32 s1, 0x7fffffff, s1			; GFX6-NEXT: s_sub_i32 s1, 0x7fffffff, s1
	; GFX6-NEXT: v_max_i32_e32 v1, s2, v1			; GFX6-NEXT: v_max_i32_e32 v1, s2, v1
	; GFX6-NEXT: v_min_i32_e32 v1, s1, v1			; GFX6-NEXT: v_min_i32_e32 v1, s1, v1
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, s0, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, s0, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_mov_b32 s0, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_and_b32_e32 v1, s0, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s0, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: saddsat_v2i16_sv:			; GFX8-LABEL: saddsat_v2i16_sv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_sext_i32_i16 s2, s0			; GFX8-NEXT: s_sext_i32_i16 s2, s0
	; GFX8-NEXT: s_sext_i32_i16 s3, 0			; GFX8-NEXT: s_sext_i32_i16 s3, 0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_max_i32_e32 v2, 0, v1			; GFX6-NEXT: v_max_i32_e32 v2, 0, v1
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s2, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s2, v2
	; GFX6-NEXT: v_max_i32_e32 v3, s0, v3			; GFX6-NEXT: v_max_i32_e32 v3, s0, v3
	; GFX6-NEXT: v_min_i32_e32 v2, v3, v2			; GFX6-NEXT: v_min_i32_e32 v2, v3, v2
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_mov_b32 s0, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_and_b32_e32 v1, s0, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s0, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: saddsat_v2i16_vs:			; GFX8-LABEL: saddsat_v2i16_vs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_movk_i32 s3, 0x8000
	; GFX8-NEXT: v_min_i16_e32 v3, 0, v0			; GFX8-NEXT: v_min_i16_e32 v3, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX8-NEXT: s_movk_i32 s2, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v2, 0, v0			; GFX8-NEXT: v_max_i16_e32 v2, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v3, s3, v3			; GFX8-NEXT: v_sub_u16_e32 v3, 0x8000, v3
	; GFX8-NEXT: v_sub_u16_e32 v2, s2, v2			; GFX8-NEXT: v_sub_u16_e32 v2, 0x7fff, v2
	; GFX8-NEXT: v_max_i16_e32 v3, s0, v3			; GFX8-NEXT: v_max_i16_e32 v3, s0, v3
	; GFX8-NEXT: v_min_i16_e32 v4, 0, v1			; GFX8-NEXT: v_min_i16_e32 v4, 0, v1
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_min_i16_e32 v2, v3, v2			; GFX8-NEXT: v_min_i16_e32 v2, v3, v2
	; GFX8-NEXT: v_max_i16_e32 v3, 0, v1			; GFX8-NEXT: v_max_i16_e32 v3, 0, v1
	; GFX8-NEXT: v_sub_u16_e32 v4, s3, v4			; GFX8-NEXT: v_sub_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_sub_u16_e32 v3, s2, v3			; GFX8-NEXT: v_sub_u16_e32 v3, 0x7fff, v3
	; GFX8-NEXT: v_max_i16_e32 v4, s1, v4			; GFX8-NEXT: v_max_i16_e32 v4, s1, v4
	; GFX8-NEXT: v_min_i16_e32 v3, v4, v3			; GFX8-NEXT: v_min_i16_e32 v3, v4, v3
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v2			; GFX8-NEXT: v_add_u16_e32 v0, v0, v2
	; GFX8-NEXT: v_add_u16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: saddsat_v2i16_vs:			; GFX9-LABEL: saddsat_v2i16_vs:
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7
	; GFX6-NEXT: v_max_i32_e32 v5, 0, v3			; GFX6-NEXT: v_max_i32_e32 v5, 0, v3
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v11, v6			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v11, v6
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v9, v5			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v9, v5
	; GFX6-NEXT: v_max_i32_e32 v4, v6, v4			; GFX6-NEXT: v_max_i32_e32 v4, v6, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_i32_e32 v4, v4, v5			; GFX6-NEXT: v_min_i32_e32 v4, v4, v5
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v4i16:			; GFX8-LABEL: v_saddsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s5, 0x8000
	; GFX8-NEXT: v_min_i16_e32 v7, 0, v0			; GFX8-NEXT: v_min_i16_e32 v7, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v6, 0, v0			; GFX8-NEXT: v_max_i16_e32 v6, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v7, s5, v7			; GFX8-NEXT: v_sub_u16_e32 v7, 0x8000, v7
	; GFX8-NEXT: v_sub_u16_e32 v6, s4, v6			; GFX8-NEXT: v_sub_u16_e32 v6, 0x7fff, v6
	; GFX8-NEXT: v_max_i16_e32 v7, v7, v2			; GFX8-NEXT: v_max_i16_e32 v7, v7, v2
	; GFX8-NEXT: v_min_i16_e32 v8, 0, v4			; GFX8-NEXT: v_min_i16_e32 v8, 0, v4
	; GFX8-NEXT: v_min_i16_e32 v6, v7, v6			; GFX8-NEXT: v_min_i16_e32 v6, v7, v6
	; GFX8-NEXT: v_max_i16_e32 v7, 0, v4			; GFX8-NEXT: v_max_i16_e32 v7, 0, v4
	; GFX8-NEXT: v_sub_u16_e32 v8, s5, v8			; GFX8-NEXT: v_sub_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_sub_u16_e32 v7, s4, v7			; GFX8-NEXT: v_sub_u16_e32 v7, 0x7fff, v7
	; GFX8-NEXT: v_max_i16_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v2, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v8, 0, v1			; GFX8-NEXT: v_min_i16_e32 v8, 0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v1
	; GFX8-NEXT: v_min_i16_e32 v2, v2, v7			; GFX8-NEXT: v_min_i16_e32 v2, v2, v7
	; GFX8-NEXT: v_max_i16_e32 v7, 0, v1			; GFX8-NEXT: v_max_i16_e32 v7, 0, v1
	; GFX8-NEXT: v_sub_u16_e32 v8, s5, v8			; GFX8-NEXT: v_sub_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_sub_u16_e32 v7, s4, v7			; GFX8-NEXT: v_sub_u16_e32 v7, 0x7fff, v7
	; GFX8-NEXT: v_max_i16_e32 v8, v8, v3			; GFX8-NEXT: v_max_i16_e32 v8, v8, v3
	; GFX8-NEXT: v_min_i16_e32 v9, 0, v5			; GFX8-NEXT: v_min_i16_e32 v9, 0, v5
	; GFX8-NEXT: v_min_i16_e32 v7, v8, v7			; GFX8-NEXT: v_min_i16_e32 v7, v8, v7
	; GFX8-NEXT: v_max_i16_e32 v8, 0, v5			; GFX8-NEXT: v_max_i16_e32 v8, 0, v5
	; GFX8-NEXT: v_sub_u16_e32 v9, s5, v9			; GFX8-NEXT: v_sub_u16_e32 v9, 0x8000, v9
	; GFX8-NEXT: v_sub_u16_e32 v8, s4, v8			; GFX8-NEXT: v_sub_u16_e32 v8, 0x7fff, v8
	; GFX8-NEXT: v_max_i16_sdwa v3, v9, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v3, v9, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v8			; GFX8-NEXT: v_min_i16_e32 v3, v3, v8
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v6			; GFX8-NEXT: v_add_u16_e32 v0, v0, v6
	; GFX8-NEXT: v_add_u16_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_add_u16_e32 v1, v1, v7			; GFX8-NEXT: v_add_u16_e32 v1, v1, v7
	; GFX8-NEXT: v_add_u16_sdwa v2, v5, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v2, v5, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_min_i32_e32 v8, 0, v5			; GFX6-NEXT: v_min_i32_e32 v8, 0, v5
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11
	; GFX6-NEXT: v_max_i32_e32 v7, 0, v5			; GFX6-NEXT: v_max_i32_e32 v7, 0, v5
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, v15, v8			; GFX6-NEXT: v_sub_i32_e32 v8, vcc, v15, v8
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v13, v7			; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v13, v7
	; GFX6-NEXT: v_max_i32_e32 v6, v8, v6			; GFX6-NEXT: v_max_i32_e32 v6, v8, v6
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_min_i32_e32 v6, v6, v7			; GFX6-NEXT: v_min_i32_e32 v6, v6, v7
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v5			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v4			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v6i16:			; GFX8-LABEL: v_saddsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_min_i16_e32 v10, 0, v0
	; GFX8-NEXT: v_min_i16_e32 v11, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v9, 0, v0			; GFX8-NEXT: v_max_i16_e32 v9, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v11, s5, v11			; GFX8-NEXT: v_sub_u16_e32 v10, 0x8000, v10
	; GFX8-NEXT: v_sub_u16_e32 v9, s4, v9			; GFX8-NEXT: v_sub_u16_e32 v9, 0x7fff, v9
	; GFX8-NEXT: v_max_i16_e32 v11, v11, v3			; GFX8-NEXT: v_max_i16_e32 v10, v10, v3
	; GFX8-NEXT: v_min_i16_e32 v13, 0, v6			; GFX8-NEXT: v_min_i16_e32 v11, 0, v6
	; GFX8-NEXT: v_min_i16_e32 v9, v11, v9			; GFX8-NEXT: v_min_i16_e32 v9, v10, v9
	; GFX8-NEXT: v_max_i16_e32 v11, 0, v6			; GFX8-NEXT: v_max_i16_e32 v10, 0, v6
	; GFX8-NEXT: v_sub_u16_e32 v13, s5, v13			; GFX8-NEXT: v_sub_u16_e32 v11, 0x8000, v11
	; GFX8-NEXT: v_sub_u16_e32 v11, s4, v11			; GFX8-NEXT: v_sub_u16_e32 v10, 0x7fff, v10
	; GFX8-NEXT: v_max_i16_sdwa v3, v13, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v3, v11, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v13, 0, v1			; GFX8-NEXT: v_min_i16_e32 v11, 0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v11			; GFX8-NEXT: v_min_i16_e32 v3, v3, v10
	; GFX8-NEXT: v_max_i16_e32 v11, 0, v1			; GFX8-NEXT: v_max_i16_e32 v10, 0, v1
	; GFX8-NEXT: v_sub_u16_e32 v13, s5, v13			; GFX8-NEXT: v_sub_u16_e32 v11, 0x8000, v11
	; GFX8-NEXT: v_sub_u16_e32 v11, s4, v11			; GFX8-NEXT: v_sub_u16_e32 v10, 0x7fff, v10
	; GFX8-NEXT: v_max_i16_e32 v13, v13, v4			; GFX8-NEXT: v_max_i16_e32 v11, v11, v4
	; GFX8-NEXT: v_min_i16_e32 v14, 0, v7			; GFX8-NEXT: v_min_i16_e32 v12, 0, v7
	; GFX8-NEXT: v_min_i16_e32 v11, v13, v11			; GFX8-NEXT: v_min_i16_e32 v10, v11, v10
	; GFX8-NEXT: v_max_i16_e32 v13, 0, v7			; GFX8-NEXT: v_max_i16_e32 v11, 0, v7
	; GFX8-NEXT: v_sub_u16_e32 v14, s5, v14			; GFX8-NEXT: v_sub_u16_e32 v12, 0x8000, v12
	; GFX8-NEXT: v_mov_b32_e32 v12, 0xffff8000			; GFX8-NEXT: v_sub_u16_e32 v11, 0x7fff, v11
	; GFX8-NEXT: v_sub_u16_e32 v13, s4, v13			; GFX8-NEXT: v_max_i16_sdwa v4, v12, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_sdwa v4, v14, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_min_i16_e32 v12, 0, v2
	; GFX8-NEXT: v_min_i16_e32 v14, 0, v2
	; GFX8-NEXT: v_mov_b32_e32 v10, 0x7fff
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v13
	; GFX8-NEXT: v_max_i16_e32 v13, 0, v2
	; GFX8-NEXT: v_sub_u16_e32 v14, v12, v14
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX8-NEXT: v_sub_u16_e32 v13, v10, v13			; GFX8-NEXT: v_min_i16_e32 v4, v4, v11
	; GFX8-NEXT: v_max_i16_e32 v14, v14, v5			; GFX8-NEXT: v_max_i16_e32 v11, 0, v2
	; GFX8-NEXT: v_min_i16_e32 v13, v14, v13			; GFX8-NEXT: v_sub_u16_e32 v12, 0x8000, v12
	; GFX8-NEXT: v_max_i16_e32 v14, 0, v8			; GFX8-NEXT: v_sub_u16_e32 v11, 0x7fff, v11
	; GFX8-NEXT: v_sub_u16_e32 v10, v10, v14			; GFX8-NEXT: v_max_i16_e32 v12, v12, v5
	; GFX8-NEXT: v_min_i16_e32 v14, 0, v8			; GFX8-NEXT: v_min_i16_e32 v13, 0, v8
	; GFX8-NEXT: v_sub_u16_e32 v12, v12, v14			; GFX8-NEXT: v_min_i16_e32 v11, v12, v11
	; GFX8-NEXT: v_max_i16_sdwa v5, v12, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_e32 v12, 0, v8
				; GFX8-NEXT: v_sub_u16_e32 v13, 0x8000, v13
				; GFX8-NEXT: v_sub_u16_e32 v12, 0x7fff, v12
				; GFX8-NEXT: v_max_i16_sdwa v5, v13, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v9			; GFX8-NEXT: v_add_u16_e32 v0, v0, v9
	; GFX8-NEXT: v_add_u16_sdwa v3, v6, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v3, v6, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_min_i16_e32 v5, v5, v10			; GFX8-NEXT: v_min_i16_e32 v5, v5, v12
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_add_u16_e32 v1, v1, v11			; GFX8-NEXT: v_add_u16_e32 v1, v1, v10
	; GFX8-NEXT: v_add_u16_sdwa v3, v7, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v3, v7, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_add_u16_e32 v2, v2, v13			; GFX8-NEXT: v_add_u16_e32 v2, v2, v11
	; GFX8-NEXT: v_add_u16_sdwa v3, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v3, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v3			; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v6i16:			; GFX9-LABEL: v_saddsat_v6i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v3 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v3 clamp
	▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_min_i32_e32 v8, v8, v9			; GFX6-NEXT: v_min_i32_e32 v8, v8, v9
	; GFX6-NEXT: v_min_i32_e32 v10, 0, v7			; GFX6-NEXT: v_min_i32_e32 v10, 0, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_add_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15
	; GFX6-NEXT: v_max_i32_e32 v9, 0, v7			; GFX6-NEXT: v_max_i32_e32 v9, 0, v7
	; GFX6-NEXT: v_sub_i32_e32 v10, vcc, v19, v10			; GFX6-NEXT: v_sub_i32_e32 v10, vcc, v19, v10
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_sub_i32_e32 v9, vcc, v17, v9			; GFX6-NEXT: v_sub_i32_e32 v9, vcc, v17, v9
	; GFX6-NEXT: v_max_i32_e32 v8, v10, v8			; GFX6-NEXT: v_max_i32_e32 v8, v10, v8
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_min_i32_e32 v8, v8, v9			; GFX6-NEXT: v_min_i32_e32 v8, v8, v9
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5
	; GFX6-NEXT: v_add_i32_e32 v7, vcc, v7, v8			; GFX6-NEXT: v_add_i32_e32 v7, vcc, v7, v8
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 16, v7			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 16, v7
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v5			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 16, v6			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 16, v6
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v4			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v4, s4, v7			; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v6			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX6-NEXT: v_or_b32_e32 v3, v3, v4			; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v8i16:			; GFX8-LABEL: v_saddsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_min_i16_e32 v13, 0, v0
	; GFX8-NEXT: v_min_i16_e32 v14, 0, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v12, 0, v0			; GFX8-NEXT: v_max_i16_e32 v12, 0, v0
	; GFX8-NEXT: v_sub_u16_e32 v14, s5, v14			; GFX8-NEXT: v_sub_u16_e32 v13, 0x8000, v13
	; GFX8-NEXT: v_sub_u16_e32 v12, s4, v12			; GFX8-NEXT: v_sub_u16_e32 v12, 0x7fff, v12
	; GFX8-NEXT: v_max_i16_e32 v14, v14, v4			; GFX8-NEXT: v_max_i16_e32 v13, v13, v4
	; GFX8-NEXT: v_min_i16_e32 v16, 0, v8			; GFX8-NEXT: v_min_i16_e32 v14, 0, v8
	; GFX8-NEXT: v_min_i16_e32 v12, v14, v12			; GFX8-NEXT: v_min_i16_e32 v12, v13, v12
	; GFX8-NEXT: v_max_i16_e32 v14, 0, v8			; GFX8-NEXT: v_max_i16_e32 v13, 0, v8
	; GFX8-NEXT: v_sub_u16_e32 v16, s5, v16			; GFX8-NEXT: v_sub_u16_e32 v14, 0x8000, v14
	; GFX8-NEXT: v_sub_u16_e32 v14, s4, v14			; GFX8-NEXT: v_sub_u16_e32 v13, 0x7fff, v13
	; GFX8-NEXT: v_max_i16_sdwa v4, v16, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v4, v14, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v16, 0, v1			; GFX8-NEXT: v_min_i16_e32 v14, 0, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 16, v1
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v14			; GFX8-NEXT: v_min_i16_e32 v4, v4, v13
	; GFX8-NEXT: v_max_i16_e32 v14, 0, v1			; GFX8-NEXT: v_max_i16_e32 v13, 0, v1
	; GFX8-NEXT: v_sub_u16_e32 v16, s5, v16			; GFX8-NEXT: v_sub_u16_e32 v14, 0x8000, v14
	; GFX8-NEXT: v_sub_u16_e32 v14, s4, v14			; GFX8-NEXT: v_sub_u16_e32 v13, 0x7fff, v13
	; GFX8-NEXT: v_max_i16_e32 v16, v16, v5			; GFX8-NEXT: v_max_i16_e32 v14, v14, v5
	; GFX8-NEXT: v_min_i16_e32 v17, 0, v9			; GFX8-NEXT: v_min_i16_e32 v15, 0, v9
	; GFX8-NEXT: v_min_i16_e32 v14, v16, v14			; GFX8-NEXT: v_min_i16_e32 v13, v14, v13
	; GFX8-NEXT: v_max_i16_e32 v16, 0, v9			; GFX8-NEXT: v_max_i16_e32 v14, 0, v9
	; GFX8-NEXT: v_sub_u16_e32 v17, s5, v17			; GFX8-NEXT: v_sub_u16_e32 v15, 0x8000, v15
	; GFX8-NEXT: v_mov_b32_e32 v15, 0xffff8000			; GFX8-NEXT: v_sub_u16_e32 v14, 0x7fff, v14
	; GFX8-NEXT: v_sub_u16_e32 v16, s4, v16			; GFX8-NEXT: v_max_i16_sdwa v5, v15, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_sdwa v5, v17, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_min_i16_e32 v15, 0, v2
	; GFX8-NEXT: v_min_i16_e32 v17, 0, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 16, v2
	; GFX8-NEXT: v_mov_b32_e32 v13, 0x7fff			; GFX8-NEXT: v_min_i16_e32 v5, v5, v14
	; GFX8-NEXT: v_min_i16_e32 v5, v5, v16			; GFX8-NEXT: v_max_i16_e32 v14, 0, v2
	; GFX8-NEXT: v_max_i16_e32 v16, 0, v2			; GFX8-NEXT: v_sub_u16_e32 v15, 0x8000, v15
	; GFX8-NEXT: v_sub_u16_e32 v17, v15, v17			; GFX8-NEXT: v_sub_u16_e32 v14, 0x7fff, v14
	; GFX8-NEXT: v_sub_u16_e32 v16, v13, v16			; GFX8-NEXT: v_max_i16_e32 v15, v15, v6
	; GFX8-NEXT: v_max_i16_e32 v17, v17, v6			; GFX8-NEXT: v_min_i16_e32 v16, 0, v10
	; GFX8-NEXT: v_min_i16_e32 v18, 0, v10			; GFX8-NEXT: v_min_i16_e32 v14, v15, v14
	; GFX8-NEXT: v_min_i16_e32 v16, v17, v16			; GFX8-NEXT: v_max_i16_e32 v15, 0, v10
	; GFX8-NEXT: v_max_i16_e32 v17, 0, v10			; GFX8-NEXT: v_sub_u16_e32 v16, 0x8000, v16
	; GFX8-NEXT: v_sub_u16_e32 v18, v15, v18			; GFX8-NEXT: v_sub_u16_e32 v15, 0x7fff, v15
	; GFX8-NEXT: v_sub_u16_e32 v17, v13, v17			; GFX8-NEXT: v_max_i16_sdwa v6, v16, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_sdwa v6, v18, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_min_i16_e32 v16, 0, v3
	; GFX8-NEXT: v_min_i16_e32 v18, 0, v3
	; GFX8-NEXT: v_min_i16_e32 v6, v6, v17
	; GFX8-NEXT: v_max_i16_e32 v17, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v18, v15, v18
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 16, v3
	; GFX8-NEXT: v_sub_u16_e32 v17, v13, v17			; GFX8-NEXT: v_min_i16_e32 v6, v6, v15
	; GFX8-NEXT: v_max_i16_e32 v18, v18, v7			; GFX8-NEXT: v_max_i16_e32 v15, 0, v3
	; GFX8-NEXT: v_min_i16_e32 v17, v18, v17			; GFX8-NEXT: v_sub_u16_e32 v16, 0x8000, v16
	; GFX8-NEXT: v_max_i16_e32 v18, 0, v11			; GFX8-NEXT: v_sub_u16_e32 v15, 0x7fff, v15
	; GFX8-NEXT: v_sub_u16_e32 v13, v13, v18			; GFX8-NEXT: v_max_i16_e32 v16, v16, v7
	; GFX8-NEXT: v_min_i16_e32 v18, 0, v11			; GFX8-NEXT: v_min_i16_e32 v17, 0, v11
	; GFX8-NEXT: v_sub_u16_e32 v15, v15, v18			; GFX8-NEXT: v_min_i16_e32 v15, v16, v15
				; GFX8-NEXT: v_max_i16_e32 v16, 0, v11
				; GFX8-NEXT: v_sub_u16_e32 v17, 0x8000, v17
	; GFX8-NEXT: v_add_u16_e32 v0, v0, v12			; GFX8-NEXT: v_add_u16_e32 v0, v0, v12
	; GFX8-NEXT: v_add_u16_sdwa v4, v8, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v4, v8, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_max_i16_sdwa v7, v15, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_sub_u16_e32 v16, 0x7fff, v16
				; GFX8-NEXT: v_max_i16_sdwa v7, v17, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_add_u16_e32 v1, v1, v14			; GFX8-NEXT: v_add_u16_e32 v1, v1, v13
	; GFX8-NEXT: v_add_u16_sdwa v4, v9, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v4, v9, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_min_i16_e32 v7, v7, v13			; GFX8-NEXT: v_min_i16_e32 v7, v7, v16
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_add_u16_e32 v2, v2, v16			; GFX8-NEXT: v_add_u16_e32 v2, v2, v14
	; GFX8-NEXT: v_add_u16_sdwa v4, v10, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v4, v10, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v4			; GFX8-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX8-NEXT: v_add_u16_e32 v3, v3, v17			; GFX8-NEXT: v_add_u16_e32 v3, v3, v15
	; GFX8-NEXT: v_add_u16_sdwa v4, v11, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_add_u16_sdwa v4, v11, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v8i16:			; GFX9-LABEL: v_saddsat_v8i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_add_i16 v0, v0, v4 clamp			; GFX9-NEXT: v_pk_add_i16 v0, v0, v4 clamp
	▲ Show 20 Lines • Show All 1,995 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i32.ll

Show First 20 Lines • Show All 609 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%r = sdiv i32 %x, %shl.y		%r = sdiv i32 %x, %shl.y
ret i32 %r		ret i32 %r
}		}

define <2 x i32> @v_sdiv_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {		define <2 x i32> @v_sdiv_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {
; GISEL-LABEL: v_sdiv_v2i32_pow2_shl_denom:		; GISEL-LABEL: v_sdiv_v2i32_pow2_shl_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_movk_i32 s4, 0x1000		; GISEL-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
		; GISEL-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v1
; GISEL-NEXT: v_lshl_b32_e32 v2, s4, v2
; GISEL-NEXT: v_lshl_b32_e32 v3, s4, v3
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v2		; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v2
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v4		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v6
		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v4
; GISEL-NEXT: v_xor_b32_e32 v4, v4, v6		; GISEL-NEXT: v_xor_b32_e32 v4, v4, v6
; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5
; GISEL-NEXT: v_xor_b32_e32 v5, v5, v7		; GISEL-NEXT: v_xor_b32_e32 v5, v5, v7
; GISEL-NEXT: v_xor_b32_e32 v2, v2, v6		; GISEL-NEXT: v_xor_b32_e32 v2, v2, v6
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v7		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v7
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v2
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3
; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
Show All 34 Lines
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v5		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_v2i32_pow2_shl_denom:		; CGP-LABEL: v_sdiv_v2i32_pow2_shl_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s4, 0x1000		; CGP-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
		; CGP-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; CGP-NEXT: v_ashrrev_i32_e32 v5, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v5, 31, v1
; CGP-NEXT: v_lshl_b32_e32 v2, s4, v2
; CGP-NEXT: v_lshl_b32_e32 v3, s4, v3
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; CGP-NEXT: v_ashrrev_i32_e32 v6, 31, v2		; CGP-NEXT: v_ashrrev_i32_e32 v6, 31, v2
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_xor_b32_e32 v1, v1, v5		; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; CGP-NEXT: v_xor_b32_e32 v4, v4, v6		; CGP-NEXT: v_xor_b32_e32 v8, v4, v6
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; CGP-NEXT: v_xor_b32_e32 v5, v5, v7		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
		; CGP-NEXT: v_xor_b32_e32 v4, v5, v7
; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v5
; CGP-NEXT: v_xor_b32_e32 v2, v2, v6		; CGP-NEXT: v_xor_b32_e32 v2, v2, v6
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v5, v2
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v6, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v8, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v7, v3
; CGP-NEXT: v_sub_i32_e32 v9, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v9, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v5, v5
; CGP-NEXT: v_rcp_f32_e32 v8, v8		; CGP-NEXT: v_rcp_f32_e32 v7, v7
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
; CGP-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8		; CGP-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v7, v7
; CGP-NEXT: v_mul_lo_u32 v7, v7, v6		; CGP-NEXT: v_mul_lo_u32 v6, v6, v5
; CGP-NEXT: v_mul_lo_u32 v9, v9, v8		; CGP-NEXT: v_mul_lo_u32 v9, v9, v7
; CGP-NEXT: v_mul_lo_u32 v10, 0, v7		; CGP-NEXT: v_mul_lo_u32 v10, 0, v6
; CGP-NEXT: v_mul_hi_u32 v7, v6, v7		; CGP-NEXT: v_mul_hi_u32 v6, v5, v6
; CGP-NEXT: v_mul_lo_u32 v11, 0, v9		; CGP-NEXT: v_mul_lo_u32 v11, 0, v9
; CGP-NEXT: v_mul_hi_u32 v9, v8, v9		; CGP-NEXT: v_mul_hi_u32 v9, v7, v9
; CGP-NEXT: v_add_i32_e32 v7, vcc, v10, v7		; CGP-NEXT: v_add_i32_e32 v6, vcc, v10, v6
; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v9		; CGP-NEXT: v_add_i32_e32 v6, vcc, v7, v9
; CGP-NEXT: v_mul_lo_u32 v8, 0, v6		; CGP-NEXT: v_mul_lo_u32 v7, 0, v5
; CGP-NEXT: v_mul_hi_u32 v6, v0, v6		; CGP-NEXT: v_mul_hi_u32 v5, v0, v5
; CGP-NEXT: v_mul_lo_u32 v9, 0, v7		; CGP-NEXT: v_mul_lo_u32 v9, 0, v6
; CGP-NEXT: v_mul_hi_u32 v7, v1, v7		; CGP-NEXT: v_mul_hi_u32 v6, v1, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v5, vcc, v7, v5
; CGP-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CGP-NEXT: v_mul_lo_u32 v8, v6, v2		; CGP-NEXT: v_mul_lo_u32 v7, v5, v2
; CGP-NEXT: v_add_i32_e32 v9, vcc, 1, v6		; CGP-NEXT: v_add_i32_e32 v9, vcc, 1, v5
; CGP-NEXT: v_mul_lo_u32 v10, v7, v3		; CGP-NEXT: v_mul_lo_u32 v10, v6, v3
; CGP-NEXT: v_add_i32_e32 v11, vcc, 1, v7		; CGP-NEXT: v_add_i32_e32 v11, vcc, 1, v6
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v8		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v7
; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v10		; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v10
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
; CGP-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc		; CGP-NEXT: v_cndmask_b32_e32 v5, v5, v9, vcc
; CGP-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v2		; CGP-NEXT: v_sub_i32_e64 v7, s[4:5], v0, v2
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v1, v3		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v1, v3
; CGP-NEXT: v_cndmask_b32_e64 v7, v7, v11, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v6, v6, v11, s[4:5]
; CGP-NEXT: v_sub_i32_e64 v9, s[6:7], v1, v3		; CGP-NEXT: v_sub_i32_e64 v9, s[6:7], v1, v3
; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, 1, v6		; CGP-NEXT: v_add_i32_e32 v7, vcc, 1, v5
; CGP-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v1, v1, v9, s[4:5]
; CGP-NEXT: v_add_i32_e32 v9, vcc, 1, v7		; CGP-NEXT: v_add_i32_e32 v9, vcc, 1, v6
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v0, v2
; CGP-NEXT: v_cndmask_b32_e32 v0, v6, v8, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v5, v7, vcc
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v9, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v6, v9, vcc
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v8
; CGP-NEXT: v_xor_b32_e32 v1, v1, v5		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v8
; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v5		; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y		%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
%r = sdiv <2 x i32> %x, %shl.y		%r = sdiv <2 x i32> %x, %shl.y
ret <2 x i32> %r		ret <2 x i32> %r
}		}

define i32 @v_sdiv_i32_24bit(i32 %num, i32 %den) {		define i32 @v_sdiv_i32_24bit(i32 %num, i32 %den) {
; GISEL-LABEL: v_sdiv_i32_24bit:		; GISEL-LABEL: v_sdiv_i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1
; GISEL-NEXT: v_ashrrev_i32_e32 v2, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v2, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v3, 31, v1
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v3		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v1
Show All 17 Lines
; GISEL-NEXT: v_xor_b32_e32 v1, v2, v3		; GISEL-NEXT: v_xor_b32_e32 v1, v2, v3
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v1		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v1
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_i32_24bit:		; CGP-LABEL: v_sdiv_i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1
; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; CGP-NEXT: v_rcp_f32_e32 v2, v2		; CGP-NEXT: v_rcp_f32_e32 v2, v2
; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
; CGP-NEXT: v_mul_lo_u32 v3, v3, v2		; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
; CGP-NEXT: v_mul_lo_u32 v4, 0, v3		; CGP-NEXT: v_mul_lo_u32 v4, 0, v3
; CGP-NEXT: v_mul_hi_u32 v3, v2, v3		; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
Show All 18 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = sdiv i32 %num.mask, %den.mask		%result = sdiv i32 %num.mask, %den.mask
ret i32 %result		ret i32 %result
}		}

define <2 x i32> @v_sdiv_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {		define <2 x i32> @v_sdiv_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {
; GISEL-LABEL: v_sdiv_v2i32_24bit:		; GISEL-LABEL: v_sdiv_v2i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1		; GISEL-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v2, s4, v2		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GISEL-NEXT: v_and_b32_e32 v3, s4, v3
; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v2		; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v2
; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v1
; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_xor_b32_e32 v8, v4, v5		; GISEL-NEXT: v_xor_b32_e32 v8, v4, v5
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v6		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v6
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v9		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v9
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v8		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v8
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v9		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v9
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_v2i32_24bit:		; CGP-LABEL: v_sdiv_v2i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; CGP-NEXT: v_and_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll

Show First 20 Lines • Show All 1,036 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = sdiv <2 x i64> %num, %den		%result = sdiv <2 x i64> %num, %den
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_sdiv_i64_pow2k_denom(i64 %num) {		define i64 @v_sdiv_i64_pow2k_denom(i64 %num) {
; CHECK-LABEL: v_sdiv_i64_pow2k_denom:		; CHECK-LABEL: v_sdiv_i64_pow2k_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0x1000		; CHECK-NEXT: v_cvt_f32_u32_e32 v2, 0x1000
; CHECK-NEXT: v_cvt_f32_u32_e32 v2, s4		; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v4, 0
; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v3, 0		; CHECK-NEXT: s_movk_i32 s4, 0xf000
; CHECK-NEXT: s_movk_i32 s5, 0xf000
; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1
		; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v4
		; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3
		; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2		; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2
; CHECK-NEXT: v_trunc_f32_e32 v4, v4		; CHECK-NEXT: v_trunc_f32_e32 v4, v4
; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4		; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2		; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2
; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2
; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3		; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3
		; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9
; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5		; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5		; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5		; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc		; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_movk_i32 s4, 0x1000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
▲ Show 20 Lines • Show All 360 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc		; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_v2i64_pow2k_denom:		; CGP-LABEL: v_sdiv_v2i64_pow2k_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s6, 0x1000		; CGP-NEXT: v_cvt_f32_u32_e32 v5, 0x1000
; CGP-NEXT: v_cvt_f32_u32_e32 v4, s6		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v5, 0		; CGP-NEXT: s_movk_i32 s6, 0xf000
; CGP-NEXT: s_movk_i32 s7, 0xf000
; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v4
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1
		; CGP-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6
		; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v5
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
		; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5
; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5		; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5
; CGP-NEXT: v_trunc_f32_e32 v6, v6		; CGP-NEXT: v_trunc_f32_e32 v6, v6
; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6		; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
		; CGP-NEXT: s_movk_i32 s7, 0x1000
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_mul_lo_u32 v11, v6, v7		; CGP-NEXT: v_mul_lo_u32 v11, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; CGP-NEXT: v_mul_hi_u32 v10, v5, v7		; CGP-NEXT: v_mul_hi_u32 v10, v5, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_mul_hi_u32 v7, v6, v7		; CGP-NEXT: v_mul_hi_u32 v7, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
Show All 32 Lines
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_mul_hi_u32 v6, v1, v6		; CGP-NEXT: v_mul_hi_u32 v6, v1, v6
; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CGP-NEXT: v_mul_lo_u32 v8, 0, v7		; CGP-NEXT: v_mul_lo_u32 v8, 0, v7
; CGP-NEXT: v_mul_lo_u32 v9, s6, v6		; CGP-NEXT: v_mul_lo_u32 v9, s7, v6
; CGP-NEXT: v_mul_hi_u32 v11, s6, v7		; CGP-NEXT: v_mul_hi_u32 v11, s7, v7
; CGP-NEXT: v_mul_lo_u32 v10, s6, v7		; CGP-NEXT: v_mul_lo_u32 v10, s7, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v10		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v10
; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v8, vcc		; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v8, vcc
; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v8		; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v8
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v5		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v5
Show All 9 Lines
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; CGP-NEXT: v_mov_b32_e32 v11, s4		; CGP-NEXT: v_mov_b32_e32 v11, s4
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; CGP-NEXT: v_cndmask_b32_e32 v0, v11, v0, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v11, v0, vcc
; CGP-NEXT: v_add_i32_e32 v1, vcc, 1, v9		; CGP-NEXT: v_add_i32_e32 v1, vcc, 1, v9
; CGP-NEXT: v_addc_u32_e32 v11, vcc, 0, v10, vcc		; CGP-NEXT: v_addc_u32_e32 v11, vcc, 0, v10, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; CGP-NEXT: v_cndmask_b32_e32 v0, v9, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v9, v1, vcc
; CGP-NEXT: v_cvt_f32_u32_e32 v9, v5		; CGP-NEXT: v_cvt_f32_u32_e32 v9, 0x1000
; CGP-NEXT: v_cndmask_b32_e32 v1, v10, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v10, v11, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
; CGP-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6		; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6
; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9		; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9
; CGP-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7
; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; CGP-NEXT: v_trunc_f32_e32 v8, v8		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v2, v2, v7		; CGP-NEXT: v_xor_b32_e32 v2, v2, v7
Show All 12 Lines
; CGP-NEXT: v_mul_hi_u32 v9, v8, v9		; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10
; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
Show All 35 Lines
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_mul_hi_u32 v8, v3, v8		; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_mul_lo_u32 v8, 0, v4		; CGP-NEXT: v_mul_lo_u32 v8, 0, v4
; CGP-NEXT: v_mul_lo_u32 v9, s6, v6		; CGP-NEXT: v_mul_lo_u32 v9, s7, v6
; CGP-NEXT: v_mul_hi_u32 v11, s6, v4		; CGP-NEXT: v_mul_hi_u32 v11, s7, v4
; CGP-NEXT: v_mul_lo_u32 v10, s6, v4		; CGP-NEXT: v_mul_lo_u32 v10, s7, v4
; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v10		; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v10
; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v3, v8, vcc		; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v3, v8, vcc
; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v8		; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v8
; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc		; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5
Show All 27 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = sdiv <2 x i64> %num, <i64 4096, i64 4096>		%result = sdiv <2 x i64> %num, <i64 4096, i64 4096>
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_sdiv_i64_oddk_denom(i64 %num) {		define i64 @v_sdiv_i64_oddk_denom(i64 %num) {
; CHECK-LABEL: v_sdiv_i64_oddk_denom:		; CHECK-LABEL: v_sdiv_i64_oddk_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb		; CHECK-NEXT: v_cvt_f32_u32_e32 v2, 0x12d8fb
; CHECK-NEXT: v_cvt_f32_u32_e32 v2, s4		; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v4, 0
; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v3, 0		; CHECK-NEXT: s_mov_b32 s4, 0xffed2705
; CHECK-NEXT: s_mov_b32 s5, 0xffed2705
; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1
		; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v4
		; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3
		; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2		; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2
; CHECK-NEXT: v_trunc_f32_e32 v4, v4		; CHECK-NEXT: v_trunc_f32_e32 v4, v4
; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4		; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2		; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2
; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2
; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3		; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3
		; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9
; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5		; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5		; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5		; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc		; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
▲ Show 20 Lines • Show All 360 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc		; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_v2i64_oddk_denom:		; CGP-LABEL: v_sdiv_v2i64_oddk_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s6, 0x12d8fb		; CGP-NEXT: v_cvt_f32_u32_e32 v5, 0x12d8fb
; CGP-NEXT: v_cvt_f32_u32_e32 v4, s6		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v5, 0		; CGP-NEXT: s_mov_b32 s6, 0xffed2705
; CGP-NEXT: s_mov_b32 s7, 0xffed2705
; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v4
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1
		; CGP-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6
		; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v5
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
		; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5
; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5		; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5
; CGP-NEXT: v_trunc_f32_e32 v6, v6		; CGP-NEXT: v_trunc_f32_e32 v6, v6
; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6		; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
		; CGP-NEXT: s_mov_b32 s7, 0x12d8fb
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_mul_lo_u32 v11, v6, v7		; CGP-NEXT: v_mul_lo_u32 v11, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; CGP-NEXT: v_mul_hi_u32 v10, v5, v7		; CGP-NEXT: v_mul_hi_u32 v10, v5, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_mul_hi_u32 v7, v6, v7		; CGP-NEXT: v_mul_hi_u32 v7, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
Show All 32 Lines
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_mul_hi_u32 v6, v1, v6		; CGP-NEXT: v_mul_hi_u32 v6, v1, v6
; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CGP-NEXT: v_mul_lo_u32 v8, 0, v7		; CGP-NEXT: v_mul_lo_u32 v8, 0, v7
; CGP-NEXT: v_mul_lo_u32 v9, s6, v6		; CGP-NEXT: v_mul_lo_u32 v9, s7, v6
; CGP-NEXT: v_mul_hi_u32 v11, s6, v7		; CGP-NEXT: v_mul_hi_u32 v11, s7, v7
; CGP-NEXT: v_mul_lo_u32 v10, s6, v7		; CGP-NEXT: v_mul_lo_u32 v10, s7, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v10		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v10
; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v8, vcc		; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v8, vcc
; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v8		; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v8
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v5		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v5
Show All 9 Lines
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; CGP-NEXT: v_mov_b32_e32 v11, s4		; CGP-NEXT: v_mov_b32_e32 v11, s4
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; CGP-NEXT: v_cndmask_b32_e32 v0, v11, v0, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v11, v0, vcc
; CGP-NEXT: v_add_i32_e32 v1, vcc, 1, v9		; CGP-NEXT: v_add_i32_e32 v1, vcc, 1, v9
; CGP-NEXT: v_addc_u32_e32 v11, vcc, 0, v10, vcc		; CGP-NEXT: v_addc_u32_e32 v11, vcc, 0, v10, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
; CGP-NEXT: v_cndmask_b32_e32 v0, v9, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v9, v1, vcc
; CGP-NEXT: v_cvt_f32_u32_e32 v9, v5		; CGP-NEXT: v_cvt_f32_u32_e32 v9, 0x12d8fb
; CGP-NEXT: v_cndmask_b32_e32 v1, v10, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v10, v11, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v8
; CGP-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6		; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6
; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9		; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9
; CGP-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v7, v0, vcc
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7
; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; CGP-NEXT: v_trunc_f32_e32 v8, v8		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v2, v2, v7		; CGP-NEXT: v_xor_b32_e32 v2, v2, v7
Show All 12 Lines
; CGP-NEXT: v_mul_hi_u32 v9, v8, v9		; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10
; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
Show All 35 Lines
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_mul_hi_u32 v8, v3, v8		; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_mul_lo_u32 v8, 0, v4		; CGP-NEXT: v_mul_lo_u32 v8, 0, v4
; CGP-NEXT: v_mul_lo_u32 v9, s6, v6		; CGP-NEXT: v_mul_lo_u32 v9, s7, v6
; CGP-NEXT: v_mul_hi_u32 v11, s6, v4		; CGP-NEXT: v_mul_hi_u32 v11, s7, v4
; CGP-NEXT: v_mul_lo_u32 v10, s6, v4		; CGP-NEXT: v_mul_lo_u32 v10, s7, v4
; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v10		; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v10
; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v3, v8, vcc		; CGP-NEXT: v_subb_u32_e64 v9, s[4:5], v3, v8, vcc
; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v8		; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v8
; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc		; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5
▲ Show 20 Lines • Show All 877 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = sdiv <2 x i64> %x, %shl.y		%r = sdiv <2 x i64> %x, %shl.y
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define i64 @v_sdiv_i64_24bit(i64 %num, i64 %den) {		define i64 @v_sdiv_i64_24bit(i64 %num, i64 %den) {
; GISEL-LABEL: v_sdiv_i64_24bit:		; GISEL-LABEL: v_sdiv_i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v1, s4, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2		; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v2, v1		; GISEL-NEXT: v_mul_lo_u32 v3, v2, v1
; GISEL-NEXT: v_add_i32_e32 v4, vcc, 1, v2		; GISEL-NEXT: v_add_i32_e32 v4, vcc, 1, v2
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v3		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GISEL-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v1		; GISEL-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GISEL-NEXT: v_add_i32_e32 v3, vcc, 1, v2		; GISEL-NEXT: v_add_i32_e32 v3, vcc, 1, v2
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
; GISEL-NEXT: v_mov_b32_e32 v1, 0		; GISEL-NEXT: v_mov_b32_e32 v1, 0
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_i64_24bit:		; CGP-LABEL: v_sdiv_i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s4, v2
; CGP-NEXT: v_cvt_f32_i32_e32 v1, v1		; CGP-NEXT: v_cvt_f32_i32_e32 v1, v1
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_cvt_f32_i32_e32 v0, v0		; CGP-NEXT: v_cvt_f32_i32_e32 v0, v0
; CGP-NEXT: v_rcp_f32_e32 v2, v1		; CGP-NEXT: v_rcp_f32_e32 v2, v1
; CGP-NEXT: v_mul_f32_e32 v2, v0, v2		; CGP-NEXT: v_mul_f32_e32 v2, v0, v2
; CGP-NEXT: v_trunc_f32_e32 v2, v2		; CGP-NEXT: v_trunc_f32_e32 v2, v2
; CGP-NEXT: v_mad_f32 v0, -v2, v1, v0		; CGP-NEXT: v_mad_f32 v0, -v2, v1, v0
; CGP-NEXT: v_cvt_i32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_i32_f32_e32 v2, v2
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, \|v1\|		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, \|v1\|
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; CGP-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; CGP-NEXT: v_bfe_i32 v0, v0, 0, 25		; CGP-NEXT: v_bfe_i32 v0, v0, 0, 25
; CGP-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; CGP-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%num.mask = and i64 %num, 16777215		%num.mask = and i64 %num, 16777215
%den.mask = and i64 %den, 16777215		%den.mask = and i64 %den, 16777215
%result = sdiv i64 %num.mask, %den.mask		%result = sdiv i64 %num.mask, %den.mask
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_sdiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {		define <2 x i64> @v_sdiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
; GISEL-LABEL: v_sdiv_v2i64_24bit:		; GISEL-LABEL: v_sdiv_v2i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s6, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v4
; GISEL-NEXT: v_and_b32_e32 v1, s6, v4
; GISEL-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GISEL-NEXT: v_add_i32_e32 v1, vcc, 0, v1
; GISEL-NEXT: v_addc_u32_e64 v3, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_addc_u32_e64 v3, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1
; GISEL-NEXT: v_cvt_f32_u32_e32 v5, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v5, v3
; GISEL-NEXT: v_sub_i32_e32 v8, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v8, vcc, 0, v1
; GISEL-NEXT: v_subb_u32_e32 v9, vcc, 0, v3, vcc		; GISEL-NEXT: v_subb_u32_e32 v9, vcc, 0, v3, vcc
; GISEL-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5		; GISEL-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_and_b32_e32 v5, s6, v0		; GISEL-NEXT: v_and_b32_e32 v5, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v6, s6, v6		; GISEL-NEXT: v_and_b32_e32 v6, 0xffffff, v6
; GISEL-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v4		; GISEL-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v4
; GISEL-NEXT: v_mul_f32_e32 v4, 0x2f800000, v0		; GISEL-NEXT: v_mul_f32_e32 v4, 0x2f800000, v0
; GISEL-NEXT: v_trunc_f32_e32 v4, v4		; GISEL-NEXT: v_trunc_f32_e32 v4, v4
; GISEL-NEXT: v_mac_f32_e32 v0, 0xcf800000, v4		; GISEL-NEXT: v_mac_f32_e32 v0, 0xcf800000, v4
; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v0		; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v0
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4
; GISEL-NEXT: v_mul_lo_u32 v0, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v0, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v10, v8, v4		; GISEL-NEXT: v_mul_lo_u32 v10, v8, v4
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v7		; GISEL-NEXT: v_mul_hi_u32 v12, v8, v7
; GISEL-NEXT: v_mul_lo_u32 v11, v8, v7		; GISEL-NEXT: v_mul_lo_u32 v11, v8, v7
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v10		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v10
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v0, v12		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v0, v12
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v11		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v11
; GISEL-NEXT: v_mul_lo_u32 v13, v7, v10		; GISEL-NEXT: v_mul_lo_u32 v13, v7, v10
; GISEL-NEXT: v_and_b32_e32 v0, s6, v2		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v2
; GISEL-NEXT: v_mul_hi_u32 v2, v7, v11		; GISEL-NEXT: v_mul_hi_u32 v2, v7, v11
; GISEL-NEXT: v_mul_hi_u32 v11, v4, v11		; GISEL-NEXT: v_mul_hi_u32 v11, v4, v11
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v13		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v13
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GISEL-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v10		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v10
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v13, v2		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v13, v2
▲ Show 20 Lines • Show All 229 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
; GISEL-NEXT: v_subrev_i32_e32 v2, vcc, 0, v2		; GISEL-NEXT: v_subrev_i32_e32 v2, vcc, 0, v2
; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_sdiv_v2i64_24bit:		; CGP-LABEL: v_sdiv_v2i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v4
; CGP-NEXT: v_and_b32_e32 v1, s4, v4
; CGP-NEXT: v_cvt_f32_i32_e32 v1, v1		; CGP-NEXT: v_cvt_f32_i32_e32 v1, v1
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_cvt_f32_i32_e32 v0, v0		; CGP-NEXT: v_cvt_f32_i32_e32 v0, v0
; CGP-NEXT: v_and_b32_e32 v4, s4, v6		; CGP-NEXT: v_and_b32_e32 v4, 0xffffff, v6
; CGP-NEXT: v_rcp_f32_e32 v3, v1		; CGP-NEXT: v_rcp_f32_e32 v3, v1
; CGP-NEXT: v_cvt_f32_i32_e32 v4, v4		; CGP-NEXT: v_cvt_f32_i32_e32 v4, v4
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_cvt_f32_i32_e32 v2, v2		; CGP-NEXT: v_cvt_f32_i32_e32 v2, v2
; CGP-NEXT: v_mul_f32_e32 v3, v0, v3		; CGP-NEXT: v_mul_f32_e32 v3, v0, v3
; CGP-NEXT: v_trunc_f32_e32 v3, v3		; CGP-NEXT: v_trunc_f32_e32 v3, v3
; CGP-NEXT: v_mad_f32 v0, -v3, v1, v0		; CGP-NEXT: v_mad_f32 v0, -v3, v1, v0
; CGP-NEXT: v_cvt_i32_f32_e32 v3, v3		; CGP-NEXT: v_cvt_i32_f32_e32 v3, v3
; CGP-NEXT: v_rcp_f32_e32 v5, v4		; CGP-NEXT: v_rcp_f32_e32 v5, v4
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, \|v1\|		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, \|v1\|
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]
Show All 18 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

Show First 20 Lines • Show All 869 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
store <2 x i32> %rem, <2 x i32> addrspace(1)* %out1		store <2 x i32> %rem, <2 x i32> addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @sdivrem_v4i32(<4 x i32> addrspace(1)* %out0, <4 x i32> addrspace(1)* %out1, <4 x i32> %x, <4 x i32> %y) {		define amdgpu_kernel void @sdivrem_v4i32(<4 x i32> addrspace(1)* %out0, <4 x i32> addrspace(1)* %out1, <4 x i32> %x, <4 x i32> %y) {
; GFX8-LABEL: sdivrem_v4i32:		; GFX8-LABEL: sdivrem_v4i32:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10		; GFX8-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10
; GFX8-NEXT: v_mov_b32_e32 v2, 0x4f7ffffe
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_ashr_i32 s2, s12, 31		; GFX8-NEXT: s_ashr_i32 s2, s12, 31
; GFX8-NEXT: s_add_i32 s0, s12, s2		; GFX8-NEXT: s_add_i32 s0, s12, s2
; GFX8-NEXT: s_xor_b32 s3, s0, s2		; GFX8-NEXT: s_xor_b32 s3, s0, s2
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3
; GFX8-NEXT: s_sub_i32 s1, 0, s3		; GFX8-NEXT: s_sub_i32 s1, 0, s3
; GFX8-NEXT: s_ashr_i32 s16, s13, 31		; GFX8-NEXT: s_ashr_i32 s16, s13, 31
; GFX8-NEXT: s_add_i32 s0, s13, s16		; GFX8-NEXT: s_add_i32 s0, s13, s16
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_xor_b32 s13, s0, s16		; GFX8-NEXT: s_xor_b32 s13, s0, s16
; GFX8-NEXT: v_cvt_f32_u32_e32 v3, s13		; GFX8-NEXT: v_cvt_f32_u32_e32 v2, s13
; GFX8-NEXT: s_ashr_i32 s12, s8, 31		; GFX8-NEXT: s_ashr_i32 s12, s8, 31
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: s_add_i32 s0, s8, s12		; GFX8-NEXT: s_add_i32 s0, s8, s12
; GFX8-NEXT: s_xor_b32 s0, s0, s12		; GFX8-NEXT: s_xor_b32 s0, s0, s12
; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3		; GFX8-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0
		; GFX8-NEXT: s_sub_i32 s8, 0, s13
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX8-NEXT: v_mul_f32_e32 v1, v3, v2		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v2
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX8-NEXT: v_mul_lo_u32 v3, v0, s3		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s3
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s0, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s0, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s3, v2
; GFX8-NEXT: s_sub_i32 s0, 0, s13		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_mul_lo_u32 v3, s8, v1
; GFX8-NEXT: v_mul_lo_u32 v4, s0, v1
; GFX8-NEXT: s_xor_b32 s0, s12, s2		; GFX8-NEXT: s_xor_b32 s0, s12, s2
; GFX8-NEXT: s_ashr_i32 s2, s9, 31		; GFX8-NEXT: s_ashr_i32 s2, s9, 31
; GFX8-NEXT: s_add_i32 s1, s9, s2		; GFX8-NEXT: s_add_i32 s1, s9, s2
; GFX8-NEXT: v_mul_hi_u32 v4, v1, v4		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: s_xor_b32 s1, s1, s2		; GFX8-NEXT: s_xor_b32 s1, s1, s2
; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0		; GFX8-NEXT: v_xor_b32_e32 v0, s0, v0
; GFX8-NEXT: v_xor_b32_e32 v3, s12, v3		; GFX8-NEXT: v_xor_b32_e32 v2, s12, v2
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v4		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s1, v1
; GFX8-NEXT: s_ashr_i32 s3, s14, 31		; GFX8-NEXT: s_ashr_i32 s3, s14, 31
; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0		; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s0, v0
; GFX8-NEXT: v_mul_lo_u32 v5, v1, s13		; GFX8-NEXT: v_mul_lo_u32 v3, v1, s13
; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s12, v3		; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s12, v2
; GFX8-NEXT: s_add_i32 s0, s14, s3		; GFX8-NEXT: s_add_i32 s0, s14, s3
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v5		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s1, v3
; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
; GFX8-NEXT: s_xor_b32 s8, s0, s3		; GFX8-NEXT: s_xor_b32 s8, s0, s3
		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
		; GFX8-NEXT: v_cvt_f32_u32_e32 v3, s8
		; GFX8-NEXT: v_subrev_u32_e64 v5, s[0:1], s13, v2
		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
		; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v1
		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX8-NEXT: v_cvt_f32_u32_e32 v5, s8		; GFX8-NEXT: v_subrev_u32_e64 v5, s[0:1], s13, v2
; GFX8-NEXT: v_subrev_u32_e64 v6, s[0:1], s13, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
; GFX8-NEXT: v_rcp_iflag_f32_e32 v5, v5
; GFX8-NEXT: v_add_u32_e32 v6, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v3
; GFX8-NEXT: v_mul_f32_e32 v5, v5, v2
; GFX8-NEXT: v_cvt_u32_f32_e32 v5, v5
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
; GFX8-NEXT: v_subrev_u32_e64 v6, s[0:1], s13, v3
; GFX8-NEXT: s_sub_i32 s0, 0, s8		; GFX8-NEXT: s_sub_i32 s0, 0, s8
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX8-NEXT: v_mul_lo_u32 v6, s0, v5		; GFX8-NEXT: v_mul_lo_u32 v5, s0, v3
; GFX8-NEXT: s_ashr_i32 s9, s10, 31		; GFX8-NEXT: s_ashr_i32 s9, s10, 31
; GFX8-NEXT: s_add_i32 s1, s10, s9		; GFX8-NEXT: s_add_i32 s1, s10, s9
; GFX8-NEXT: s_xor_b32 s1, s1, s9		; GFX8-NEXT: s_xor_b32 s1, s1, s9
; GFX8-NEXT: v_mul_hi_u32 v6, v5, v6		; GFX8-NEXT: v_mul_hi_u32 v5, v3, v5
; GFX8-NEXT: s_xor_b32 s0, s2, s16		; GFX8-NEXT: s_xor_b32 s0, s2, s16
; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3		; GFX8-NEXT: v_xor_b32_e32 v2, s2, v2
; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1
; GFX8-NEXT: v_add_u32_e32 v5, vcc, v5, v6		; GFX8-NEXT: v_add_u32_e32 v3, vcc, v3, v5
; GFX8-NEXT: v_mul_hi_u32 v6, s1, v5		; GFX8-NEXT: v_mul_hi_u32 v3, s1, v3
; GFX8-NEXT: v_subrev_u32_e32 v5, vcc, s2, v3		; GFX8-NEXT: v_subrev_u32_e32 v5, vcc, s2, v2
; GFX8-NEXT: s_ashr_i32 s2, s15, 31		; GFX8-NEXT: s_ashr_i32 s2, s15, 31
; GFX8-NEXT: v_mul_lo_u32 v7, v6, s8		; GFX8-NEXT: v_mul_lo_u32 v6, v3, s8
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1
; GFX8-NEXT: s_add_i32 s0, s15, s2		; GFX8-NEXT: s_add_i32 s0, s15, s2
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v7		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s1, v6
; GFX8-NEXT: v_add_u32_e32 v7, vcc, 1, v6		; GFX8-NEXT: v_add_u32_e32 v6, vcc, 1, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: s_xor_b32 s10, s0, s2		; GFX8-NEXT: s_xor_b32 s10, s0, s2
; GFX8-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
; GFX8-NEXT: v_cvt_f32_u32_e32 v7, s10		; GFX8-NEXT: v_cvt_f32_u32_e32 v6, s10
; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s8, v3		; GFX8-NEXT: v_subrev_u32_e64 v7, s[0:1], s8, v2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
; GFX8-NEXT: v_rcp_iflag_f32_e32 v7, v7		; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v6		; GFX8-NEXT: v_add_u32_e32 v7, vcc, 1, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
; GFX8-NEXT: v_mul_f32_e32 v2, v7, v2		; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GFX8-NEXT: v_cvt_u32_f32_e32 v2, v2		; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6
; GFX8-NEXT: v_subrev_u32_e64 v7, s[0:1], s8, v3
; GFX8-NEXT: s_sub_i32 s0, 0, s10
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
; GFX8-NEXT: v_mul_lo_u32 v7, s0, v2		; GFX8-NEXT: v_subrev_u32_e64 v7, s[0:1], s8, v2
		; GFX8-NEXT: s_sub_i32 s0, 0, s10
		; GFX8-NEXT: v_cndmask_b32_e32 v7, v2, v7, vcc
		; GFX8-NEXT: v_mul_lo_u32 v2, s0, v6
; GFX8-NEXT: s_xor_b32 s0, s9, s3		; GFX8-NEXT: s_xor_b32 s0, s9, s3
; GFX8-NEXT: s_ashr_i32 s3, s11, 31		; GFX8-NEXT: s_ashr_i32 s3, s11, 31
; GFX8-NEXT: s_add_i32 s1, s11, s3		; GFX8-NEXT: s_add_i32 s1, s11, s3
; GFX8-NEXT: v_mul_hi_u32 v7, v2, v7		; GFX8-NEXT: v_mul_hi_u32 v2, v6, v2
; GFX8-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc
; GFX8-NEXT: s_xor_b32 s1, s1, s3		; GFX8-NEXT: s_xor_b32 s1, s1, s3
; GFX8-NEXT: v_xor_b32_e32 v6, s0, v6		; GFX8-NEXT: v_xor_b32_e32 v3, s0, v3
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v7		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v6, v2
; GFX8-NEXT: v_mul_hi_u32 v7, s1, v2		; GFX8-NEXT: v_mul_hi_u32 v8, s1, v2
; GFX8-NEXT: v_xor_b32_e32 v3, s9, v3		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s0, v3
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s0, v6		; GFX8-NEXT: v_xor_b32_e32 v3, s9, v7
; GFX8-NEXT: v_mul_lo_u32 v8, v7, s10		; GFX8-NEXT: v_mul_lo_u32 v7, v8, s10
; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, s9, v3		; GFX8-NEXT: v_subrev_u32_e32 v6, vcc, s9, v3
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v8		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s1, v7
; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v7		; GFX8-NEXT: v_add_u32_e32 v7, vcc, 1, v8
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s10, v3		; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s10, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v7		; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v7
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s10, v3		; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s10, v3
; GFX8-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc
; GFX8-NEXT: s_xor_b32 s0, s3, s2		; GFX8-NEXT: s_xor_b32 s0, s3, s2
; GFX8-NEXT: v_xor_b32_e32 v3, s0, v7		; GFX8-NEXT: v_xor_b32_e32 v3, s0, v7
; GFX8-NEXT: v_xor_b32_e32 v7, s3, v8		; GFX8-NEXT: v_xor_b32_e32 v7, s3, v8
; GFX8-NEXT: v_mov_b32_e32 v9, s5		; GFX8-NEXT: v_mov_b32_e32 v9, s5
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s0, v3		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s0, v3
; GFX8-NEXT: v_mov_b32_e32 v8, s4		; GFX8-NEXT: v_mov_b32_e32 v8, s4
; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]		; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
; GFX8-NEXT: v_subrev_u32_e32 v7, vcc, s3, v7		; GFX8-NEXT: v_subrev_u32_e32 v7, vcc, s3, v7
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]		; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdivrem_v4i32:		; GFX9-LABEL: sdivrem_v4i32:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0x4f7ffffe
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_ashr_i32 s6, s12, 31		; GFX9-NEXT: s_ashr_i32 s6, s12, 31
; GFX9-NEXT: s_add_i32 s0, s12, s6		; GFX9-NEXT: s_add_i32 s0, s12, s6
; GFX9-NEXT: s_xor_b32 s7, s0, s6		; GFX9-NEXT: s_xor_b32 s7, s0, s6
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_ashr_i32 s5, s13, 31		; GFX9-NEXT: s_ashr_i32 s4, s13, 31
; GFX9-NEXT: s_add_i32 s12, s13, s5		; GFX9-NEXT: s_add_i32 s5, s13, s4
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_xor_b32 s12, s12, s5		; GFX9-NEXT: s_xor_b32 s5, s5, s4
; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s12		; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s5
; GFX9-NEXT: s_sub_i32 s13, 0, s7		; GFX9-NEXT: s_sub_i32 s13, 0, s7
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX9-NEXT: s_ashr_i32 s4, s8, 31		; GFX9-NEXT: s_ashr_i32 s12, s8, 31
; GFX9-NEXT: s_add_i32 s8, s8, s4		; GFX9-NEXT: s_add_i32 s8, s8, s12
; GFX9-NEXT: v_mul_lo_u32 v3, s13, v0		; GFX9-NEXT: v_mul_lo_u32 v2, s13, v0
; GFX9-NEXT: v_mul_f32_e32 v1, v1, v2		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: s_xor_b32 s8, s8, s4		; GFX9-NEXT: s_xor_b32 s8, s8, s12
; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3		; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX9-NEXT: s_sub_i32 s16, 0, s12		; GFX9-NEXT: s_sub_i32 s13, 0, s5
		; GFX9-NEXT: v_mul_lo_u32 v3, s13, v1
; GFX9-NEXT: s_ashr_i32 s13, s9, 31		; GFX9-NEXT: s_ashr_i32 s13, s9, 31
; GFX9-NEXT: s_add_i32 s9, s9, s13		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
; GFX9-NEXT: v_add_u32_e32 v0, v0, v3
; GFX9-NEXT: v_mul_hi_u32 v0, s8, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s8, v0
; GFX9-NEXT: v_mul_lo_u32 v3, s16, v1		; GFX9-NEXT: v_mul_hi_u32 v2, v1, v3
		; GFX9-NEXT: s_add_i32 s9, s9, s13
; GFX9-NEXT: s_xor_b32 s9, s9, s13		; GFX9-NEXT: s_xor_b32 s9, s9, s13
; GFX9-NEXT: s_xor_b32 s6, s4, s6		; GFX9-NEXT: v_mul_lo_u32 v3, v0, s7
; GFX9-NEXT: v_mul_lo_u32 v4, v0, s7		; GFX9-NEXT: v_add_u32_e32 v1, v1, v2
; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX9-NEXT: v_add_u32_e32 v2, 1, v0
; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
; GFX9-NEXT: s_xor_b32 s5, s13, s5
; GFX9-NEXT: v_sub_u32_e32 v4, s8, v4
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v4
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
; GFX9-NEXT: v_subrev_u32_e32 v5, s7, v4
; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
; GFX9-NEXT: v_mul_hi_u32 v1, s9, v1		; GFX9-NEXT: v_mul_hi_u32 v1, s9, v1
; GFX9-NEXT: v_add_u32_e32 v5, 1, v0		; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v3
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX9-NEXT: v_subrev_u32_e32 v5, s7, v4		; GFX9-NEXT: v_subrev_u32_e32 v2, s7, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
; GFX9-NEXT: v_mul_lo_u32 v5, v1, s12		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_xor_b32_e32 v3, s4, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
		; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v2
		; GFX9-NEXT: s_xor_b32 s6, s12, s6
		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0		; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0
; GFX9-NEXT: v_subrev_u32_e32 v4, s4, v3		; GFX9-NEXT: v_mul_lo_u32 v3, v1, s5
; GFX9-NEXT: s_ashr_i32 s4, s14, 31
; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0		; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
; GFX9-NEXT: s_add_i32 s6, s14, s4		; GFX9-NEXT: s_ashr_i32 s6, s14, 31
; GFX9-NEXT: s_xor_b32 s6, s6, s4		; GFX9-NEXT: s_add_i32 s7, s14, s6
; GFX9-NEXT: v_sub_u32_e32 v3, s9, v5		; GFX9-NEXT: v_xor_b32_e32 v2, s12, v2
; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s6		; GFX9-NEXT: s_xor_b32 s7, s7, s6
; GFX9-NEXT: v_add_u32_e32 v6, 1, v1		; GFX9-NEXT: v_subrev_u32_e32 v4, s12, v2
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v3		; GFX9-NEXT: v_sub_u32_e32 v2, s9, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5		; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
; GFX9-NEXT: v_subrev_u32_e32 v6, s12, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v2
		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
		; GFX9-NEXT: v_subrev_u32_e32 v5, s5, v2
		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
		; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v2
		; GFX9-NEXT: s_sub_i32 s8, 0, s7
		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
		; GFX9-NEXT: v_mul_lo_u32 v5, s8, v3
		; GFX9-NEXT: s_xor_b32 s4, s13, s4
		; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
		; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1
		; GFX9-NEXT: s_ashr_i32 s4, s15, 31
		; GFX9-NEXT: s_add_i32 s9, s15, s4
		; GFX9-NEXT: v_mul_hi_u32 v5, v3, v5
		; GFX9-NEXT: s_xor_b32 s9, s9, s4
		; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s9
		; GFX9-NEXT: v_subrev_u32_e32 v6, s5, v2
		; GFX9-NEXT: s_ashr_i32 s5, s10, 31
		; GFX9-NEXT: s_add_i32 s8, s10, s5
		; GFX9-NEXT: s_xor_b32 s8, s8, s5
		; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
		; GFX9-NEXT: v_mul_hi_u32 v3, s8, v3
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
		; GFX9-NEXT: v_xor_b32_e32 v2, s13, v2
		; GFX9-NEXT: v_mul_lo_u32 v6, v3, s7
		; GFX9-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7
		; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v7
		; GFX9-NEXT: v_subrev_u32_e32 v5, s13, v2
		; GFX9-NEXT: v_sub_u32_e32 v2, s8, v6
		; GFX9-NEXT: s_sub_i32 s8, 0, s9
		; GFX9-NEXT: v_mul_lo_u32 v8, s8, v7
		; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
; GFX9-NEXT: v_add_u32_e32 v6, 1, v1		; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v2
; GFX9-NEXT: v_mul_f32_e32 v5, v5, v2		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc
; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5		; GFX9-NEXT: v_mul_hi_u32 v8, v7, v8
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v3		; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
; GFX9-NEXT: s_sub_i32 s7, 0, s6		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
; GFX9-NEXT: v_mul_lo_u32 v6, s7, v5		; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v2
; GFX9-NEXT: v_xor_b32_e32 v1, s5, v1		; GFX9-NEXT: s_ashr_i32 s7, s11, 31
; GFX9-NEXT: v_subrev_u32_e32 v1, s5, v1		; GFX9-NEXT: s_add_i32 s8, s11, s7
; GFX9-NEXT: s_ashr_i32 s5, s15, 31
; GFX9-NEXT: s_add_i32 s9, s15, s5
; GFX9-NEXT: v_mul_hi_u32 v6, v5, v6
; GFX9-NEXT: s_xor_b32 s9, s9, s5
; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s9
; GFX9-NEXT: s_ashr_i32 s7, s10, 31
; GFX9-NEXT: s_add_i32 s8, s10, s7
; GFX9-NEXT: s_xor_b32 s8, s8, s7		; GFX9-NEXT: s_xor_b32 s8, s8, s7
; GFX9-NEXT: v_add_u32_e32 v5, v5, v6		; GFX9-NEXT: v_add_u32_e32 v7, v7, v8
; GFX9-NEXT: v_mul_hi_u32 v6, s8, v5		; GFX9-NEXT: v_mul_hi_u32 v7, s8, v7
; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v8		; GFX9-NEXT: s_xor_b32 s6, s5, s6
; GFX9-NEXT: v_subrev_u32_e32 v7, s12, v3		; GFX9-NEXT: v_cndmask_b32_e32 v6, v2, v6, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc		; GFX9-NEXT: v_xor_b32_e32 v2, s6, v3
; GFX9-NEXT: v_mul_lo_u32 v7, v6, s6		; GFX9-NEXT: v_mul_lo_u32 v3, v7, s9
; GFX9-NEXT: v_mul_f32_e32 v2, v8, v2		; GFX9-NEXT: v_add_u32_e32 v8, 1, v7
; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
; GFX9-NEXT: v_xor_b32_e32 v3, s13, v3
; GFX9-NEXT: v_subrev_u32_e32 v5, s13, v3
; GFX9-NEXT: v_sub_u32_e32 v3, s8, v7
; GFX9-NEXT: s_sub_i32 s8, 0, s9
; GFX9-NEXT: v_mul_lo_u32 v8, s8, v2
; GFX9-NEXT: v_add_u32_e32 v7, 1, v6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
; GFX9-NEXT: v_subrev_u32_e32 v7, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
; GFX9-NEXT: v_mul_hi_u32 v8, v2, v8
; GFX9-NEXT: v_add_u32_e32 v7, 1, v6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
; GFX9-NEXT: v_subrev_u32_e32 v7, s6, v3
; GFX9-NEXT: s_ashr_i32 s6, s11, 31
; GFX9-NEXT: s_add_i32 s8, s11, s6
; GFX9-NEXT: s_xor_b32 s8, s8, s6
; GFX9-NEXT: v_add_u32_e32 v2, v2, v8
; GFX9-NEXT: v_mul_hi_u32 v8, s8, v2
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
; GFX9-NEXT: s_xor_b32 s4, s7, s4		; GFX9-NEXT: s_xor_b32 s4, s7, s4
; GFX9-NEXT: v_xor_b32_e32 v3, s7, v3		; GFX9-NEXT: v_subrev_u32_e32 v2, s6, v2
; GFX9-NEXT: v_mul_lo_u32 v7, v8, s9		; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3
; GFX9-NEXT: v_xor_b32_e32 v2, s4, v6
; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v3
; GFX9-NEXT: v_subrev_u32_e32 v2, s4, v2
; GFX9-NEXT: v_sub_u32_e32 v3, s8, v7
; GFX9-NEXT: v_add_u32_e32 v7, 1, v8
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
; GFX9-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX9-NEXT: v_subrev_u32_e32 v8, s9, v3		; GFX9-NEXT: v_subrev_u32_e32 v8, s9, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
; GFX9-NEXT: v_add_u32_e32 v8, 1, v7		; GFX9-NEXT: v_add_u32_e32 v8, 1, v7
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX9-NEXT: v_subrev_u32_e32 v8, s9, v3		; GFX9-NEXT: v_subrev_u32_e32 v8, s9, v3
; GFX9-NEXT: s_xor_b32 s4, s6, s5
; GFX9-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc
; GFX9-NEXT: v_xor_b32_e32 v3, s4, v7		; GFX9-NEXT: v_xor_b32_e32 v3, s4, v7
		; GFX9-NEXT: v_xor_b32_e32 v6, s5, v6
; GFX9-NEXT: v_subrev_u32_e32 v3, s4, v3		; GFX9-NEXT: v_subrev_u32_e32 v3, s4, v3
; GFX9-NEXT: v_xor_b32_e32 v7, s6, v8		; GFX9-NEXT: v_xor_b32_e32 v7, s7, v8
; GFX9-NEXT: v_mov_b32_e32 v8, 0		; GFX9-NEXT: v_mov_b32_e32 v8, 0
; GFX9-NEXT: v_subrev_u32_e32 v7, s6, v7		; GFX9-NEXT: v_subrev_u32_e32 v6, s5, v6
		; GFX9-NEXT: v_subrev_u32_e32 v7, s7, v7
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[2:3]		; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_v4i32:		; GFX10-LABEL: sdivrem_v4i32:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10		; GFX10-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10
▲ Show 20 Lines • Show All 1,308 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3
; GFX8-NEXT: s_xor_b32 s0, s2, s10		; GFX8-NEXT: s_xor_b32 s0, s2, s10
; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1
; GFX8-NEXT: s_movk_i32 s0, 0xff		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_and_b32_e32 v1, s0, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3		; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_store_short v[0:1], v4		; GFX8-NEXT: flat_store_short v[0:1], v4
; GFX8-NEXT: v_and_b32_e32 v0, s0, v3		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v3
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdivrem_v2i8:		; GFX9-LABEL: sdivrem_v2i8:
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s5, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: s_xor_b32 s4, s11, s9		; GFX9-NEXT: s_xor_b32 s4, s11, s9
; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1		; GFX9-NEXT: v_xor_b32_e32 v1, s4, v1
; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s5, v3
; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1		; GFX9-NEXT: v_subrev_u32_e32 v1, s4, v1
; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0		; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
; GFX9-NEXT: v_xor_b32_e32 v3, s11, v3		; GFX9-NEXT: v_xor_b32_e32 v3, s11, v3
; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_subrev_u32_e32 v3, s11, v3		; GFX9-NEXT: v_subrev_u32_e32 v3, s11, v3
; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2		; GFX9-NEXT: v_xor_b32_e32 v2, s10, v2
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_short v1, v0, s[0:1]		; GFX9-NEXT: global_store_short v1, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s4, v3		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v3
; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2		; GFX9-NEXT: v_subrev_u32_e32 v2, s10, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: global_store_short v1, v0, s[2:3]		; GFX9-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_v2i8:		; GFX10-LABEL: sdivrem_v2i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 297 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s11, v3
; GFX8-NEXT: s_xor_b32 s0, s2, s10		; GFX8-NEXT: s_xor_b32 s0, s2, s10
; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1		; GFX8-NEXT: v_xor_b32_e32 v1, s0, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_subrev_u32_e32 v1, vcc, s0, v1
; GFX8-NEXT: s_mov_b32 s0, 0xffff
; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3		; GFX8-NEXT: v_xor_b32_e32 v3, s2, v3
; GFX8-NEXT: v_and_b32_e32 v1, s0, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s2, v3
; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v0, s0, v3		; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_store_dword v[0:1], v4		; GFX8-NEXT: flat_store_dword v[0:1], v4
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
▲ Show 20 Lines • Show All 318 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
%rem = srem i3 %x, %y		%rem = srem i3 %x, %y
store i3 %rem, i3 addrspace(1)* %out1		store i3 %rem, i3 addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @sdivrem_i27(i27 addrspace(1)* %out0, i27 addrspace(1)* %out1, i27 %x, i27 %y) {		define amdgpu_kernel void @sdivrem_i27(i27 addrspace(1)* %out0, i27 addrspace(1)* %out1, i27 %x, i27 %y) {
; GFX8-LABEL: sdivrem_i27:		; GFX8-LABEL: sdivrem_i27:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX8-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX8-NEXT: s_mov_b32 s9, 0x7ffffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_bfe_i32 s1, s1, 0x1b0000		; GFX8-NEXT: s_bfe_i32 s0, s7, 0x1b0000
; GFX8-NEXT: s_ashr_i32 s2, s1, 31		; GFX8-NEXT: s_ashr_i32 s7, s0, 31
; GFX8-NEXT: s_add_i32 s1, s1, s2		; GFX8-NEXT: s_add_i32 s0, s0, s7
; GFX8-NEXT: s_xor_b32 s3, s1, s2		; GFX8-NEXT: s_xor_b32 s8, s0, s7
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s3		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8
; GFX8-NEXT: s_sub_i32 s1, 0, s3		; GFX8-NEXT: s_sub_i32 s0, 0, s8
; GFX8-NEXT: s_bfe_i32 s0, s0, 0x1b0000
; GFX8-NEXT: s_ashr_i32 s8, s0, 31
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_add_i32 s0, s0, s8
; GFX8-NEXT: s_xor_b32 s0, s0, s8
; GFX8-NEXT: s_xor_b32 s2, s8, s2
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s0, v0
		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
		; GFX8-NEXT: s_bfe_i32 s4, s6, 0x1b0000
		; GFX8-NEXT: s_ashr_i32 s5, s4, 31
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
		; GFX8-NEXT: s_add_i32 s4, s4, s5
		; GFX8-NEXT: s_xor_b32 s4, s4, s5
		; GFX8-NEXT: s_xor_b32 s6, s5, s7
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0		; GFX8-NEXT: v_mul_hi_u32 v2, s4, v0
; GFX8-NEXT: v_mul_lo_u32 v1, v0, s3		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_add_u32_e32 v2, vcc, 1, v0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s0, v1		; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v1		; GFX8-NEXT: v_mul_lo_u32 v3, v2, s8
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
; GFX8-NEXT: v_subrev_u32_e64 v2, s[0:1], s3, v1		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s4, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX8-NEXT: v_add_u32_e32 v2, vcc, 1, v0		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v1		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s8, v3
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v2, s[0:1], s3, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
; GFX8-NEXT: v_xor_b32_e32 v0, s2, v0		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_subrev_u32_e32 v0, vcc, s2, v0		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s8, v3
; GFX8-NEXT: v_xor_b32_e32 v1, s8, v1		; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s8, v1		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_and_b32_e32 v3, s9, v0		; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v2
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_xor_b32_e32 v3, s5, v3
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_and_b32_e32 v2, 0x7ffffff, v2
; GFX8-NEXT: flat_store_dword v[0:1], v3		; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s5, v3
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: v_and_b32_e32 v2, s9, v2		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_and_b32_e32 v2, 0x7ffffff, v3
		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: sdivrem_i27:		; GFX9-LABEL: sdivrem_i27:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_bfe_i32 s1, s1, 0x1b0000		; GFX9-NEXT: s_bfe_i32 s1, s1, 0x1b0000
; GFX9-NEXT: s_ashr_i32 s6, s1, 31		; GFX9-NEXT: s_ashr_i32 s6, s1, 31
; GFX9-NEXT: s_add_i32 s1, s1, s6		; GFX9-NEXT: s_add_i32 s1, s1, s6
; GFX9-NEXT: s_xor_b32 s7, s1, s6		; GFX9-NEXT: s_xor_b32 s7, s1, s6
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX9-NEXT: s_sub_i32 s1, 0, s7		; GFX9-NEXT: s_sub_i32 s1, 0, s7
; GFX9-NEXT: s_bfe_i32 s0, s0, 0x1b0000		; GFX9-NEXT: s_bfe_i32 s0, s0, 0x1b0000
; GFX9-NEXT: s_ashr_i32 s8, s0, 31		; GFX9-NEXT: s_ashr_i32 s8, s0, 31
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: s_add_i32 s0, s0, s8		; GFX9-NEXT: s_add_i32 s0, s0, s8
; GFX9-NEXT: s_xor_b32 s9, s0, s8		; GFX9-NEXT: s_xor_b32 s9, s0, s8
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_xor_b32 s5, s8, s6		; GFX9-NEXT: s_xor_b32 s4, s8, s6
; GFX9-NEXT: s_mov_b32 s4, 0x7ffffff
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0
; GFX9-NEXT: v_mul_lo_u32 v1, v0, s7		; GFX9-NEXT: v_mul_lo_u32 v1, v0, s7
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_sub_u32_e32 v1, s9, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s9, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s7, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_xor_b32_e32 v0, s5, v0		; GFX9-NEXT: v_xor_b32_e32 v0, s4, v0
; GFX9-NEXT: v_subrev_u32_e32 v0, s5, v0		; GFX9-NEXT: v_subrev_u32_e32 v0, s4, v0
; GFX9-NEXT: v_xor_b32_e32 v1, s8, v1		; GFX9-NEXT: v_xor_b32_e32 v1, s8, v1
; GFX9-NEXT: v_subrev_u32_e32 v1, s8, v1		; GFX9-NEXT: v_subrev_u32_e32 v1, s8, v1
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0x7ffffff, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dword v2, v0, s[0:1]		; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s4, v1		; GFX9-NEXT: v_and_b32_e32 v0, 0x7ffffff, v1
; GFX9-NEXT: global_store_dword v2, v0, s[2:3]		; GFX9-NEXT: global_store_dword v2, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: sdivrem_i27:		; GFX10-LABEL: sdivrem_i27:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_bfe_i32 s1, s1, 0x1b0000		; GFX10-NEXT: s_bfe_i32 s1, s1, 0x1b0000
▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

Show First 20 Lines • Show All 395 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%shl = shl <2 x i64> %ext, <i64 2, i64 2>		%shl = shl <2 x i64> %ext, <i64 2, i64 2>
ret <2 x i64> %shl		ret <2 x i64> %shl
}		}

define <2 x i64> @v_shl_v2i64_zext_v2i32(<2 x i32> %x) {		define <2 x i64> @v_shl_v2i64_zext_v2i32(<2 x i32> %x) {
; GFX7-LABEL: v_shl_v2i64_zext_v2i32:		; GFX7-LABEL: v_shl_v2i64_zext_v2i32:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_brev_b32 s4, -4		; GFX7-NEXT: v_and_b32_e32 v2, 0x3fffffff, v1
; GFX7-NEXT: v_and_b32_e32 v2, s4, v1
; GFX7-NEXT: v_mov_b32_e32 v1, 0		; GFX7-NEXT: v_mov_b32_e32 v1, 0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0x3fffffff, v0
; GFX7-NEXT: v_mov_b32_e32 v3, v1		; GFX7-NEXT: v_mov_b32_e32 v3, v1
; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2		; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
; GFX7-NEXT: v_lshl_b64 v[2:3], v[2:3], 2		; GFX7-NEXT: v_lshl_b64 v[2:3], v[2:3], 2
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i64_zext_v2i32:		; GFX8-LABEL: v_shl_v2i64_zext_v2i32:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_brev_b32 s4, -4		; GFX8-NEXT: v_and_b32_e32 v2, 0x3fffffff, v1
; GFX8-NEXT: v_and_b32_e32 v2, s4, v1
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0x3fffffff, v0
; GFX8-NEXT: v_mov_b32_e32 v3, v1		; GFX8-NEXT: v_mov_b32_e32 v3, v1
; GFX8-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_shl_v2i64_zext_v2i32:		; GFX9-LABEL: v_shl_v2i64_zext_v2i32:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_brev_b32 s4, -4		; GFX9-NEXT: v_and_b32_e32 v2, 0x3fffffff, v1
; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0x3fffffff, v0
; GFX9-NEXT: v_mov_b32_e32 v3, v1		; GFX9-NEXT: v_mov_b32_e32 v3, v1
; GFX9-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_shl_v2i64_zext_v2i32:		; GFX10-LABEL: v_shl_v2i64_zext_v2i32:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 40 Lines	; GFX10-NEXT: ; return to shader part epilog
%shl = shl <2 x i64> %ext, <i64 2, i64 2>		%shl = shl <2 x i64> %ext, <i64 2, i64 2>
ret <2 x i64> %shl		ret <2 x i64> %shl
}		}

define <2 x i64> @v_shl_v2i64_sext_v2i32(<2 x i32> %x) {		define <2 x i64> @v_shl_v2i64_sext_v2i32(<2 x i32> %x) {
; GFX7-LABEL: v_shl_v2i64_sext_v2i32:		; GFX7-LABEL: v_shl_v2i64_sext_v2i32:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_brev_b32 s4, -8		; GFX7-NEXT: v_and_b32_e32 v0, 0x1fffffff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v2, 0x1fffffff, v1
; GFX7-NEXT: v_and_b32_e32 v2, s4, v1
; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GFX7-NEXT: v_ashrrev_i32_e32 v3, 31, v2		; GFX7-NEXT: v_ashrrev_i32_e32 v3, 31, v2
; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2		; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
; GFX7-NEXT: v_lshl_b64 v[2:3], v[2:3], 2		; GFX7-NEXT: v_lshl_b64 v[2:3], v[2:3], 2
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i64_sext_v2i32:		; GFX8-LABEL: v_shl_v2i64_sext_v2i32:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_brev_b32 s4, -8		; GFX8-NEXT: v_and_b32_e32 v0, 0x1fffffff, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v2, 0x1fffffff, v1
; GFX8-NEXT: v_and_b32_e32 v2, s4, v1
; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v2		; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v2
; GFX8-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; GFX8-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; GFX8-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]		; GFX8-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_shl_v2i64_sext_v2i32:		; GFX9-LABEL: v_shl_v2i64_sext_v2i32:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_brev_b32 s4, -8		; GFX9-NEXT: v_and_b32_e32 v0, 0x1fffffff, v0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v2, 0x1fffffff, v1
; GFX9-NEXT: v_and_b32_e32 v2, s4, v1
; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; GFX9-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; GFX9-NEXT: v_ashrrev_i32_e32 v3, 31, v2		; GFX9-NEXT: v_ashrrev_i32_e32 v3, 31, v2
; GFX9-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]		; GFX9-NEXT: v_lshlrev_b64 v[0:1], 2, v[0:1]
; GFX9-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]		; GFX9-NEXT: v_lshlrev_b64 v[2:3], 2, v[2:3]
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: v_shl_v2i64_sext_v2i32:		; GFX10-LABEL: v_shl_v2i64_sext_v2i32:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
; fails to handle the vector splat. The post-legalizer sees the zext		; fails to handle the vector splat. The post-legalizer sees the zext
; legalized into the and. This is probably not that important, since		; legalized into the and. This is probably not that important, since
; we really do this combine in the machine level for lowered		; we really do this combine in the machine level for lowered
; getelementptrs.		; getelementptrs.
define <2 x i32> @v_shl_v2i32_zext_v2i16(<2 x i16> %x) {		define <2 x i32> @v_shl_v2i32_zext_v2i16(<2 x i16> %x) {
; GFX7-LABEL: v_shl_v2i32_zext_v2i16:		; GFX7-LABEL: v_shl_v2i32_zext_v2i16:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: v_and_b32_e32 v0, 0x3fff3fff, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0x3fff3fff, v0
; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 2, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 2, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i32_zext_v2i16:		; GFX8-LABEL: v_shl_v2i32_zext_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_and_b32_e32 v1, 0x3fff3fff, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x3fff3fff, v0
Show All 32 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/shl.ll

Show First 20 Lines • Show All 712 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%cast = bitcast i16 %result to half		%cast = bitcast i16 %result to half
ret half %cast		ret half %cast
}		}

define <2 x i16> @v_shl_v2i16(<2 x i16> %value, <2 x i16> %amount) {		define <2 x i16> @v_shl_v2i16(<2 x i16> %value, <2 x i16> %amount) {
; GFX6-LABEL: v_shl_v2i16:		; GFX6-LABEL: v_shl_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v2, v0
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v2, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v2i16:		; GFX8-LABEL: v_shl_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshlrev_b16_e32 v2, v1, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v2, v1, v0
; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_lshlrev_b16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	; GFX10-NEXT: ; return to shader part epilog
%result = shl <2 x i16> %value, %amount		%result = shl <2 x i16> %value, %amount
%cast = bitcast <2 x i16> %result to i32		%cast = bitcast <2 x i16> %result to i32
ret i32 %cast		ret i32 %cast
}		}

define amdgpu_ps float @shl_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {		define amdgpu_ps float @shl_v2i16_sv(<2 x i16> inreg %value, <2 x i16> %amount) {
; GFX6-LABEL: shl_v2i16_sv:		; GFX6-LABEL: shl_v2i16_sv:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_mov_b32 s2, 0xffff		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0
; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1		; GFX6-NEXT: v_lshl_b32_e32 v1, s1, v1
; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshl_b32_e32 v0, s0, v0
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: shl_v2i16_sv:		; GFX8-LABEL: shl_v2i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
Show All 17 Lines
}		}

define amdgpu_ps float @shl_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {		define amdgpu_ps float @shl_v2i16_vs(<2 x i16> %value, <2 x i16> inreg %amount) {
; GFX6-LABEL: shl_v2i16_vs:		; GFX6-LABEL: shl_v2i16_vs:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_and_b32 s0, s0, 0xffff		; GFX6-NEXT: s_and_b32 s0, s0, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v0, s0, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, s0, v0
; GFX6-NEXT: s_and_b32 s0, s1, 0xffff		; GFX6-NEXT: s_and_b32 s0, s1, 0xffff
; GFX6-NEXT: s_mov_b32 s2, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, s0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s2, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v0, s2, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: ; return to shader part epilog		; GFX6-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: shl_v2i16_vs:		; GFX8-LABEL: shl_v2i16_vs:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_lshr_b32 s1, s0, 16		; GFX8-NEXT: s_lshr_b32 s1, s0, 16
; GFX8-NEXT: v_mov_b32_e32 v2, s1		; GFX8-NEXT: v_mov_b32_e32 v2, s1
Show All 26 Lines
; %result = shl <3 x i16> %value, %amount		; %result = shl <3 x i16> %value, %amount
; ret <3 x i16> %result		; ret <3 x i16> %result
; }		; }

define <2 x float> @v_shl_v4i16(<4 x i16> %value, <4 x i16> %amount) {		define <2 x float> @v_shl_v4i16(<4 x i16> %value, <4 x i16> %amount) {
; GFX6-LABEL: v_shl_v4i16:		; GFX6-LABEL: v_shl_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v4, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v4, v0
; GFX6-NEXT: v_and_b32_e32 v4, s4, v5		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v5
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v4, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v4, v1
; GFX6-NEXT: v_and_b32_e32 v4, s4, v6		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GFX6-NEXT: v_lshlrev_b32_e32 v2, v4, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, v4, v2
; GFX6-NEXT: v_and_b32_e32 v4, s4, v7		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v4, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v4, v3
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v2		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v3		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v4i16:		; GFX8-LABEL: v_shl_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshlrev_b16_e32 v4, v2, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v4, v2, v0
▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
; %cast = bitcast <6 x i16> %result to <3 x i32>		; %cast = bitcast <6 x i16> %result to <3 x i32>
; ret <3 x i32> %cast		; ret <3 x i32> %cast
; }		; }

define <4 x float> @v_shl_v8i16(<8 x i16> %value, <8 x i16> %amount) {		define <4 x float> @v_shl_v8i16(<8 x i16> %value, <8 x i16> %amount) {
; GFX6-LABEL: v_shl_v8i16:		; GFX6-LABEL: v_shl_v8i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GFX6-NEXT: v_and_b32_e32 v8, s4, v8
; GFX6-NEXT: v_lshlrev_b32_e32 v0, v8, v0		; GFX6-NEXT: v_lshlrev_b32_e32 v0, v8, v0
; GFX6-NEXT: v_and_b32_e32 v8, s4, v9		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v9
; GFX6-NEXT: v_lshlrev_b32_e32 v1, v8, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, v8, v1
; GFX6-NEXT: v_and_b32_e32 v8, s4, v10		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v10
; GFX6-NEXT: v_lshlrev_b32_e32 v2, v8, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, v8, v2
; GFX6-NEXT: v_and_b32_e32 v8, s4, v11		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v11
; GFX6-NEXT: v_lshlrev_b32_e32 v3, v8, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, v8, v3
; GFX6-NEXT: v_and_b32_e32 v8, s4, v12		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v12
; GFX6-NEXT: v_lshlrev_b32_e32 v4, v8, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v4, v8, v4
; GFX6-NEXT: v_and_b32_e32 v8, s4, v13		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v13
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_mov_b32_e32 v16, 0xffff
; GFX6-NEXT: v_lshlrev_b32_e32 v5, v8, v5		; GFX6-NEXT: v_lshlrev_b32_e32 v5, v8, v5
; GFX6-NEXT: v_and_b32_e32 v8, s4, v14		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v14
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v6, v8, v6		; GFX6-NEXT: v_lshlrev_b32_e32 v6, v8, v6
; GFX6-NEXT: v_and_b32_e32 v8, s4, v15		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v15
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_and_b32_e32 v1, v2, v16		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, v3, v16		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v7, v8, v7		; GFX6-NEXT: v_lshlrev_b32_e32 v7, v8, v7
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_and_b32_e32 v3, v5, v16		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: v_and_b32_e32 v2, v4, v16		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX6-NEXT: v_and_b32_e32 v4, v7, v16		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
; GFX6-NEXT: v_or_b32_e32 v2, v2, v3		; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
; GFX6-NEXT: v_and_b32_e32 v3, v6, v16		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v6
; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX6-NEXT: v_or_b32_e32 v3, v3, v4		; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_shl_v8i16:		; GFX8-LABEL: v_shl_v8i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_lshlrev_b16_e32 v8, v4, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v8, v4, v0
▲ Show 20 Lines • Show All 673 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i32.ll

Show First 20 Lines • Show All 562 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%r = srem i32 %x, %shl.y		%r = srem i32 %x, %shl.y
ret i32 %r		ret i32 %r
}		}

define <2 x i32> @v_srem_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {		define <2 x i32> @v_srem_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {
; GISEL-LABEL: v_srem_v2i32_pow2_shl_denom:		; GISEL-LABEL: v_srem_v2i32_pow2_shl_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_movk_i32 s4, 0x1000		; GISEL-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
		; GISEL-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v1
; GISEL-NEXT: v_lshl_b32_e32 v2, s4, v2
; GISEL-NEXT: v_lshl_b32_e32 v3, s4, v3
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v2		; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v2
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v4		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v6
		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v4
; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5
; GISEL-NEXT: v_xor_b32_e32 v2, v2, v6		; GISEL-NEXT: v_xor_b32_e32 v2, v2, v6
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v7		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v7
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v2
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3
; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_rcp_iflag_f32_e32 v8, v8		; GISEL-NEXT: v_rcp_iflag_f32_e32 v8, v8
Show All 29 Lines
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v5
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v5		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v5
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_v2i32_pow2_shl_denom:		; CGP-LABEL: v_srem_v2i32_pow2_shl_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s4, 0x1000		; CGP-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
		; CGP-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; CGP-NEXT: v_ashrrev_i32_e32 v5, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v5, 31, v1
; CGP-NEXT: v_lshl_b32_e32 v2, s4, v2
; CGP-NEXT: v_lshl_b32_e32 v3, s4, v3
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; CGP-NEXT: v_ashrrev_i32_e32 v6, 31, v2		; CGP-NEXT: v_ashrrev_i32_e32 v6, 31, v2
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_xor_b32_e32 v1, v1, v5		; CGP-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v6
		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; CGP-NEXT: v_add_i32_e32 v3, vcc, v3, v7
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v5
; CGP-NEXT: v_xor_b32_e32 v2, v2, v6		; CGP-NEXT: v_xor_b32_e32 v2, v2, v6
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v2
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v8, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v8, v3
; CGP-NEXT: v_sub_i32_e32 v9, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v9, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_rcp_f32_e32 v8, v8		; CGP-NEXT: v_rcp_f32_e32 v8, v8
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = srem <2 x i32> %x, %shl.y		%r = srem <2 x i32> %x, %shl.y
ret <2 x i32> %r		ret <2 x i32> %r
}		}

define i32 @v_srem_i32_24bit(i32 %num, i32 %den) {		define i32 @v_srem_i32_24bit(i32 %num, i32 %den) {
; GISEL-LABEL: v_srem_i32_24bit:		; GISEL-LABEL: v_srem_i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1
; GISEL-NEXT: v_ashrrev_i32_e32 v2, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v2, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v3, 31, v1
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v3		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v3, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v3, v1
; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v1
Show All 14 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2		; GISEL-NEXT: v_xor_b32_e32 v0, v0, v2
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_i32_24bit:		; CGP-LABEL: v_srem_i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1
; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; CGP-NEXT: v_rcp_f32_e32 v2, v2		; CGP-NEXT: v_rcp_f32_e32 v2, v2
; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
; CGP-NEXT: v_mul_lo_u32 v3, v3, v2		; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
; CGP-NEXT: v_mul_lo_u32 v4, 0, v3		; CGP-NEXT: v_mul_lo_u32 v4, 0, v3
; CGP-NEXT: v_mul_hi_u32 v3, v2, v3		; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
Show All 16 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = srem i32 %num.mask, %den.mask		%result = srem i32 %num.mask, %den.mask
ret i32 %result		ret i32 %result
}		}

define <2 x i32> @v_srem_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {		define <2 x i32> @v_srem_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {
; GISEL-LABEL: v_srem_v2i32_24bit:		; GISEL-LABEL: v_srem_v2i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1		; GISEL-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v2, s4, v2		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GISEL-NEXT: v_and_b32_e32 v3, s4, v3
; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0		; GISEL-NEXT: v_ashrrev_i32_e32 v4, 31, v0
; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v2		; GISEL-NEXT: v_ashrrev_i32_e32 v5, 31, v2
; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v1		; GISEL-NEXT: v_ashrrev_i32_e32 v6, 31, v1
; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; GISEL-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v6		; GISEL-NEXT: v_add_i32_e32 v1, vcc, v1, v6
; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v7
Show All 39 Lines
; GISEL-NEXT: v_xor_b32_e32 v1, v1, v6		; GISEL-NEXT: v_xor_b32_e32 v1, v1, v6
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v6		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v6
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_v2i32_24bit:		; CGP-LABEL: v_srem_v2i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; CGP-NEXT: v_and_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 40 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll

Show First 20 Lines • Show All 1,016 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = srem <2 x i64> %num, %den		%result = srem <2 x i64> %num, %den
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_srem_i64_pow2k_denom(i64 %num) {		define i64 @v_srem_i64_pow2k_denom(i64 %num) {
; CHECK-LABEL: v_srem_i64_pow2k_denom:		; CHECK-LABEL: v_srem_i64_pow2k_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0x1000		; CHECK-NEXT: v_cvt_f32_u32_e32 v2, 0x1000
; CHECK-NEXT: v_cvt_f32_u32_e32 v2, s4		; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v4, 0
; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v3, 0		; CHECK-NEXT: s_movk_i32 s4, 0xf000
; CHECK-NEXT: s_movk_i32 s5, 0xf000
; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1
		; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v4
		; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3
		; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2		; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2
; CHECK-NEXT: v_trunc_f32_e32 v4, v4		; CHECK-NEXT: v_trunc_f32_e32 v4, v4
; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4		; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2		; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2
; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2
; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3		; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3
		; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9
; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5		; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5		; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5		; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc		; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_movk_i32 s4, 0x1000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
▲ Show 20 Lines • Show All 356 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc		; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_v2i64_pow2k_denom:		; CGP-LABEL: v_srem_v2i64_pow2k_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s6, 0x1000		; CGP-NEXT: v_cvt_f32_u32_e32 v5, 0x1000
; CGP-NEXT: v_cvt_f32_u32_e32 v4, s6		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v5, 0		; CGP-NEXT: s_movk_i32 s6, 0xf000
; CGP-NEXT: s_movk_i32 s7, 0xf000
; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v4
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1
		; CGP-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6
		; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v5
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
		; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5
; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5		; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5
; CGP-NEXT: v_trunc_f32_e32 v6, v6		; CGP-NEXT: v_trunc_f32_e32 v6, v6
; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6		; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
		; CGP-NEXT: s_movk_i32 s7, 0x1000
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_mul_lo_u32 v11, v6, v7		; CGP-NEXT: v_mul_lo_u32 v11, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; CGP-NEXT: v_mul_hi_u32 v10, v5, v7		; CGP-NEXT: v_mul_hi_u32 v10, v5, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_mul_hi_u32 v7, v6, v7		; CGP-NEXT: v_mul_hi_u32 v7, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
Show All 32 Lines
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_mul_hi_u32 v6, v1, v6		; CGP-NEXT: v_mul_hi_u32 v6, v1, v6
; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CGP-NEXT: v_mul_lo_u32 v8, 0, v7		; CGP-NEXT: v_mul_lo_u32 v8, 0, v7
; CGP-NEXT: v_mul_lo_u32 v6, s6, v6		; CGP-NEXT: v_mul_lo_u32 v6, s7, v6
; CGP-NEXT: v_mul_lo_u32 v9, s6, v7		; CGP-NEXT: v_mul_lo_u32 v9, s7, v7
; CGP-NEXT: v_mul_hi_u32 v7, s6, v7		; CGP-NEXT: v_mul_hi_u32 v7, s7, v7
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v9		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v9
; CGP-NEXT: v_subb_u32_e64 v7, s[4:5], v1, v6, vcc		; CGP-NEXT: v_subb_u32_e64 v7, s[4:5], v1, v6, vcc
; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v6		; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v6
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
; CGP-NEXT: v_mov_b32_e32 v8, s8		; CGP-NEXT: v_mov_b32_e32 v8, s8
; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7		; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[4:5]
; CGP-NEXT: v_sub_i32_e32 v8, vcc, v0, v5		; CGP-NEXT: v_sub_i32_e32 v8, vcc, v0, v5
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v5		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v5
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
; CGP-NEXT: v_mov_b32_e32 v10, s4		; CGP-NEXT: v_mov_b32_e32 v10, s4
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; CGP-NEXT: v_cndmask_b32_e32 v9, v10, v9, vcc		; CGP-NEXT: v_cndmask_b32_e32 v9, v10, v9, vcc
; CGP-NEXT: v_sub_i32_e32 v10, vcc, v8, v5		; CGP-NEXT: v_sub_i32_e32 v10, vcc, v8, v5
; CGP-NEXT: v_subbrev_u32_e32 v11, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v11, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9
; CGP-NEXT: v_cvt_f32_u32_e32 v9, v5		; CGP-NEXT: v_cvt_f32_u32_e32 v9, 0x1000
; CGP-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc		; CGP-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc
; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6		; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6
; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9		; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9
; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc
; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; CGP-NEXT: v_trunc_f32_e32 v8, v8		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
Show All 12 Lines
; CGP-NEXT: v_mul_hi_u32 v9, v8, v9		; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10
; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v2, v2, v7		; CGP-NEXT: v_xor_b32_e32 v2, v2, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
Show All 36 Lines
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_mul_hi_u32 v8, v3, v8		; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_mul_lo_u32 v8, 0, v4		; CGP-NEXT: v_mul_lo_u32 v8, 0, v4
; CGP-NEXT: v_mul_lo_u32 v6, s6, v6		; CGP-NEXT: v_mul_lo_u32 v6, s7, v6
; CGP-NEXT: v_mul_lo_u32 v9, s6, v4		; CGP-NEXT: v_mul_lo_u32 v9, s7, v4
; CGP-NEXT: v_mul_hi_u32 v4, s6, v4		; CGP-NEXT: v_mul_hi_u32 v4, s7, v4
; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v9		; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v9
; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v3, v4, vcc		; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v3, v4, vcc
; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v4		; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v4
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5
; CGP-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[4:5]
Show All 25 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = srem <2 x i64> %num, <i64 4096, i64 4096>		%result = srem <2 x i64> %num, <i64 4096, i64 4096>
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_srem_i64_oddk_denom(i64 %num) {		define i64 @v_srem_i64_oddk_denom(i64 %num) {
; CHECK-LABEL: v_srem_i64_oddk_denom:		; CHECK-LABEL: v_srem_i64_oddk_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb		; CHECK-NEXT: v_cvt_f32_u32_e32 v2, 0x12d8fb
; CHECK-NEXT: v_cvt_f32_u32_e32 v2, s4		; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v4, 0
; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v3, 0		; CHECK-NEXT: s_mov_b32 s4, 0xffed2705
; CHECK-NEXT: s_mov_b32 s5, 0xffed2705
; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v3
; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1		; CHECK-NEXT: v_ashrrev_i32_e32 v3, 31, v1
		; CHECK-NEXT: v_mac_f32_e32 v2, 0x4f800000, v4
		; CHECK-NEXT: v_rcp_iflag_f32_e32 v2, v2
; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; CHECK-NEXT: v_add_i32_e32 v0, vcc, v0, v3
		; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2		; CHECK-NEXT: v_mul_f32_e32 v2, 0x5f7ffffc, v2
; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2		; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v2
; CHECK-NEXT: v_trunc_f32_e32 v4, v4		; CHECK-NEXT: v_trunc_f32_e32 v4, v4
; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4		; CHECK-NEXT: v_mac_f32_e32 v2, 0xcf800000, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2		; CHECK-NEXT: v_cvt_u32_f32_e32 v2, v2
; CHECK-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc		; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2
; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3		; CHECK-NEXT: v_xor_b32_e32 v0, v0, v3
		; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_xor_b32_e32 v1, v1, v3
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v9
; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5		; CHECK-NEXT: v_mul_lo_u32 v9, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5		; CHECK-NEXT: v_mul_hi_u32 v8, v2, v5
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5		; CHECK-NEXT: v_mul_hi_u32 v5, v4, v5
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v7, v6
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v7
; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6		; CHECK-NEXT: v_add_i32_e32 v2, vcc, v2, v6
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc		; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v5, vcc
; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2		; CHECK-NEXT: v_mul_lo_u32 v5, -1, v2
; CHECK-NEXT: v_mul_lo_u32 v6, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v4
; CHECK-NEXT: v_mul_hi_u32 v8, s5, v2		; CHECK-NEXT: v_mul_hi_u32 v8, s4, v2
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v2		; CHECK-NEXT: v_mul_lo_u32 v7, s4, v2
		; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v6, v4, v7
; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5		; CHECK-NEXT: v_mul_lo_u32 v8, v2, v5
; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7		; CHECK-NEXT: v_mul_hi_u32 v9, v2, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7
; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
▲ Show 20 Lines • Show All 356 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4		; GISEL-NEXT: v_xor_b32_e32 v3, v3, v4
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc		; GISEL-NEXT: v_subb_u32_e32 v3, vcc, v3, v4, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_v2i64_oddk_denom:		; CGP-LABEL: v_srem_v2i64_oddk_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s6, 0x12d8fb		; CGP-NEXT: v_cvt_f32_u32_e32 v5, 0x12d8fb
; CGP-NEXT: v_cvt_f32_u32_e32 v4, s6		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v5, 0		; CGP-NEXT: s_mov_b32 s6, 0xffed2705
; CGP-NEXT: s_mov_b32 s7, 0xffed2705
; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v4
; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1		; CGP-NEXT: v_ashrrev_i32_e32 v4, 31, v1
		; CGP-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6
		; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v5
; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; CGP-NEXT: v_add_i32_e32 v0, vcc, v0, v4
		; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5
; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5		; CGP-NEXT: v_mul_f32_e32 v6, 0x2f800000, v5
; CGP-NEXT: v_trunc_f32_e32 v6, v6		; CGP-NEXT: v_trunc_f32_e32 v6, v6
; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6		; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_addc_u32_e32 v1, vcc, v1, v4, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
		; CGP-NEXT: v_xor_b32_e32 v1, v1, v4
		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
		; CGP-NEXT: s_mov_b32 s7, 0x12d8fb
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_xor_b32_e32 v1, v1, v4		; CGP-NEXT: s_bfe_i32 s8, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_mul_lo_u32 v11, v6, v7		; CGP-NEXT: v_mul_lo_u32 v11, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; CGP-NEXT: v_mul_hi_u32 v10, v5, v7		; CGP-NEXT: v_mul_hi_u32 v10, v5, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_mul_hi_u32 v7, v6, v7		; CGP-NEXT: v_mul_hi_u32 v7, v6, v7
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v8
; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc
; CGP-NEXT: v_mul_lo_u32 v7, -1, v5		; CGP-NEXT: v_mul_lo_u32 v7, -1, v5
; CGP-NEXT: v_mul_lo_u32 v8, s7, v6		; CGP-NEXT: v_mul_lo_u32 v8, s6, v6
; CGP-NEXT: v_mul_hi_u32 v10, s7, v5		; CGP-NEXT: v_mul_hi_u32 v10, s6, v5
; CGP-NEXT: v_mul_lo_u32 v9, s7, v5		; CGP-NEXT: v_mul_lo_u32 v9, s6, v5
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CGP-NEXT: v_mul_lo_u32 v8, v6, v9		; CGP-NEXT: v_mul_lo_u32 v8, v6, v9
; CGP-NEXT: v_mul_lo_u32 v10, v5, v7		; CGP-NEXT: v_mul_lo_u32 v10, v5, v7
; CGP-NEXT: v_mul_hi_u32 v11, v5, v9		; CGP-NEXT: v_mul_hi_u32 v11, v5, v9
; CGP-NEXT: v_mul_hi_u32 v9, v6, v9		; CGP-NEXT: v_mul_hi_u32 v9, v6, v9
; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
Show All 32 Lines
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CGP-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CGP-NEXT: v_mul_hi_u32 v6, v1, v6		; CGP-NEXT: v_mul_hi_u32 v6, v1, v6
; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CGP-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8		; CGP-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v8
; CGP-NEXT: v_mul_lo_u32 v8, 0, v7		; CGP-NEXT: v_mul_lo_u32 v8, 0, v7
; CGP-NEXT: v_mul_lo_u32 v6, s6, v6		; CGP-NEXT: v_mul_lo_u32 v6, s7, v6
; CGP-NEXT: v_mul_lo_u32 v9, s6, v7		; CGP-NEXT: v_mul_lo_u32 v9, s7, v7
; CGP-NEXT: v_mul_hi_u32 v7, s6, v7		; CGP-NEXT: v_mul_hi_u32 v7, s7, v7
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v7		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v9		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v9
; CGP-NEXT: v_subb_u32_e64 v7, s[4:5], v1, v6, vcc		; CGP-NEXT: v_subb_u32_e64 v7, s[4:5], v1, v6, vcc
; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v6		; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v6
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v5
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
; CGP-NEXT: v_mov_b32_e32 v8, s8		; CGP-NEXT: v_mov_b32_e32 v8, s8
; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7		; CGP-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v7
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[4:5]
; CGP-NEXT: v_sub_i32_e32 v8, vcc, v0, v5		; CGP-NEXT: v_sub_i32_e32 v8, vcc, v0, v5
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v5		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v5
; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
; CGP-NEXT: v_mov_b32_e32 v10, s4		; CGP-NEXT: v_mov_b32_e32 v10, s4
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; CGP-NEXT: v_cndmask_b32_e32 v9, v10, v9, vcc		; CGP-NEXT: v_cndmask_b32_e32 v9, v10, v9, vcc
; CGP-NEXT: v_sub_i32_e32 v10, vcc, v8, v5		; CGP-NEXT: v_sub_i32_e32 v10, vcc, v8, v5
; CGP-NEXT: v_subbrev_u32_e32 v11, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v11, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9
; CGP-NEXT: v_cvt_f32_u32_e32 v9, v5		; CGP-NEXT: v_cvt_f32_u32_e32 v9, 0x12d8fb
; CGP-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc		; CGP-NEXT: v_cndmask_b32_e32 v8, v8, v10, vcc
; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v11, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6		; CGP-NEXT: v_mac_f32_e32 v9, 0x4f800000, v6
; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9		; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v9
; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc
; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc
; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3		; CGP-NEXT: v_ashrrev_i32_e32 v7, 31, v3
; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; CGP-NEXT: v_trunc_f32_e32 v8, v8		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7		; CGP-NEXT: v_add_i32_e32 v2, vcc, v2, v7
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc		; CGP-NEXT: v_addc_u32_e32 v3, vcc, v3, v7, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v0, v0, v4		; CGP-NEXT: v_xor_b32_e32 v0, v0, v4
Show All 12 Lines
; CGP-NEXT: v_mul_hi_u32 v9, v8, v9		; CGP-NEXT: v_mul_hi_u32 v9, v8, v9
; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v11, v10
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v12, v11
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v11
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10		; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v10
; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v9, vcc
; CGP-NEXT: v_mul_lo_u32 v9, -1, v6		; CGP-NEXT: v_mul_lo_u32 v9, -1, v6
; CGP-NEXT: v_mul_lo_u32 v10, s7, v8		; CGP-NEXT: v_mul_lo_u32 v10, s6, v8
; CGP-NEXT: v_mul_hi_u32 v12, s7, v6		; CGP-NEXT: v_mul_hi_u32 v12, s6, v6
; CGP-NEXT: v_mul_lo_u32 v11, s7, v6		; CGP-NEXT: v_mul_lo_u32 v11, s6, v6
; CGP-NEXT: v_xor_b32_e32 v2, v2, v7		; CGP-NEXT: v_xor_b32_e32 v2, v2, v7
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CGP-NEXT: v_mul_lo_u32 v10, v8, v11		; CGP-NEXT: v_mul_lo_u32 v10, v8, v11
; CGP-NEXT: v_mul_lo_u32 v12, v6, v9		; CGP-NEXT: v_mul_lo_u32 v12, v6, v9
; CGP-NEXT: v_mul_hi_u32 v13, v6, v11		; CGP-NEXT: v_mul_hi_u32 v13, v6, v11
; CGP-NEXT: v_mul_hi_u32 v11, v8, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_xor_b32_e32 v3, v3, v7		; CGP-NEXT: v_xor_b32_e32 v3, v3, v7
Show All 36 Lines
; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CGP-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CGP-NEXT: v_mul_hi_u32 v8, v3, v8		; CGP-NEXT: v_mul_hi_u32 v8, v3, v8
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_mul_lo_u32 v8, 0, v4		; CGP-NEXT: v_mul_lo_u32 v8, 0, v4
; CGP-NEXT: v_mul_lo_u32 v6, s6, v6		; CGP-NEXT: v_mul_lo_u32 v6, s7, v6
; CGP-NEXT: v_mul_lo_u32 v9, s6, v4		; CGP-NEXT: v_mul_lo_u32 v9, s7, v4
; CGP-NEXT: v_mul_hi_u32 v4, s6, v4		; CGP-NEXT: v_mul_hi_u32 v4, s7, v4
; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s6, -1, 0x10000
; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; CGP-NEXT: v_add_i32_e32 v6, vcc, v8, v6
; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v6, v4
; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v9		; CGP-NEXT: v_sub_i32_e32 v2, vcc, v2, v9
; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v3, v4, vcc		; CGP-NEXT: v_subb_u32_e64 v6, s[4:5], v3, v4, vcc
; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v4		; CGP-NEXT: v_sub_i32_e64 v3, s[4:5], v3, v4
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v5
; CGP-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[4:5]
▲ Show 20 Lines • Show All 859 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = srem <2 x i64> %x, %shl.y		%r = srem <2 x i64> %x, %shl.y
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define i64 @v_srem_i64_24bit(i64 %num, i64 %den) {		define i64 @v_srem_i64_24bit(i64 %num, i64 %den) {
; GISEL-LABEL: v_srem_i64_24bit:		; GISEL-LABEL: v_srem_i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v1, s4, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2		; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2
; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1		; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: v_mov_b32_e32 v1, 0		; GISEL-NEXT: v_mov_b32_e32 v1, 0
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_i64_24bit:		; CGP-LABEL: v_srem_i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s4, v2
; CGP-NEXT: v_cvt_f32_i32_e32 v2, v1		; CGP-NEXT: v_cvt_f32_i32_e32 v2, v1
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_cvt_f32_i32_e32 v3, v0		; CGP-NEXT: v_cvt_f32_i32_e32 v3, v0
; CGP-NEXT: v_rcp_f32_e32 v4, v2		; CGP-NEXT: v_rcp_f32_e32 v4, v2
; CGP-NEXT: v_mul_f32_e32 v4, v3, v4		; CGP-NEXT: v_mul_f32_e32 v4, v3, v4
; CGP-NEXT: v_trunc_f32_e32 v4, v4		; CGP-NEXT: v_trunc_f32_e32 v4, v4
; CGP-NEXT: v_mad_f32 v3, -v4, v2, v3		; CGP-NEXT: v_mad_f32 v3, -v4, v2, v3
; CGP-NEXT: v_cvt_i32_f32_e32 v4, v4		; CGP-NEXT: v_cvt_i32_f32_e32 v4, v4
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v2\|		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v3\|, \|v2\|
; CGP-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v2, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v2, vcc, v4, v2		; CGP-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; CGP-NEXT: v_mul_lo_u32 v1, v2, v1		; CGP-NEXT: v_mul_lo_u32 v1, v2, v1
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; CGP-NEXT: v_bfe_i32 v0, v0, 0, 25		; CGP-NEXT: v_bfe_i32 v0, v0, 0, 25
; CGP-NEXT: v_ashrrev_i32_e32 v1, 31, v0		; CGP-NEXT: v_ashrrev_i32_e32 v1, 31, v0
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%num.mask = and i64 %num, 16777215		%num.mask = and i64 %num, 16777215
%den.mask = and i64 %den, 16777215		%den.mask = and i64 %den, 16777215
%result = srem i64 %num.mask, %den.mask		%result = srem i64 %num.mask, %den.mask
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_srem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {		define <2 x i64> @v_srem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
; GISEL-LABEL: v_srem_v2i64_24bit:		; GISEL-LABEL: v_srem_v2i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s6, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v4
; GISEL-NEXT: v_and_b32_e32 v1, s6, v4
; GISEL-NEXT: v_add_i32_e32 v1, vcc, 0, v1		; GISEL-NEXT: v_add_i32_e32 v1, vcc, 0, v1
; GISEL-NEXT: v_addc_u32_e64 v3, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_addc_u32_e64 v3, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v1
; GISEL-NEXT: v_cvt_f32_u32_e32 v5, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v5, v3
; GISEL-NEXT: v_sub_i32_e32 v8, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v8, vcc, 0, v1
; GISEL-NEXT: v_subb_u32_e32 v9, vcc, 0, v3, vcc		; GISEL-NEXT: v_subb_u32_e32 v9, vcc, 0, v3, vcc
; GISEL-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5		; GISEL-NEXT: v_mac_f32_e32 v4, 0x4f800000, v5
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_and_b32_e32 v5, s6, v0		; GISEL-NEXT: v_and_b32_e32 v5, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v6, s6, v6		; GISEL-NEXT: v_and_b32_e32 v6, 0xffffff, v6
; GISEL-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v4		; GISEL-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v4
; GISEL-NEXT: v_mul_f32_e32 v4, 0x2f800000, v0		; GISEL-NEXT: v_mul_f32_e32 v4, 0x2f800000, v0
; GISEL-NEXT: v_trunc_f32_e32 v4, v4		; GISEL-NEXT: v_trunc_f32_e32 v4, v4
; GISEL-NEXT: v_mac_f32_e32 v0, 0xcf800000, v4		; GISEL-NEXT: v_mac_f32_e32 v0, 0xcf800000, v4
; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v0		; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v0
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4
; GISEL-NEXT: v_mul_lo_u32 v0, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v0, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v10, v8, v4		; GISEL-NEXT: v_mul_lo_u32 v10, v8, v4
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v7		; GISEL-NEXT: v_mul_hi_u32 v12, v8, v7
; GISEL-NEXT: v_mul_lo_u32 v11, v8, v7		; GISEL-NEXT: v_mul_lo_u32 v11, v8, v7
; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v10		; GISEL-NEXT: v_add_i32_e32 v0, vcc, v0, v10
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v0, v12		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v0, v12
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v11		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v11
; GISEL-NEXT: v_mul_lo_u32 v13, v7, v10		; GISEL-NEXT: v_mul_lo_u32 v13, v7, v10
; GISEL-NEXT: v_and_b32_e32 v0, s6, v2		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v2
; GISEL-NEXT: v_mul_hi_u32 v2, v7, v11		; GISEL-NEXT: v_mul_hi_u32 v2, v7, v11
; GISEL-NEXT: v_mul_hi_u32 v11, v4, v11		; GISEL-NEXT: v_mul_hi_u32 v11, v4, v11
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v13		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v13
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GISEL-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v10		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v10
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v13, v2		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v13, v2
▲ Show 20 Lines • Show All 227 Lines • ▼ Show 20 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v4, v5, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v4, v5, v2, vcc
; GISEL-NEXT: v_subrev_i32_e32 v2, vcc, 0, v3		; GISEL-NEXT: v_subrev_i32_e32 v2, vcc, 0, v3
; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v4, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v4, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_srem_v2i64_24bit:		; CGP-LABEL: v_srem_v2i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v4
; CGP-NEXT: v_and_b32_e32 v1, s4, v4
; CGP-NEXT: v_cvt_f32_i32_e32 v3, v1		; CGP-NEXT: v_cvt_f32_i32_e32 v3, v1
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_cvt_f32_i32_e32 v4, v0		; CGP-NEXT: v_cvt_f32_i32_e32 v4, v0
; CGP-NEXT: v_and_b32_e32 v6, s4, v6		; CGP-NEXT: v_and_b32_e32 v6, 0xffffff, v6
; CGP-NEXT: v_rcp_f32_e32 v5, v3		; CGP-NEXT: v_rcp_f32_e32 v5, v3
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_mul_f32_e32 v5, v4, v5		; CGP-NEXT: v_mul_f32_e32 v5, v4, v5
; CGP-NEXT: v_trunc_f32_e32 v5, v5		; CGP-NEXT: v_trunc_f32_e32 v5, v5
; CGP-NEXT: v_mad_f32 v4, -v5, v3, v4		; CGP-NEXT: v_mad_f32 v4, -v5, v3, v4
; CGP-NEXT: v_cvt_i32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_i32_f32_e32 v5, v5
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, \|v3\|		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, \|v3\|
; CGP-NEXT: v_cvt_f32_i32_e32 v4, v6		; CGP-NEXT: v_cvt_f32_i32_e32 v4, v6
; CGP-NEXT: v_cndmask_b32_e64 v3, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v3, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v3, vcc, v5, v3		; CGP-NEXT: v_add_i32_e32 v3, vcc, v5, v3
Show All 23 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

	Show First 20 Lines • Show All 253 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_max_i32_e32 v3, -1, v1			; GFX6-NEXT: v_max_i32_e32 v3, -1, v1
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s4, v3			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: v_min_i32_e32 v4, -1, v1			; GFX6-NEXT: v_min_i32_e32 v4, -1, v1
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s5, v4			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s5, v4
	; GFX6-NEXT: v_max_i32_e32 v2, v3, v2			; GFX6-NEXT: v_max_i32_e32 v2, v3, v2
	; GFX6-NEXT: v_min_i32_e32 v2, v2, v4			; GFX6-NEXT: v_min_i32_e32 v2, v2, v4
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1
	; GFX6-NEXT: v_mov_b32_e32 v2, 0xff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX6-NEXT: v_and_b32_e32 v1, v1, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, v0, v2			; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v2i8:			; GFX8-LABEL: v_ssubsat_v2i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v4, -1, v0			; GFX8-NEXT: v_max_i16_e32 v4, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_subrev_u16_e32 v4, s4, v4
	; GFX8-NEXT: v_min_i16_e32 v5, -1, v0			; GFX8-NEXT: v_min_i16_e32 v5, -1, v0
	; GFX8-NEXT: v_subrev_u16_e32 v5, s5, v5			; GFX8-NEXT: v_subrev_u16_e32 v5, 0x8000, v5
	; GFX8-NEXT: v_max_i16_e32 v1, v4, v1			; GFX8-NEXT: v_max_i16_e32 v1, v4, v1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v5			; GFX8-NEXT: v_min_i16_e32 v1, v1, v5
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
	; GFX8-NEXT: v_max_i16_e32 v1, -1, v3			; GFX8-NEXT: v_max_i16_e32 v1, -1, v3
	; GFX8-NEXT: v_subrev_u16_e32 v1, s4, v1			; GFX8-NEXT: v_subrev_u16_e32 v1, 0x7fff, v1
	; GFX8-NEXT: v_min_i16_e32 v4, -1, v3			; GFX8-NEXT: v_min_i16_e32 v4, -1, v3
	; GFX8-NEXT: v_subrev_u16_e32 v4, s5, v4			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_max_i16_e32 v1, v1, v2			; GFX8-NEXT: v_max_i16_e32 v1, v1, v2
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v4			; GFX8-NEXT: v_min_i16_e32 v1, v1, v4
	; GFX8-NEXT: v_sub_u16_e32 v1, v3, v1			; GFX8-NEXT: v_sub_u16_e32 v1, v3, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, 0xff			; GFX8-NEXT: v_mov_b32_e32 v2, 0xff
	; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 24, v4
	; GFX6-NEXT: v_max_i32_e32 v5, -1, v3			; GFX6-NEXT: v_max_i32_e32 v5, -1, v3
	; GFX6-NEXT: v_bfrev_b32_e32 v11, 1			; GFX6-NEXT: v_bfrev_b32_e32 v11, 1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 24, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 24, v7
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v9			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v9
	; GFX6-NEXT: v_min_i32_e32 v6, -1, v3			; GFX6-NEXT: v_min_i32_e32 v6, -1, v3
	; GFX6-NEXT: s_movk_i32 s4, 0xff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v11			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v11
	; GFX6-NEXT: v_max_i32_e32 v4, v5, v4			; GFX6-NEXT: v_max_i32_e32 v4, v5, v4
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 24, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 24, v2
	; GFX6-NEXT: v_min_i32_e32 v4, v4, v6			; GFX6-NEXT: v_min_i32_e32 v4, v4, v6
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 24, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 24, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v3			; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 24, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v4i8:			; GFX8-LABEL: v_ssubsat_v4i8:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v2, 8			; GFX8-NEXT: v_mov_b32_e32 v2, 8
	; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v3, v2, v0 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0			; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v8, -1, v0			; GFX8-NEXT: v_max_i16_e32 v8, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 24, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v8, 0x7fff, v8
	; GFX8-NEXT: v_subrev_u16_e32 v8, s4, v8			; GFX8-NEXT: v_min_i16_e32 v9, -1, v0
	; GFX8-NEXT: v_min_i16_e32 v10, -1, v0			; GFX8-NEXT: v_subrev_u16_e32 v9, 0x8000, v9
	; GFX8-NEXT: v_subrev_u16_e32 v10, s5, v10
	; GFX8-NEXT: v_max_i16_e32 v1, v8, v1			; GFX8-NEXT: v_max_i16_e32 v1, v8, v1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v10			; GFX8-NEXT: v_min_i16_e32 v1, v1, v9
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
	; GFX8-NEXT: v_max_i16_e32 v1, -1, v3			; GFX8-NEXT: v_max_i16_e32 v1, -1, v3
	; GFX8-NEXT: v_subrev_u16_e32 v1, s4, v1			; GFX8-NEXT: v_subrev_u16_e32 v1, 0x7fff, v1
	; GFX8-NEXT: v_min_i16_e32 v8, -1, v3			; GFX8-NEXT: v_min_i16_e32 v8, -1, v3
	; GFX8-NEXT: v_subrev_u16_e32 v8, s5, v8			; GFX8-NEXT: v_subrev_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_max_i16_e32 v1, v1, v2			; GFX8-NEXT: v_max_i16_e32 v1, v1, v2
	; GFX8-NEXT: v_lshlrev_b16_e32 v2, 8, v4			; GFX8-NEXT: v_lshlrev_b16_e32 v2, 8, v4
	; GFX8-NEXT: v_mov_b32_e32 v9, 0x7fff
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v8			; GFX8-NEXT: v_min_i16_e32 v1, v1, v8
	; GFX8-NEXT: v_max_i16_e32 v4, -1, v2			; GFX8-NEXT: v_max_i16_e32 v4, -1, v2
	; GFX8-NEXT: v_sub_u16_e32 v1, v3, v1			; GFX8-NEXT: v_sub_u16_e32 v1, v3, v1
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v6			; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v6
	; GFX8-NEXT: v_sub_u16_e32 v4, v4, v9			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_min_i16_e32 v6, -1, v2			; GFX8-NEXT: v_min_i16_e32 v6, -1, v2
	; GFX8-NEXT: v_subrev_u16_e32 v6, s5, v6			; GFX8-NEXT: v_subrev_u16_e32 v6, 0x8000, v6
	; GFX8-NEXT: v_max_i16_e32 v3, v4, v3			; GFX8-NEXT: v_max_i16_e32 v3, v4, v3
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v6			; GFX8-NEXT: v_min_i16_e32 v3, v3, v6
	; GFX8-NEXT: v_sub_u16_e32 v2, v2, v3			; GFX8-NEXT: v_sub_u16_e32 v2, v2, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v5			; GFX8-NEXT: v_lshlrev_b16_e32 v3, 8, v5
	; GFX8-NEXT: v_max_i16_e32 v5, -1, v3			; GFX8-NEXT: v_max_i16_e32 v5, -1, v3
	; GFX8-NEXT: v_lshlrev_b16_e32 v4, 8, v7			; GFX8-NEXT: v_lshlrev_b16_e32 v4, 8, v7
	; GFX8-NEXT: v_sub_u16_e32 v5, v5, v9			; GFX8-NEXT: v_subrev_u16_e32 v5, 0x7fff, v5
	; GFX8-NEXT: v_min_i16_e32 v6, -1, v3			; GFX8-NEXT: v_min_i16_e32 v6, -1, v3
	; GFX8-NEXT: v_subrev_u16_e32 v6, 0x8000, v6			; GFX8-NEXT: v_subrev_u16_e32 v6, 0x8000, v6
	; GFX8-NEXT: v_max_i16_e32 v4, v5, v4			; GFX8-NEXT: v_max_i16_e32 v4, v5, v4
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v6			; GFX8-NEXT: v_min_i16_e32 v4, v4, v6
	; GFX8-NEXT: v_sub_u16_e32 v3, v3, v4			; GFX8-NEXT: v_sub_u16_e32 v3, v3, v4
	; GFX8-NEXT: v_mov_b32_e32 v4, 0xff			; GFX8-NEXT: v_mov_b32_e32 v4, 0xff
	; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v1, sext(v1), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
	Show All 29 Lines
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_sub_i16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_i16 v1, v2, v3 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_ssubsat_v4i8:			; GFX10-LABEL: v_ssubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s2, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_sub_i16 v1, s3, v1 clamp			; GFX9-NEXT: v_pk_sub_i16 v1, s3, v1 clamp
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff			; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: s_mov_b32 s5, 24			; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_ssubsat_v4i8:			; GFX10-LABEL: s_ssubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 1,815 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v2i16:			; GFX8-LABEL: v_ssubsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v3, -1, v0			; GFX8-NEXT: v_max_i16_e32 v3, -1, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v3, 0x7fff, v3
	; GFX8-NEXT: v_subrev_u16_e32 v3, s4, v3
	; GFX8-NEXT: v_min_i16_e32 v4, -1, v0			; GFX8-NEXT: v_min_i16_e32 v4, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: v_subrev_u16_e32 v4, s5, v4			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_max_i16_e32 v3, v3, v1			; GFX8-NEXT: v_max_i16_e32 v3, v3, v1
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v4			; GFX8-NEXT: v_min_i16_e32 v3, v3, v4
	; GFX8-NEXT: v_max_i16_e32 v4, -1, v2			; GFX8-NEXT: v_max_i16_e32 v4, -1, v2
	; GFX8-NEXT: v_subrev_u16_e32 v4, s4, v4			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x7fff, v4
	; GFX8-NEXT: v_min_i16_e32 v5, -1, v2			; GFX8-NEXT: v_min_i16_e32 v5, -1, v2
	; GFX8-NEXT: v_subrev_u16_e32 v5, s5, v5			; GFX8-NEXT: v_subrev_u16_e32 v5, 0x8000, v5
	; GFX8-NEXT: v_max_i16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v1, v1, v5			; GFX8-NEXT: v_min_i16_e32 v1, v1, v5
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v3			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v3
	; GFX8-NEXT: v_sub_u16_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v1, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v2i16:			; GFX9-LABEL: v_ssubsat_v2i16:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: s_sub_i32 s1, s1, 0x7fffffff			; GFX6-NEXT: s_sub_i32 s1, s1, 0x7fffffff
	; GFX6-NEXT: s_min_i32 s2, s0, -1			; GFX6-NEXT: s_min_i32 s2, s0, -1
	; GFX6-NEXT: s_sub_i32 s2, s2, 0x80000000			; GFX6-NEXT: s_sub_i32 s2, s2, 0x80000000
	; GFX6-NEXT: v_max_i32_e32 v1, s1, v1			; GFX6-NEXT: v_max_i32_e32 v1, s1, v1
	; GFX6-NEXT: v_min_i32_e32 v1, s2, v1			; GFX6-NEXT: v_min_i32_e32 v1, s2, v1
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s0, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_mov_b32 s0, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_and_b32_e32 v1, s0, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s0, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: ssubsat_v2i16_sv:			; GFX8-LABEL: ssubsat_v2i16_sv:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_sext_i32_i16 s2, s0			; GFX8-NEXT: s_sext_i32_i16 s2, s0
	; GFX8-NEXT: s_sext_i32_i16 s3, -1			; GFX8-NEXT: s_sext_i32_i16 s3, -1
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_lshl_b32 s0, s1, 16			; GFX6-NEXT: s_lshl_b32 s0, s1, 16
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s2, v2
	; GFX6-NEXT: v_min_i32_e32 v3, -1, v1			; GFX6-NEXT: v_min_i32_e32 v3, -1, v1
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s3, v3			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s3, v3
	; GFX6-NEXT: v_max_i32_e32 v2, s0, v2			; GFX6-NEXT: v_max_i32_e32 v2, s0, v2
	; GFX6-NEXT: v_min_i32_e32 v2, v2, v3			; GFX6-NEXT: v_min_i32_e32 v2, v2, v3
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: s_mov_b32 s0, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_and_b32_e32 v1, s0, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s0, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: ssubsat_v2i16_vs:			; GFX8-LABEL: ssubsat_v2i16_vs:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_movk_i32 s2, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v2, -1, v0			; GFX8-NEXT: v_max_i16_e32 v2, -1, v0
	; GFX8-NEXT: s_movk_i32 s3, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v2, 0x7fff, v2
	; GFX8-NEXT: v_subrev_u16_e32 v2, s2, v2
	; GFX8-NEXT: v_min_i16_e32 v3, -1, v0			; GFX8-NEXT: v_min_i16_e32 v3, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX8-NEXT: v_subrev_u16_e32 v3, s3, v3			; GFX8-NEXT: v_subrev_u16_e32 v3, 0x8000, v3
	; GFX8-NEXT: v_max_i16_e32 v2, s0, v2			; GFX8-NEXT: v_max_i16_e32 v2, s0, v2
	; GFX8-NEXT: v_min_i16_e32 v2, v2, v3			; GFX8-NEXT: v_min_i16_e32 v2, v2, v3
	; GFX8-NEXT: v_max_i16_e32 v3, -1, v1			; GFX8-NEXT: v_max_i16_e32 v3, -1, v1
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16			; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_subrev_u16_e32 v3, s2, v3			; GFX8-NEXT: v_subrev_u16_e32 v3, 0x7fff, v3
	; GFX8-NEXT: v_min_i16_e32 v4, -1, v1			; GFX8-NEXT: v_min_i16_e32 v4, -1, v1
	; GFX8-NEXT: v_subrev_u16_e32 v4, s3, v4			; GFX8-NEXT: v_subrev_u16_e32 v4, 0x8000, v4
	; GFX8-NEXT: v_max_i16_e32 v3, s1, v3			; GFX8-NEXT: v_max_i16_e32 v3, s1, v3
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v4			; GFX8-NEXT: v_min_i16_e32 v3, v3, v4
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v2			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v2
	; GFX8-NEXT: v_sub_u16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v1, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: ssubsat_v2i16_vs:			; GFX9-LABEL: ssubsat_v2i16_vs:
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v7
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v9			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v9
	; GFX6-NEXT: v_min_i32_e32 v6, -1, v3			; GFX6-NEXT: v_min_i32_e32 v6, -1, v3
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v11			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v11
	; GFX6-NEXT: v_max_i32_e32 v4, v5, v4			; GFX6-NEXT: v_max_i32_e32 v4, v5, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_min_i32_e32 v4, v4, v6			; GFX6-NEXT: v_min_i32_e32 v4, v4, v6
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v4
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v4i16:			; GFX8-LABEL: v_ssubsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v6, -1, v0			; GFX8-NEXT: v_max_i16_e32 v6, -1, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v6, 0x7fff, v6
	; GFX8-NEXT: v_subrev_u16_e32 v6, s4, v6
	; GFX8-NEXT: v_min_i16_e32 v7, -1, v0			; GFX8-NEXT: v_min_i16_e32 v7, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX8-NEXT: v_subrev_u16_e32 v7, s5, v7			; GFX8-NEXT: v_subrev_u16_e32 v7, 0x8000, v7
	; GFX8-NEXT: v_max_i16_e32 v6, v6, v2			; GFX8-NEXT: v_max_i16_e32 v6, v6, v2
	; GFX8-NEXT: v_min_i16_e32 v6, v6, v7			; GFX8-NEXT: v_min_i16_e32 v6, v6, v7
	; GFX8-NEXT: v_max_i16_e32 v7, -1, v4			; GFX8-NEXT: v_max_i16_e32 v7, -1, v4
	; GFX8-NEXT: v_subrev_u16_e32 v7, s4, v7			; GFX8-NEXT: v_subrev_u16_e32 v7, 0x7fff, v7
	; GFX8-NEXT: v_min_i16_e32 v8, -1, v4			; GFX8-NEXT: v_min_i16_e32 v8, -1, v4
	; GFX8-NEXT: v_subrev_u16_e32 v8, s5, v8			; GFX8-NEXT: v_subrev_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_max_i16_sdwa v2, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v2, v7, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_e32 v7, -1, v1			; GFX8-NEXT: v_max_i16_e32 v7, -1, v1
	; GFX8-NEXT: v_min_i16_e32 v2, v2, v8			; GFX8-NEXT: v_min_i16_e32 v2, v2, v8
	; GFX8-NEXT: v_subrev_u16_e32 v7, s4, v7			; GFX8-NEXT: v_subrev_u16_e32 v7, 0x7fff, v7
	; GFX8-NEXT: v_min_i16_e32 v8, -1, v1			; GFX8-NEXT: v_min_i16_e32 v8, -1, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v1
	; GFX8-NEXT: v_subrev_u16_e32 v8, s5, v8			; GFX8-NEXT: v_subrev_u16_e32 v8, 0x8000, v8
	; GFX8-NEXT: v_max_i16_e32 v7, v7, v3			; GFX8-NEXT: v_max_i16_e32 v7, v7, v3
	; GFX8-NEXT: v_min_i16_e32 v7, v7, v8			; GFX8-NEXT: v_min_i16_e32 v7, v7, v8
	; GFX8-NEXT: v_max_i16_e32 v8, -1, v5			; GFX8-NEXT: v_max_i16_e32 v8, -1, v5
	; GFX8-NEXT: v_subrev_u16_e32 v8, s4, v8			; GFX8-NEXT: v_subrev_u16_e32 v8, 0x7fff, v8
	; GFX8-NEXT: v_min_i16_e32 v9, -1, v5			; GFX8-NEXT: v_min_i16_e32 v9, -1, v5
	; GFX8-NEXT: v_subrev_u16_e32 v9, s5, v9			; GFX8-NEXT: v_subrev_u16_e32 v9, 0x8000, v9
	; GFX8-NEXT: v_max_i16_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v3, v8, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v9			; GFX8-NEXT: v_min_i16_e32 v3, v3, v9
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v6			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v6
	; GFX8-NEXT: v_sub_u16_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v2, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v2			; GFX8-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX8-NEXT: v_sub_u16_e32 v1, v1, v7			; GFX8-NEXT: v_sub_u16_e32 v1, v1, v7
	; GFX8-NEXT: v_sub_u16_sdwa v2, v5, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v2, v5, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v2			; GFX8-NEXT: v_or_b32_e32 v1, v1, v2
	▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_max_i32_e32 v7, -1, v5			; GFX6-NEXT: v_max_i32_e32 v7, -1, v5
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11			; GFX6-NEXT: v_lshlrev_b32_e32 v6, 16, v11
	; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v13			; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v13
	; GFX6-NEXT: v_min_i32_e32 v8, -1, v5			; GFX6-NEXT: v_min_i32_e32 v8, -1, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v8, vcc, v8, v15			; GFX6-NEXT: v_sub_i32_e32 v8, vcc, v8, v15
	; GFX6-NEXT: v_max_i32_e32 v6, v7, v6			; GFX6-NEXT: v_max_i32_e32 v6, v7, v6
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_min_i32_e32 v6, v6, v8			; GFX6-NEXT: v_min_i32_e32 v6, v6, v8
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v6			; GFX6-NEXT: v_sub_i32_e32 v5, vcc, v5, v6
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v5			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v4			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v6i16:			; GFX8-LABEL: v_ssubsat_v6i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v9, -1, v0			; GFX8-NEXT: v_max_i16_e32 v9, -1, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v9, 0x7fff, v9
	; GFX8-NEXT: v_subrev_u16_e32 v9, s4, v9			; GFX8-NEXT: v_min_i16_e32 v10, -1, v0
	; GFX8-NEXT: v_min_i16_e32 v11, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX8-NEXT: v_subrev_u16_e32 v11, s5, v11			; GFX8-NEXT: v_subrev_u16_e32 v10, 0x8000, v10
	; GFX8-NEXT: v_max_i16_e32 v9, v9, v3			; GFX8-NEXT: v_max_i16_e32 v9, v9, v3
	; GFX8-NEXT: v_min_i16_e32 v9, v9, v11			; GFX8-NEXT: v_min_i16_e32 v9, v9, v10
	; GFX8-NEXT: v_max_i16_e32 v11, -1, v6			; GFX8-NEXT: v_max_i16_e32 v10, -1, v6
	; GFX8-NEXT: v_subrev_u16_e32 v11, s4, v11			; GFX8-NEXT: v_subrev_u16_e32 v10, 0x7fff, v10
	; GFX8-NEXT: v_min_i16_e32 v13, -1, v6			; GFX8-NEXT: v_min_i16_e32 v11, -1, v6
	; GFX8-NEXT: v_subrev_u16_e32 v13, s5, v13			; GFX8-NEXT: v_subrev_u16_e32 v11, 0x8000, v11
	; GFX8-NEXT: v_max_i16_sdwa v3, v11, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v3, v10, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_e32 v11, -1, v1			; GFX8-NEXT: v_max_i16_e32 v10, -1, v1
	; GFX8-NEXT: v_min_i16_e32 v3, v3, v13			; GFX8-NEXT: v_min_i16_e32 v3, v3, v11
	; GFX8-NEXT: v_subrev_u16_e32 v11, s4, v11			; GFX8-NEXT: v_subrev_u16_e32 v10, 0x7fff, v10
	; GFX8-NEXT: v_min_i16_e32 v13, -1, v1			; GFX8-NEXT: v_min_i16_e32 v11, -1, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; GFX8-NEXT: v_subrev_u16_e32 v13, s5, v13			; GFX8-NEXT: v_subrev_u16_e32 v11, 0x8000, v11
	; GFX8-NEXT: v_max_i16_e32 v11, v11, v4			; GFX8-NEXT: v_max_i16_e32 v10, v10, v4
	; GFX8-NEXT: v_min_i16_e32 v11, v11, v13			; GFX8-NEXT: v_min_i16_e32 v10, v10, v11
	; GFX8-NEXT: v_max_i16_e32 v13, -1, v7			; GFX8-NEXT: v_max_i16_e32 v11, -1, v7
	; GFX8-NEXT: v_subrev_u16_e32 v13, s4, v13			; GFX8-NEXT: v_subrev_u16_e32 v11, 0x7fff, v11
	; GFX8-NEXT: v_min_i16_e32 v14, -1, v7			; GFX8-NEXT: v_min_i16_e32 v12, -1, v7
	; GFX8-NEXT: v_mov_b32_e32 v10, 0x7fff			; GFX8-NEXT: v_subrev_u16_e32 v12, 0x8000, v12
	; GFX8-NEXT: v_subrev_u16_e32 v14, s5, v14			; GFX8-NEXT: v_max_i16_sdwa v4, v11, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_sdwa v4, v13, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_e32 v11, -1, v2
	; GFX8-NEXT: v_max_i16_e32 v13, -1, v2			; GFX8-NEXT: v_min_i16_e32 v4, v4, v12
	; GFX8-NEXT: v_mov_b32_e32 v12, 0xffff8000			; GFX8-NEXT: v_subrev_u16_e32 v11, 0x7fff, v11
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v14			; GFX8-NEXT: v_min_i16_e32 v12, -1, v2
	; GFX8-NEXT: v_sub_u16_e32 v13, v13, v10
	; GFX8-NEXT: v_min_i16_e32 v14, -1, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX8-NEXT: v_sub_u16_e32 v14, v14, v12			; GFX8-NEXT: v_subrev_u16_e32 v12, 0x8000, v12
	; GFX8-NEXT: v_max_i16_e32 v13, v13, v5			; GFX8-NEXT: v_max_i16_e32 v11, v11, v5
	; GFX8-NEXT: v_min_i16_e32 v13, v13, v14			; GFX8-NEXT: v_min_i16_e32 v11, v11, v12
	; GFX8-NEXT: v_max_i16_e32 v14, -1, v8			; GFX8-NEXT: v_max_i16_e32 v12, -1, v8
	; GFX8-NEXT: v_sub_u16_e32 v10, v14, v10			; GFX8-NEXT: v_subrev_u16_e32 v12, 0x7fff, v12
	; GFX8-NEXT: v_min_i16_e32 v14, -1, v8			; GFX8-NEXT: v_min_i16_e32 v13, -1, v8
	; GFX8-NEXT: v_sub_u16_e32 v12, v14, v12			; GFX8-NEXT: v_subrev_u16_e32 v13, 0x8000, v13
	; GFX8-NEXT: v_max_i16_sdwa v5, v10, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v5, v12, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v9			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v9
	; GFX8-NEXT: v_sub_u16_sdwa v3, v6, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v3, v6, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_min_i16_e32 v5, v5, v12			; GFX8-NEXT: v_min_i16_e32 v5, v5, v13
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v3			; GFX8-NEXT: v_or_b32_e32 v0, v0, v3
	; GFX8-NEXT: v_sub_u16_e32 v1, v1, v11			; GFX8-NEXT: v_sub_u16_e32 v1, v1, v10
	; GFX8-NEXT: v_sub_u16_sdwa v3, v7, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v3, v7, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v3			; GFX8-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX8-NEXT: v_sub_u16_e32 v2, v2, v13			; GFX8-NEXT: v_sub_u16_e32 v2, v2, v11
	; GFX8-NEXT: v_sub_u16_sdwa v3, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v3, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v3			; GFX8-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v6i16:			; GFX9-LABEL: v_ssubsat_v6i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v3 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v3 clamp
	▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX6-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX6-NEXT: v_min_i32_e32 v8, v8, v10			; GFX6-NEXT: v_min_i32_e32 v8, v8, v10
	; GFX6-NEXT: v_max_i32_e32 v9, -1, v7			; GFX6-NEXT: v_max_i32_e32 v9, -1, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v8			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, v6, v8
	; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15			; GFX6-NEXT: v_lshlrev_b32_e32 v8, 16, v15
	; GFX6-NEXT: v_sub_i32_e32 v9, vcc, v9, v17			; GFX6-NEXT: v_sub_i32_e32 v9, vcc, v9, v17
	; GFX6-NEXT: v_min_i32_e32 v10, -1, v7			; GFX6-NEXT: v_min_i32_e32 v10, -1, v7
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; GFX6-NEXT: v_sub_i32_e32 v10, vcc, v10, v19			; GFX6-NEXT: v_sub_i32_e32 v10, vcc, v10, v19
	; GFX6-NEXT: v_max_i32_e32 v8, v9, v8			; GFX6-NEXT: v_max_i32_e32 v8, v9, v8
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 16, v3
	; GFX6-NEXT: v_min_i32_e32 v8, v8, v10			; GFX6-NEXT: v_min_i32_e32 v8, v8, v10
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 16, v5
	; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v8			; GFX6-NEXT: v_sub_i32_e32 v7, vcc, v7, v8
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v2			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 16, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 16, v7			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 16, v7
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v5			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 16, v6			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 16, v6
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v4			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v4, s4, v7			; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v7
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_and_b32_e32 v3, s4, v6			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX6-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX6-NEXT: v_or_b32_e32 v3, v3, v4			; GFX6-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v8i16:			; GFX8-LABEL: v_ssubsat_v8i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: s_movk_i32 s4, 0x7fff
	; GFX8-NEXT: v_max_i16_e32 v12, -1, v0			; GFX8-NEXT: v_max_i16_e32 v12, -1, v0
	; GFX8-NEXT: s_movk_i32 s5, 0x8000			; GFX8-NEXT: v_subrev_u16_e32 v12, 0x7fff, v12
	; GFX8-NEXT: v_subrev_u16_e32 v12, s4, v12			; GFX8-NEXT: v_min_i16_e32 v13, -1, v0
	; GFX8-NEXT: v_min_i16_e32 v14, -1, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 16, v0
	; GFX8-NEXT: v_subrev_u16_e32 v14, s5, v14			; GFX8-NEXT: v_subrev_u16_e32 v13, 0x8000, v13
	; GFX8-NEXT: v_max_i16_e32 v12, v12, v4			; GFX8-NEXT: v_max_i16_e32 v12, v12, v4
	; GFX8-NEXT: v_min_i16_e32 v12, v12, v14			; GFX8-NEXT: v_min_i16_e32 v12, v12, v13
	; GFX8-NEXT: v_max_i16_e32 v14, -1, v8			; GFX8-NEXT: v_max_i16_e32 v13, -1, v8
	; GFX8-NEXT: v_subrev_u16_e32 v14, s4, v14			; GFX8-NEXT: v_subrev_u16_e32 v13, 0x7fff, v13
	; GFX8-NEXT: v_min_i16_e32 v16, -1, v8			; GFX8-NEXT: v_min_i16_e32 v14, -1, v8
	; GFX8-NEXT: v_subrev_u16_e32 v16, s5, v16			; GFX8-NEXT: v_subrev_u16_e32 v14, 0x8000, v14
	; GFX8-NEXT: v_max_i16_sdwa v4, v14, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v4, v13, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_e32 v14, -1, v1			; GFX8-NEXT: v_max_i16_e32 v13, -1, v1
	; GFX8-NEXT: v_min_i16_e32 v4, v4, v16			; GFX8-NEXT: v_min_i16_e32 v4, v4, v14
	; GFX8-NEXT: v_subrev_u16_e32 v14, s4, v14			; GFX8-NEXT: v_subrev_u16_e32 v13, 0x7fff, v13
	; GFX8-NEXT: v_min_i16_e32 v16, -1, v1			; GFX8-NEXT: v_min_i16_e32 v14, -1, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 16, v1
	; GFX8-NEXT: v_subrev_u16_e32 v16, s5, v16			; GFX8-NEXT: v_subrev_u16_e32 v14, 0x8000, v14
	; GFX8-NEXT: v_max_i16_e32 v14, v14, v5			; GFX8-NEXT: v_max_i16_e32 v13, v13, v5
	; GFX8-NEXT: v_min_i16_e32 v14, v14, v16			; GFX8-NEXT: v_min_i16_e32 v13, v13, v14
	; GFX8-NEXT: v_max_i16_e32 v16, -1, v9			; GFX8-NEXT: v_max_i16_e32 v14, -1, v9
	; GFX8-NEXT: v_subrev_u16_e32 v16, s4, v16			; GFX8-NEXT: v_subrev_u16_e32 v14, 0x7fff, v14
	; GFX8-NEXT: v_min_i16_e32 v17, -1, v9			; GFX8-NEXT: v_min_i16_e32 v15, -1, v9
	; GFX8-NEXT: v_mov_b32_e32 v13, 0x7fff			; GFX8-NEXT: v_subrev_u16_e32 v15, 0x8000, v15
	; GFX8-NEXT: v_subrev_u16_e32 v17, s5, v17			; GFX8-NEXT: v_max_i16_sdwa v5, v14, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_sdwa v5, v16, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_e32 v14, -1, v2
	; GFX8-NEXT: v_max_i16_e32 v16, -1, v2			; GFX8-NEXT: v_min_i16_e32 v5, v5, v15
	; GFX8-NEXT: v_mov_b32_e32 v15, 0xffff8000			; GFX8-NEXT: v_subrev_u16_e32 v14, 0x7fff, v14
	; GFX8-NEXT: v_min_i16_e32 v5, v5, v17			; GFX8-NEXT: v_min_i16_e32 v15, -1, v2
	; GFX8-NEXT: v_sub_u16_e32 v16, v16, v13
	; GFX8-NEXT: v_min_i16_e32 v17, -1, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v10, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v10, 16, v2
	; GFX8-NEXT: v_sub_u16_e32 v17, v17, v15			; GFX8-NEXT: v_subrev_u16_e32 v15, 0x8000, v15
	; GFX8-NEXT: v_max_i16_e32 v16, v16, v6			; GFX8-NEXT: v_max_i16_e32 v14, v14, v6
	; GFX8-NEXT: v_min_i16_e32 v16, v16, v17			; GFX8-NEXT: v_min_i16_e32 v14, v14, v15
	; GFX8-NEXT: v_max_i16_e32 v17, -1, v10			; GFX8-NEXT: v_max_i16_e32 v15, -1, v10
	; GFX8-NEXT: v_sub_u16_e32 v17, v17, v13			; GFX8-NEXT: v_subrev_u16_e32 v15, 0x7fff, v15
	; GFX8-NEXT: v_min_i16_e32 v18, -1, v10			; GFX8-NEXT: v_min_i16_e32 v16, -1, v10
	; GFX8-NEXT: v_sub_u16_e32 v18, v18, v15			; GFX8-NEXT: v_subrev_u16_e32 v16, 0x8000, v16
	; GFX8-NEXT: v_max_i16_sdwa v6, v17, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v6, v15, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_max_i16_e32 v17, -1, v3			; GFX8-NEXT: v_max_i16_e32 v15, -1, v3
	; GFX8-NEXT: v_min_i16_e32 v6, v6, v18			; GFX8-NEXT: v_min_i16_e32 v6, v6, v16
	; GFX8-NEXT: v_sub_u16_e32 v17, v17, v13			; GFX8-NEXT: v_subrev_u16_e32 v15, 0x7fff, v15
	; GFX8-NEXT: v_min_i16_e32 v18, -1, v3			; GFX8-NEXT: v_min_i16_e32 v16, -1, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v11, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v11, 16, v3
	; GFX8-NEXT: v_sub_u16_e32 v18, v18, v15			; GFX8-NEXT: v_subrev_u16_e32 v16, 0x8000, v16
	; GFX8-NEXT: v_max_i16_e32 v17, v17, v7			; GFX8-NEXT: v_max_i16_e32 v15, v15, v7
	; GFX8-NEXT: v_min_i16_e32 v17, v17, v18			; GFX8-NEXT: v_min_i16_e32 v15, v15, v16
	; GFX8-NEXT: v_max_i16_e32 v18, -1, v11			; GFX8-NEXT: v_max_i16_e32 v16, -1, v11
	; GFX8-NEXT: v_sub_u16_e32 v13, v18, v13			; GFX8-NEXT: v_subrev_u16_e32 v16, 0x7fff, v16
	; GFX8-NEXT: v_min_i16_e32 v18, -1, v11			; GFX8-NEXT: v_min_i16_e32 v17, -1, v11
	; GFX8-NEXT: v_sub_u16_e32 v0, v0, v12			; GFX8-NEXT: v_sub_u16_e32 v0, v0, v12
	; GFX8-NEXT: v_sub_u16_sdwa v4, v8, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v4, v8, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_sub_u16_e32 v15, v18, v15			; GFX8-NEXT: v_subrev_u16_e32 v17, 0x8000, v17
	; GFX8-NEXT: v_max_i16_sdwa v7, v13, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX8-NEXT: v_max_i16_sdwa v7, v16, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v4			; GFX8-NEXT: v_or_b32_e32 v0, v0, v4
	; GFX8-NEXT: v_sub_u16_e32 v1, v1, v14			; GFX8-NEXT: v_sub_u16_e32 v1, v1, v13
	; GFX8-NEXT: v_sub_u16_sdwa v4, v9, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v4, v9, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_min_i16_e32 v7, v7, v15			; GFX8-NEXT: v_min_i16_e32 v7, v7, v17
	; GFX8-NEXT: v_or_b32_e32 v1, v1, v4			; GFX8-NEXT: v_or_b32_e32 v1, v1, v4
	; GFX8-NEXT: v_sub_u16_e32 v2, v2, v16			; GFX8-NEXT: v_sub_u16_e32 v2, v2, v14
	; GFX8-NEXT: v_sub_u16_sdwa v4, v10, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v4, v10, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v2, v2, v4			; GFX8-NEXT: v_or_b32_e32 v2, v2, v4
	; GFX8-NEXT: v_sub_u16_e32 v3, v3, v17			; GFX8-NEXT: v_sub_u16_e32 v3, v3, v15
	; GFX8-NEXT: v_sub_u16_sdwa v4, v11, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX8-NEXT: v_sub_u16_sdwa v4, v11, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v3, v3, v4			; GFX8-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v8i16:			; GFX9-LABEL: v_ssubsat_v8i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_pk_sub_i16 v0, v0, v4 clamp			; GFX9-NEXT: v_pk_sub_i16 v0, v0, v4 clamp
	▲ Show 20 Lines • Show All 2,050 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/subo.ll

Show First 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = sub i64 %sub, %of.zext		%ret = sub i64 %sub, %of.zext
ret i64 %ret		ret i64 %ret
}		}

define i8 @v_usubo_i8(i8 %a, i8 %b) {		define i8 @v_usubo_i8(i8 %a, i8 %b) {
; GFX7-LABEL: v_usubo_i8:		; GFX7-LABEL: v_usubo_i8:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubo_i8:		; GFX8-LABEL: v_usubo_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0xff		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_usubo_i8:		; GFX9-LABEL: v_usubo_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 9 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = sub i8 %sub, %of.zext		%ret = sub i8 %sub, %of.zext
ret i8 %ret		ret i8 %ret
}		}

define i7 @v_usubo_i7(i7 %a, i7 %b) {		define i7 @v_usubo_i7(i7 %a, i7 %b) {
; GFX7-LABEL: v_usubo_i7:		; GFX7-LABEL: v_usubo_i7:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0x7f		; GFX7-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubo_i7:		; GFX8-LABEL: v_usubo_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_usubo_i7:		; GFX9-LABEL: v_usubo_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1
; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1		; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX9-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX9-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%usubo = call {i7, i1} @llvm.usub.with.overflow.i7(i7 %a, i7 %b)		%usubo = call {i7, i1} @llvm.usub.with.overflow.i7(i7 %a, i7 %b)
%sub = extractvalue {i7, i1} %usubo, 0		%sub = extractvalue {i7, i1} %usubo, 0
%of = extractvalue {i7, i1} %usubo, 1		%of = extractvalue {i7, i1} %usubo, 1
%of.zext = zext i1 %of to i7		%of.zext = zext i1 %of to i7
▲ Show 20 Lines • Show All 406 Lines • ▼ Show 20 Lines	; GFX9-NEXT: ; return to shader part epilog
%ret = sub <2 x i32> %sub, %of.zext		%ret = sub <2 x i32> %sub, %of.zext
ret <2 x i32> %ret		ret <2 x i32> %ret
}		}

define i8 @s_usubo_i8(i8 %a, i8 %b) {		define i8 @s_usubo_i8(i8 %a, i8 %b) {
; GFX7-LABEL: s_usubo_i8:		; GFX7-LABEL: s_usubo_i8:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0xff		; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: s_usubo_i8:		; GFX8-LABEL: s_usubo_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0xff		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: s_usubo_i8:		; GFX9-LABEL: s_usubo_i8:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 9 Lines	; GFX9-NEXT: s_setpc_b64 s[30:31]
%ret = sub i8 %sub, %of.zext		%ret = sub i8 %sub, %of.zext
ret i8 %ret		ret i8 %ret
}		}

define i7 @s_usubo_i7(i7 %a, i7 %b) {		define i7 @s_usubo_i7(i7 %a, i7 %b) {
; GFX7-LABEL: s_usubo_i7:		; GFX7-LABEL: s_usubo_i7:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX7-NEXT: s_movk_i32 s4, 0x7f		; GFX7-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX7-NEXT: v_and_b32_e32 v0, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v1
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, s4, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: s_setpc_b64 s[30:31]		; GFX7-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: s_usubo_i7:		; GFX8-LABEL: s_usubo_i7:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: s_movk_i32 s4, 0x7f		; GFX8-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX8-NEXT: v_and_b32_e32 v0, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v1
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_and_b32_e32 v1, s4, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: s_usubo_i7:		; GFX9-LABEL: s_usubo_i7:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x7f		; GFX9-NEXT: v_and_b32_e32 v0, 0x7f, v0
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v1
; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1		; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1
; GFX9-NEXT: v_and_b32_e32 v1, s4, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0x7f, v0
; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX9-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX9-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX9-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
%usubo = call {i7, i1} @llvm.usub.with.overflow.i7(i7 %a, i7 %b)		%usubo = call {i7, i1} @llvm.usub.with.overflow.i7(i7 %a, i7 %b)
%sub = extractvalue {i7, i1} %usubo, 0		%sub = extractvalue {i7, i1} %usubo, 0
%of = extractvalue {i7, i1} %usubo, 1		%of = extractvalue {i7, i1} %usubo, 1
%of.zext = zext i1 %of to i7		%of.zext = zext i1 %of to i7
▲ Show 20 Lines • Show All 300 Lines • ▼ Show 20 Lines	; GFX9-NEXT: ; return to shader part epilog
%of.zext = zext i1 %of to i32		%of.zext = zext i1 %of to i32
%ret = sub i32 %sub, %of.zext		%ret = sub i32 %sub, %of.zext
ret i32 %ret		ret i32 %ret
}		}

define amdgpu_ps i16 @usubo_i16_sv(i16 inreg %a, i16 %b) {		define amdgpu_ps i16 @usubo_i16_sv(i16 inreg %a, i16 %b) {
; GFX7-LABEL: usubo_i16_sv:		; GFX7-LABEL: usubo_i16_sv:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s1, 0xffff
; GFX7-NEXT: s_and_b32 s0, s0, 0xffff		; GFX7-NEXT: s_and_b32 s0, s0, 0xffff
; GFX7-NEXT: v_and_b32_e32 v0, s1, v0		; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, s0, v0		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, s0, v0
; GFX7-NEXT: v_and_b32_e32 v1, s1, v0		; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX7-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX7-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX7-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX7-NEXT: v_readfirstlane_b32 s0, v0		; GFX7-NEXT: v_readfirstlane_b32 s0, v0
; GFX7-NEXT: ; return to shader part epilog		; GFX7-NEXT: ; return to shader part epilog
;		;
; GFX8-LABEL: usubo_i16_sv:		; GFX8-LABEL: usubo_i16_sv:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_mov_b32 s1, 0xffff
; GFX8-NEXT: s_and_b32 s0, s0, 0xffff		; GFX8-NEXT: s_and_b32 s0, s0, 0xffff
; GFX8-NEXT: v_and_b32_e32 v0, s1, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s0, v0		; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s0, v0
; GFX8-NEXT: v_and_b32_e32 v1, s1, v0		; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1		; GFX8-NEXT: v_cmp_ne_u32_e32 vcc, v0, v1
; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; GFX8-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1		; GFX8-NEXT: v_sub_u16_e32 v0, v0, v1
; GFX8-NEXT: v_readfirstlane_b32 s0, v0		; GFX8-NEXT: v_readfirstlane_b32 s0, v0
; GFX8-NEXT: ; return to shader part epilog		; GFX8-NEXT: ; return to shader part epilog
;		;
; GFX9-LABEL: usubo_i16_sv:		; GFX9-LABEL: usubo_i16_sv:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
▲ Show 20 Lines • Show All 113 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/trunc.ll

	Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; %cast = bitcast <4 x i16> %ext to <2 x i32>			; %cast = bitcast <4 x i16> %ext to <2 x i32>
	; ret <2 x i32> %cast			; ret <2 x i32> %cast
	; }			; }

	define <2 x i32> @v_trunc_v4i32_to_v4i16(<4 x i32> %src) {			define <2 x i32> @v_trunc_v4i32_to_v4i16(<4 x i32> %src) {
	; GFX7-LABEL: v_trunc_v4i32_to_v4i16:			; GFX7-LABEL: v_trunc_v4i32_to_v4i16:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX7-NEXT: v_and_b32_e32 v0, v0, v4			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_or_b32_e32 v0, v1, v0			; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v1, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v2, v2, v4			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_or_b32_e32 v1, v1, v2			; GFX7-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX7-NEXT: s_setpc_b64 s[30:31]			; GFX7-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_trunc_v4i32_to_v4i16:			; GFX8-LABEL: v_trunc_v4i32_to_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_sdwa v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PRESERVE src0_sel:WORD_0			; GFX8-NEXT: v_mov_b32_sdwa v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PRESERVE src0_sel:WORD_0
	; GFX8-NEXT: v_mov_b32_sdwa v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PRESERVE src0_sel:WORD_0			; GFX8-NEXT: v_mov_b32_sdwa v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PRESERVE src0_sel:WORD_0
	Show All 31 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

	Show First 20 Lines • Show All 446 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_add_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_add_u16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_add_u16 v1, v2, v3 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_uaddsat_v4i8:			; GFX10-LABEL: v_uaddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s2, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_add_u16 v1, s3, v1 clamp			; GFX9-NEXT: v_pk_add_u16 v1, s3, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff			; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: s_mov_b32 s5, 24			; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_uaddsat_v4i8:			; GFX10-LABEL: s_uaddsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 3,017 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i32.ll

Show First 20 Lines • Show All 302 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%r = udiv i32 %x, %shl.y		%r = udiv i32 %x, %shl.y
ret i32 %r		ret i32 %r
}		}

define <2 x i32> @v_udiv_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {		define <2 x i32> @v_udiv_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {
; GISEL-LABEL: v_udiv_v2i32_pow2_shl_denom:		; GISEL-LABEL: v_udiv_v2i32_pow2_shl_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_movk_i32 s4, 0x1000		; GISEL-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
; GISEL-NEXT: v_lshl_b32_e32 v2, s4, v2		; GISEL-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; GISEL-NEXT: v_lshl_b32_e32 v3, s4, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 27 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; GISEL-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_udiv_v2i32_pow2_shl_denom:		; CGP-LABEL: v_udiv_v2i32_pow2_shl_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s4, 0x1000		; CGP-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
; CGP-NEXT: v_lshl_b32_e32 v2, s4, v2		; CGP-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; CGP-NEXT: v_lshl_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 40 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = udiv <2 x i32> %x, %shl.y		%r = udiv <2 x i32> %x, %shl.y
ret <2 x i32> %r		ret <2 x i32> %r
}		}

define i32 @v_udiv_i32_24bit(i32 %num, i32 %den) {		define i32 @v_udiv_i32_24bit(i32 %num, i32 %den) {
; GISEL-LABEL: v_udiv_i32_24bit:		; GISEL-LABEL: v_udiv_i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2		; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v2, v1		; GISEL-NEXT: v_mul_lo_u32 v3, v2, v1
; GISEL-NEXT: v_add_i32_e32 v4, vcc, 1, v2		; GISEL-NEXT: v_add_i32_e32 v4, vcc, 1, v2
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v3		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GISEL-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v1		; GISEL-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GISEL-NEXT: v_add_i32_e32 v3, vcc, 1, v2		; GISEL-NEXT: v_add_i32_e32 v3, vcc, 1, v2
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_udiv_i32_24bit:		; CGP-LABEL: v_udiv_i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1
; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; CGP-NEXT: v_rcp_f32_e32 v2, v2		; CGP-NEXT: v_rcp_f32_e32 v2, v2
; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
; CGP-NEXT: v_mul_lo_u32 v3, v3, v2		; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
; CGP-NEXT: v_mul_lo_u32 v4, 0, v3		; CGP-NEXT: v_mul_lo_u32 v4, 0, v3
; CGP-NEXT: v_mul_hi_u32 v3, v2, v3		; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
Show All 18 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = udiv i32 %num.mask, %den.mask		%result = udiv i32 %num.mask, %den.mask
ret i32 %result		ret i32 %result
}		}

define <2 x i32> @v_udiv_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {		define <2 x i32> @v_udiv_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {
; GISEL-LABEL: v_udiv_v2i32_24bit:		; GISEL-LABEL: v_udiv_v2i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1		; GISEL-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v2, s4, v2		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GISEL-NEXT: v_and_b32_e32 v3, s4, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 27 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v4, v6, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; GISEL-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v5, v7, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_udiv_v2i32_24bit:		; CGP-LABEL: v_udiv_v2i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; CGP-NEXT: v_and_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll

Show First 20 Lines • Show All 1,832 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = udiv <2 x i64> %x, %shl.y		%r = udiv <2 x i64> %x, %shl.y
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define i64 @v_udiv_i64_24bit(i64 %num, i64 %den) {		define i64 @v_udiv_i64_24bit(i64 %num, i64 %den) {
; GISEL-LABEL: v_udiv_i64_24bit:		; GISEL-LABEL: v_udiv_i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v1, s4, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
Show All 9 Lines
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc
; GISEL-NEXT: v_mov_b32_e32 v1, 0		; GISEL-NEXT: v_mov_b32_e32 v1, 0
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_udiv_i64_24bit:		; CGP-LABEL: v_udiv_i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s4, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v0, v0		; CGP-NEXT: v_cvt_f32_u32_e32 v0, v0
; CGP-NEXT: v_cvt_f32_u32_e32 v1, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v1, v1
; CGP-NEXT: v_rcp_f32_e32 v2, v1		; CGP-NEXT: v_rcp_f32_e32 v2, v1
; CGP-NEXT: v_mul_f32_e32 v2, v0, v2		; CGP-NEXT: v_mul_f32_e32 v2, v0, v2
; CGP-NEXT: v_trunc_f32_e32 v2, v2		; CGP-NEXT: v_trunc_f32_e32 v2, v2
; CGP-NEXT: v_mad_f32 v0, -v2, v1, v0		; CGP-NEXT: v_mad_f32 v0, -v2, v1, v0
; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, v1		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, v1
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v0, vcc, v2, v0		; CGP-NEXT: v_add_i32_e32 v0, vcc, v2, v0
; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_mov_b32_e32 v1, 0		; CGP-NEXT: v_mov_b32_e32 v1, 0
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%num.mask = and i64 %num, 16777215		%num.mask = and i64 %num, 16777215
%den.mask = and i64 %den, 16777215		%den.mask = and i64 %den, 16777215
%result = udiv i64 %num.mask, %den.mask		%result = udiv i64 %num.mask, %den.mask
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_udiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {		define <2 x i64> @v_udiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
; GISEL-LABEL: v_udiv_v2i64_24bit:		; GISEL-LABEL: v_udiv_v2i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s6, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v4
; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v7, 0		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v6
; GISEL-NEXT: v_and_b32_e32 v1, s6, v4		; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; GISEL-NEXT: v_and_b32_e32 v3, s6, v6		; GISEL-NEXT: v_cvt_f32_u32_e32 v7, v1
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v1
; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v1
; GISEL-NEXT: v_subb_u32_e64 v5, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_subb_u32_e64 v5, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v3
; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v3
; GISEL-NEXT: v_subb_u32_e64 v10, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_subb_u32_e64 v10, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_mac_f32_e32 v6, 0x4f800000, v7		; GISEL-NEXT: v_mac_f32_e32 v7, 0x4f800000, v6
; GISEL-NEXT: v_mac_f32_e32 v8, 0x4f800000, v7		; GISEL-NEXT: v_mac_f32_e32 v8, 0x4f800000, v6
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v7
; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v8		; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v8
; GISEL-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7		; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7
; GISEL-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; GISEL-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; GISEL-NEXT: v_mul_f32_e32 v11, 0x2f800000, v7		; GISEL-NEXT: v_mul_f32_e32 v11, 0x2f800000, v7
; GISEL-NEXT: v_trunc_f32_e32 v8, v8		; GISEL-NEXT: v_trunc_f32_e32 v8, v8
; GISEL-NEXT: v_trunc_f32_e32 v11, v11		; GISEL-NEXT: v_trunc_f32_e32 v11, v11
; GISEL-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; GISEL-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8		; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8
; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v11		; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v11
; GISEL-NEXT: v_cvt_u32_f32_e32 v11, v11		; GISEL-NEXT: v_cvt_u32_f32_e32 v11, v11
; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6		; GISEL-NEXT: v_cvt_u32_f32_e32 v12, v6
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v8		; GISEL-NEXT: v_mul_lo_u32 v6, v4, v8
; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7		; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7
; GISEL-NEXT: v_mul_lo_u32 v13, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v13, v9, v11
; GISEL-NEXT: v_mul_lo_u32 v14, v4, v6		; GISEL-NEXT: v_mul_lo_u32 v14, v4, v12
; GISEL-NEXT: v_mul_lo_u32 v15, v5, v6		; GISEL-NEXT: v_mul_lo_u32 v15, v5, v12
; GISEL-NEXT: v_mul_hi_u32 v16, v4, v6		; GISEL-NEXT: v_mul_hi_u32 v16, v4, v12
; GISEL-NEXT: v_mul_lo_u32 v17, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v17, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v18, v10, v7		; GISEL-NEXT: v_mul_lo_u32 v18, v10, v7
; GISEL-NEXT: v_mul_hi_u32 v19, v9, v7		; GISEL-NEXT: v_mul_hi_u32 v19, v9, v7
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v15, v12		; GISEL-NEXT: v_add_i32_e32 v6, vcc, v15, v6
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13
; GISEL-NEXT: v_mul_lo_u32 v15, v11, v17		; GISEL-NEXT: v_mul_lo_u32 v15, v11, v17
; GISEL-NEXT: v_mul_hi_u32 v18, v7, v17		; GISEL-NEXT: v_mul_hi_u32 v18, v7, v17
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v19		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v19
; GISEL-NEXT: v_mul_lo_u32 v19, v7, v13		; GISEL-NEXT: v_mul_lo_u32 v19, v7, v13
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v19		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v19
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v18		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v18
; GISEL-NEXT: v_mul_lo_u32 v15, v8, v14		; GISEL-NEXT: v_mul_lo_u32 v15, v8, v14
; GISEL-NEXT: v_mul_hi_u32 v18, v6, v14		; GISEL-NEXT: v_mul_hi_u32 v18, v12, v14
; GISEL-NEXT: v_mul_hi_u32 v14, v8, v14		; GISEL-NEXT: v_mul_hi_u32 v14, v8, v14
; GISEL-NEXT: v_mul_hi_u32 v17, v11, v17		; GISEL-NEXT: v_mul_hi_u32 v17, v11, v17
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v12, v16		; GISEL-NEXT: v_add_i32_e64 v16, s[4:5], v6, v16
; GISEL-NEXT: v_mul_lo_u32 v16, v6, v12		; GISEL-NEXT: v_mul_lo_u32 v6, v12, v16
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v16		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v15, v6
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18
; GISEL-NEXT: v_mul_lo_u32 v15, v8, v12
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v16, s[4:5], v16, v18
; GISEL-NEXT: v_mul_hi_u32 v18, v6, v12
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v15, v14
; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v18		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v18
		; GISEL-NEXT: v_mul_lo_u32 v6, v8, v16
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18		; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_mul_hi_u32 v18, v12, v16
; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v14
; GISEL-NEXT: v_mul_lo_u32 v19, v11, v13		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v19, v17		; GISEL-NEXT: v_add_i32_e64 v18, s[4:5], v6, v18
; GISEL-NEXT: v_mul_hi_u32 v19, v7, v13		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, s[4:5]
		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v6
		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
		; GISEL-NEXT: v_add_i32_e32 v19, vcc, v19, v6
		; GISEL-NEXT: v_mul_lo_u32 v6, v11, v13
		; GISEL-NEXT: v_add_i32_e32 v6, vcc, v6, v17
		; GISEL-NEXT: v_mul_hi_u32 v17, v7, v13
; GISEL-NEXT: v_cndmask_b32_e64 v20, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v20, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v19		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v6, v17
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v19, vcc, v20, v19		; GISEL-NEXT: v_add_i32_e32 v20, vcc, v20, v6
		; GISEL-NEXT: v_and_b32_e32 v6, 0xffffff, v0
		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v2
; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000
		; GISEL-NEXT: s_bfe_i32 s6, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s7, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s7, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s8, -1, 0x10000		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v18, v15
; GISEL-NEXT: v_and_b32_e32 v0, s6, v0		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; GISEL-NEXT: v_and_b32_e32 v2, s6, v2		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v15
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v16		; GISEL-NEXT: v_mov_b32_e32 v15, s4
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v19
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; GISEL-NEXT: v_mov_b32_e32 v16, s4
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; GISEL-NEXT: v_add_i32_e32 v18, vcc, v20, v18
; GISEL-NEXT: v_mov_b32_e32 v19, s5		; GISEL-NEXT: v_mov_b32_e32 v19, s5
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v16, v8, v16
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v15		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v16, v14
; GISEL-NEXT: v_mov_b32_e32 v15, s7		; GISEL-NEXT: v_mov_b32_e32 v16, s6
; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v18		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v18
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v6, v14		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GISEL-NEXT: v_addc_u32_e32 v8, vcc, v8, v12, vcc		; GISEL-NEXT: v_addc_u32_e32 v8, vcc, v8, v14, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v6		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v2
; GISEL-NEXT: v_mul_lo_u32 v5, v5, v6		; GISEL-NEXT: v_mul_lo_u32 v5, v5, v2
; GISEL-NEXT: v_mul_hi_u32 v14, v4, v6		; GISEL-NEXT: v_mul_hi_u32 v14, v4, v2
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v17		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v17
; GISEL-NEXT: v_addc_u32_e32 v11, vcc, v11, v13, vcc		; GISEL-NEXT: v_addc_u32_e32 v11, vcc, v11, v13, vcc
; GISEL-NEXT: v_mul_lo_u32 v13, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v13, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v10, v10, v7		; GISEL-NEXT: v_mul_lo_u32 v10, v10, v7
; GISEL-NEXT: v_mul_hi_u32 v17, v9, v7		; GISEL-NEXT: v_mul_hi_u32 v17, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v4, v4, v8		; GISEL-NEXT: v_mul_lo_u32 v4, v4, v8
; GISEL-NEXT: v_mul_lo_u32 v18, v8, v12		; GISEL-NEXT: v_mul_lo_u32 v18, v8, v12
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GISEL-NEXT: v_mul_hi_u32 v5, v6, v12		; GISEL-NEXT: v_mul_hi_u32 v5, v2, v12
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12
; GISEL-NEXT: v_mul_lo_u32 v9, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v9, v9, v11
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; GISEL-NEXT: v_mul_lo_u32 v10, v11, v13		; GISEL-NEXT: v_mul_lo_u32 v10, v11, v13
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v14		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v14
; GISEL-NEXT: v_mul_hi_u32 v14, v7, v13		; GISEL-NEXT: v_mul_hi_u32 v14, v7, v13
; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v17		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v17
; GISEL-NEXT: v_mul_lo_u32 v17, v7, v9		; GISEL-NEXT: v_mul_lo_u32 v17, v7, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v14		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v14
; GISEL-NEXT: v_mul_lo_u32 v10, v6, v4		; GISEL-NEXT: v_mul_lo_u32 v10, v2, v4
; GISEL-NEXT: v_mul_lo_u32 v14, v8, v4		; GISEL-NEXT: v_mul_lo_u32 v14, v8, v4
; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10		; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v10, v5		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v10, v5
; GISEL-NEXT: v_mul_hi_u32 v5, v6, v4		; GISEL-NEXT: v_mul_hi_u32 v5, v2, v4
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10		; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10
; GISEL-NEXT: v_mul_lo_u32 v18, v11, v9		; GISEL-NEXT: v_mul_lo_u32 v18, v11, v9
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12		; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v12, v5		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v12, v5
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12		; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v17, v14
; GISEL-NEXT: v_mul_hi_u32 v17, v7, v9		; GISEL-NEXT: v_mul_hi_u32 v17, v7, v9
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17
; GISEL-NEXT: v_mov_b32_e32 v18, s8		; GISEL-NEXT: v_mov_b32_e32 v18, s7
; GISEL-NEXT: v_mul_hi_u32 v4, v8, v4		; GISEL-NEXT: v_mul_hi_u32 v4, v8, v4
; GISEL-NEXT: v_mul_hi_u32 v9, v11, v9		; GISEL-NEXT: v_mul_hi_u32 v9, v11, v9
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v10		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v10
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v12, v10		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v12, v10
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v10		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v10
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v5		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc		; GISEL-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
; GISEL-NEXT: v_mul_lo_u32 v6, 0, v5		; GISEL-NEXT: v_mul_lo_u32 v5, 0, v2
; GISEL-NEXT: v_mul_hi_u32 v8, v0, v5		; GISEL-NEXT: v_mul_hi_u32 v8, v6, v2
; GISEL-NEXT: v_mul_hi_u32 v5, 0, v5		; GISEL-NEXT: v_mul_hi_u32 v2, 0, v2
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v13		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v13
; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v11, v9, vcc		; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v11, v9, vcc
; GISEL-NEXT: v_mul_lo_u32 v10, 0, v7		; GISEL-NEXT: v_mul_lo_u32 v10, 0, v7
; GISEL-NEXT: v_mul_hi_u32 v11, v2, v7		; GISEL-NEXT: v_mul_hi_u32 v11, v0, v7
; GISEL-NEXT: v_mul_hi_u32 v7, 0, v7		; GISEL-NEXT: v_mul_hi_u32 v7, 0, v7
; GISEL-NEXT: v_mul_lo_u32 v12, v0, v4		; GISEL-NEXT: v_mul_lo_u32 v12, v6, v4
; GISEL-NEXT: v_mul_lo_u32 v13, 0, v4		; GISEL-NEXT: v_mul_lo_u32 v13, 0, v4
; GISEL-NEXT: v_mul_hi_u32 v14, v0, v4		; GISEL-NEXT: v_mul_hi_u32 v14, v6, v4
; GISEL-NEXT: v_mul_hi_u32 v4, 0, v4		; GISEL-NEXT: v_mul_hi_u32 v4, 0, v4
; GISEL-NEXT: v_mul_lo_u32 v17, v2, v9		; GISEL-NEXT: v_mul_lo_u32 v17, v0, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_mul_lo_u32 v10, 0, v9		; GISEL-NEXT: v_mul_lo_u32 v10, 0, v9
; GISEL-NEXT: v_mul_hi_u32 v11, v2, v9		; GISEL-NEXT: v_mul_hi_u32 v11, v0, v9
; GISEL-NEXT: v_mul_hi_u32 v9, 0, v9		; GISEL-NEXT: v_mul_hi_u32 v9, 0, v9
; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v12		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v12
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v13, v5		; GISEL-NEXT: v_add_i32_e64 v2, s[4:5], v13, v2
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v7, s[4:5], v10, v7		; GISEL-NEXT: v_add_i32_e64 v7, s[4:5], v10, v7
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v8		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v8
; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v5, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v14		; GISEL-NEXT: v_add_i32_e64 v2, s[4:5], v2, v14
; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, 1, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v12, v6		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v12, v5
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v13, v8		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v13, v8
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v5, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GISEL-NEXT: v_mul_lo_u32 v8, v1, v5		; GISEL-NEXT: v_mul_lo_u32 v8, v1, v2
; GISEL-NEXT: v_mul_lo_u32 v12, 0, v5		; GISEL-NEXT: v_mul_lo_u32 v12, 0, v2
; GISEL-NEXT: v_mul_hi_u32 v13, v1, v5		; GISEL-NEXT: v_mul_hi_u32 v13, v1, v2
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_mul_lo_u32 v11, v3, v7		; GISEL-NEXT: v_mul_lo_u32 v11, v3, v7
; GISEL-NEXT: v_mul_lo_u32 v14, 0, v7		; GISEL-NEXT: v_mul_lo_u32 v14, 0, v7
; GISEL-NEXT: v_mul_hi_u32 v17, v3, v7		; GISEL-NEXT: v_mul_hi_u32 v17, v3, v7
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v9, v10		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v9, v10
; GISEL-NEXT: v_mul_lo_u32 v9, v1, v4		; GISEL-NEXT: v_mul_lo_u32 v9, v1, v4
; GISEL-NEXT: v_mul_lo_u32 v10, v3, v6		; GISEL-NEXT: v_mul_lo_u32 v10, v3, v5
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v12, v9		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v12, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v14, v10		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v14, v10
; GISEL-NEXT: v_add_i32_e32 v12, vcc, 1, v5		; GISEL-NEXT: v_add_i32_e32 v12, vcc, 1, v2
; GISEL-NEXT: v_addc_u32_e32 v14, vcc, 0, v4, vcc		; GISEL-NEXT: v_addc_u32_e32 v14, vcc, 0, v4, vcc
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v13		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v13
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v8		; GISEL-NEXT: v_sub_i32_e32 v6, vcc, v6, v8
; GISEL-NEXT: v_subb_u32_e64 v8, s[4:5], 0, v9, vcc		; GISEL-NEXT: v_subb_u32_e64 v8, s[4:5], 0, v9, vcc
; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v6, v1
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, -1, s[4:5]
; GISEL-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8		; GISEL-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v8
; GISEL-NEXT: v_add_i32_e64 v8, s[6:7], 1, v7		; GISEL-NEXT: v_add_i32_e64 v8, s[6:7], 1, v7
; GISEL-NEXT: v_addc_u32_e64 v17, s[6:7], 0, v6, s[6:7]		; GISEL-NEXT: v_addc_u32_e64 v17, s[6:7], 0, v5, s[6:7]
; GISEL-NEXT: v_sub_i32_e64 v2, s[6:7], v2, v11		; GISEL-NEXT: v_sub_i32_e64 v0, s[6:7], v0, v11
; GISEL-NEXT: v_subb_u32_e64 v11, s[8:9], 0, v10, s[6:7]		; GISEL-NEXT: v_subb_u32_e64 v11, s[8:9], 0, v10, s[6:7]
; GISEL-NEXT: v_cndmask_b32_e64 v13, v16, v13, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v13, v15, v13, s[4:5]
; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v3		; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v3
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, -1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, -1, s[4:5]
; GISEL-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v11		; GISEL-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v11
; GISEL-NEXT: v_cndmask_b32_e64 v11, v15, v16, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v11, v16, v15, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], 1, v12		; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], 1, v12
; GISEL-NEXT: v_addc_u32_e64 v16, s[4:5], 0, v14, s[4:5]		; GISEL-NEXT: v_addc_u32_e64 v16, s[4:5], 0, v14, s[4:5]
; GISEL-NEXT: v_sub_i32_e64 v10, s[4:5], 0, v10		; GISEL-NEXT: v_sub_i32_e64 v10, s[4:5], 0, v10
; GISEL-NEXT: v_subbrev_u32_e64 v10, s[4:5], 0, v10, s[6:7]		; GISEL-NEXT: v_subbrev_u32_e64 v10, s[4:5], 0, v10, s[6:7]
; GISEL-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v3		; GISEL-NEXT: v_sub_i32_e64 v0, s[4:5], v0, v3
; GISEL-NEXT: v_subbrev_u32_e64 v10, s[4:5], 0, v10, s[4:5]		; GISEL-NEXT: v_subbrev_u32_e64 v10, s[4:5], 0, v10, s[4:5]
; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v3		; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v3
; GISEL-NEXT: v_add_i32_e64 v2, s[6:7], 1, v8		; GISEL-NEXT: v_add_i32_e64 v0, s[6:7], 1, v8
; GISEL-NEXT: v_addc_u32_e64 v3, s[6:7], 0, v17, s[6:7]		; GISEL-NEXT: v_addc_u32_e64 v3, s[6:7], 0, v17, s[6:7]
; GISEL-NEXT: v_sub_i32_e64 v9, s[6:7], 0, v9		; GISEL-NEXT: v_sub_i32_e64 v9, s[6:7], 0, v9
; GISEL-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v9, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v9, vcc
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v6, vcc, v6, v1
; GISEL-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v9, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v9, vcc, 0, v9, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v6, v1
; GISEL-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
; GISEL-NEXT: v_cndmask_b32_e64 v1, 0, -1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[4:5]
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
; GISEL-NEXT: v_cndmask_b32_e32 v0, v19, v0, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v19, v1, vcc
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
; GISEL-NEXT: v_cndmask_b32_e32 v1, v18, v1, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v6, v18, v6, vcc
; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0		; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v12, v15, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v12, v15, vcc
; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v1		; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6
; GISEL-NEXT: v_cndmask_b32_e64 v1, v8, v2, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v6, v8, v0, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e32 v8, v14, v16, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v8, v14, v16, vcc
; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v13		; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v13
; GISEL-NEXT: v_cndmask_b32_e32 v0, v5, v0, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
; GISEL-NEXT: v_cndmask_b32_e64 v3, v17, v3, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v3, v17, v3, s[4:5]
; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v11		; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v11
; GISEL-NEXT: v_cndmask_b32_e64 v2, v7, v1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v2, v7, v6, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e32 v1, v4, v8, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v4, v8, vcc
; GISEL-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v3, v5, v3, s[4:5]
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_udiv_v2i64_24bit:		; CGP-LABEL: v_udiv_v2i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s6, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s6, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s6, v2		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v4
; CGP-NEXT: v_and_b32_e32 v2, s6, v4		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v6
; CGP-NEXT: v_and_b32_e32 v3, s6, v6
; CGP-NEXT: v_cvt_f32_u32_e32 v0, v0		; CGP-NEXT: v_cvt_f32_u32_e32 v0, v0
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v1, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v1, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v3, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v3, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v2		; CGP-NEXT: v_rcp_f32_e32 v4, v2
; CGP-NEXT: v_rcp_f32_e32 v5, v3		; CGP-NEXT: v_rcp_f32_e32 v5, v3
; CGP-NEXT: v_mul_f32_e32 v4, v0, v4		; CGP-NEXT: v_mul_f32_e32 v4, v0, v4
; CGP-NEXT: v_mul_f32_e32 v5, v1, v5		; CGP-NEXT: v_mul_f32_e32 v5, v1, v5
; CGP-NEXT: v_trunc_f32_e32 v4, v4		; CGP-NEXT: v_trunc_f32_e32 v4, v4
; CGP-NEXT: v_trunc_f32_e32 v5, v5		; CGP-NEXT: v_trunc_f32_e32 v5, v5
; CGP-NEXT: v_mad_f32 v0, -v4, v2, v0		; CGP-NEXT: v_mad_f32 v0, -v4, v2, v0
; CGP-NEXT: v_cvt_u32_f32_e32 v4, v4		; CGP-NEXT: v_cvt_u32_f32_e32 v4, v4
; CGP-NEXT: v_mad_f32 v1, -v5, v3, v1		; CGP-NEXT: v_mad_f32 v1, -v5, v3, v1
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, v2		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v0\|, v2
; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v0, 0, 1, s[4:5]
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, v3		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v1\|, v3
; CGP-NEXT: v_cndmask_b32_e64 v1, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v1, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v0, vcc, v4, v0		; CGP-NEXT: v_add_i32_e32 v0, vcc, v4, v0
; CGP-NEXT: v_add_i32_e32 v1, vcc, v5, v1		; CGP-NEXT: v_add_i32_e32 v1, vcc, v5, v1
; CGP-NEXT: v_and_b32_e32 v0, s6, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v2, s6, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v1
; CGP-NEXT: v_mov_b32_e32 v1, 0		; CGP-NEXT: v_mov_b32_e32 v1, 0
; CGP-NEXT: v_mov_b32_e32 v3, 0		; CGP-NEXT: v_mov_b32_e32 v3, 0
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%num.mask = and <2 x i64> %num, <i64 16777215, i64 16777215>		%num.mask = and <2 x i64> %num, <i64 16777215, i64 16777215>
%den.mask = and <2 x i64> %den, <i64 16777215, i64 16777215>		%den.mask = and <2 x i64> %den, <i64 16777215, i64 16777215>
%result = udiv <2 x i64> %num.mask, %den.mask		%result = udiv <2 x i64> %num.mask, %den.mask
ret <2 x i64> %result		ret <2 x i64> %result
}		}

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

Show First 20 Lines • Show All 709 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
store <2 x i32> %rem, <2 x i32> addrspace(1)* %out1		store <2 x i32> %rem, <2 x i32> addrspace(1)* %out1
ret void		ret void
}		}

define amdgpu_kernel void @udivrem_v4i32(<4 x i32> addrspace(1)* %out0, <4 x i32> addrspace(1)* %out1, <4 x i32> %x, <4 x i32> %y) {		define amdgpu_kernel void @udivrem_v4i32(<4 x i32> addrspace(1)* %out0, <4 x i32> addrspace(1)* %out1, <4 x i32> %x, <4 x i32> %y) {
; GFX8-LABEL: udivrem_v4i32:		; GFX8-LABEL: udivrem_v4i32:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10		; GFX8-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10
; GFX8-NEXT: v_mov_b32_e32 v2, 0x4f7ffffe
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s12		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s12
; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s13		; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s13
; GFX8-NEXT: s_sub_i32 s0, 0, s12		; GFX8-NEXT: s_sub_i32 s0, 0, s12
; GFX8-NEXT: v_cvt_f32_u32_e32 v6, s14		; GFX8-NEXT: v_cvt_f32_u32_e32 v6, s14
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_f32_e32 v1, v1, v2		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX8-NEXT: v_mul_lo_u32 v3, s0, v0		; GFX8-NEXT: v_mul_lo_u32 v2, s0, v0
; GFX8-NEXT: s_sub_i32 s0, 0, s13		; GFX8-NEXT: s_sub_i32 s0, 0, s13
; GFX8-NEXT: v_mul_lo_u32 v4, s0, v1		; GFX8-NEXT: v_mul_lo_u32 v3, s0, v1
; GFX8-NEXT: v_mul_hi_u32 v3, v0, v3		; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX8-NEXT: v_mul_hi_u32 v4, v1, v4		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v3		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
; GFX8-NEXT: v_mul_hi_u32 v0, s8, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s8, v0
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v4		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_hi_u32 v1, s9, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s9, v1
; GFX8-NEXT: v_mul_lo_u32 v3, v0, s12		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s12
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_mul_lo_u32 v5, v1, s13		; GFX8-NEXT: v_mul_lo_u32 v5, v1, s13
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s8, v3		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s8, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s12, v3		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s12, v2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s12, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s12, v3		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s12, v2
; GFX8-NEXT: v_cndmask_b32_e32 v4, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v4, v2, v3, vcc
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s9, v5		; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v6
; GFX8-NEXT: v_rcp_iflag_f32_e32 v5, v6		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s9, v5
; GFX8-NEXT: v_add_u32_e32 v6, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v3		; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GFX8-NEXT: v_mul_f32_e32 v5, v5, v2		; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
; GFX8-NEXT: v_cvt_u32_f32_e32 v5, v5		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX8-NEXT: v_subrev_u32_e64 v6, s[0:1], s13, v3		; GFX8-NEXT: v_subrev_u32_e64 v5, s[0:1], s13, v2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
; GFX8-NEXT: v_add_u32_e32 v6, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v3
; GFX8-NEXT: s_sub_i32 s0, 0, s14		; GFX8-NEXT: s_sub_i32 s0, 0, s14
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc		; GFX8-NEXT: v_mul_lo_u32 v6, s0, v3
; GFX8-NEXT: v_cvt_f32_u32_e32 v6, s15		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
; GFX8-NEXT: v_mul_lo_u32 v7, s0, v5		; GFX8-NEXT: v_add_u32_e32 v5, vcc, 1, v1
; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
; GFX8-NEXT: v_mul_hi_u32 v7, v5, v7		; GFX8-NEXT: v_mul_hi_u32 v6, v3, v6
; GFX8-NEXT: v_mul_f32_e32 v2, v6, v2		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GFX8-NEXT: v_add_u32_e64 v5, s[0:1], v5, v7		; GFX8-NEXT: v_cvt_f32_u32_e32 v5, s15
; GFX8-NEXT: v_cvt_u32_f32_e32 v2, v2		; GFX8-NEXT: v_add_u32_e64 v3, s[0:1], v3, v6
; GFX8-NEXT: v_mul_hi_u32 v7, s10, v5		; GFX8-NEXT: v_rcp_iflag_f32_e32 v6, v5
; GFX8-NEXT: v_subrev_u32_e64 v5, s[0:1], s13, v3		; GFX8-NEXT: v_mul_hi_u32 v3, s10, v3
		; GFX8-NEXT: v_subrev_u32_e64 v5, s[0:1], s13, v2
		; GFX8-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
		; GFX8-NEXT: v_cvt_u32_f32_e32 v6, v6
; GFX8-NEXT: s_sub_i32 s0, 0, s15		; GFX8-NEXT: s_sub_i32 s0, 0, s15
; GFX8-NEXT: v_mul_lo_u32 v6, s0, v2		; GFX8-NEXT: v_cndmask_b32_e32 v5, v2, v5, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v5, v3, v5, vcc		; GFX8-NEXT: v_mul_lo_u32 v2, v3, s14
; GFX8-NEXT: v_mul_lo_u32 v3, v7, s14		; GFX8-NEXT: v_mul_lo_u32 v7, s0, v6
; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v7		; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v3
; GFX8-NEXT: v_mul_hi_u32 v6, v2, v6		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s10, v2
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s10, v3		; GFX8-NEXT: v_mul_hi_u32 v7, v6, v7
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s14, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s14, v2
; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s14, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
; GFX8-NEXT: v_add_u32_e32 v2, vcc, v2, v6		; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s14, v2
; GFX8-NEXT: v_mul_hi_u32 v8, s11, v2		; GFX8-NEXT: v_cndmask_b32_e32 v8, v2, v8, vcc
; GFX8-NEXT: v_add_u32_e32 v2, vcc, 1, v7		; GFX8-NEXT: v_add_u32_e32 v2, vcc, v6, v7
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s14, v3		; GFX8-NEXT: v_mul_hi_u32 v7, s11, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v7, v2, vcc		; GFX8-NEXT: v_add_u32_e32 v2, vcc, 1, v3
; GFX8-NEXT: v_mul_lo_u32 v7, v8, s15		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s14, v8
; GFX8-NEXT: v_subrev_u32_e64 v6, s[0:1], s14, v3		; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
; GFX8-NEXT: v_cndmask_b32_e32 v6, v3, v6, vcc		; GFX8-NEXT: v_mul_lo_u32 v3, v7, s15
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s11, v7		; GFX8-NEXT: v_subrev_u32_e64 v6, s[0:1], s14, v8
; GFX8-NEXT: v_add_u32_e32 v7, vcc, 1, v8		; GFX8-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s11, v3
		; GFX8-NEXT: v_add_u32_e32 v8, vcc, 1, v7
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s15, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s15, v3
; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s15, v3		; GFX8-NEXT: v_subrev_u32_e64 v8, s[0:1], s15, v3
; GFX8-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v7		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v7
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s15, v8		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s15, v8
; GFX8-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v7, s[0:1], s15, v8		; GFX8-NEXT: v_subrev_u32_e64 v7, s[0:1], s15, v8
; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
; GFX8-NEXT: v_mov_b32_e32 v9, s5		; GFX8-NEXT: v_mov_b32_e32 v9, s5
; GFX8-NEXT: v_mov_b32_e32 v8, s4		; GFX8-NEXT: v_mov_b32_e32 v8, s4
; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]		; GFX8-NEXT: flat_store_dwordx4 v[8:9], v[0:3]
; GFX8-NEXT: s_nop 0		; GFX8-NEXT: s_nop 0
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]		; GFX8-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udivrem_v4i32:		; GFX9-LABEL: udivrem_v4i32:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx8 s[8:15], s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0x4f7ffffe
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12
; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13		; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13
; GFX9-NEXT: s_sub_i32 s0, 0, s12		; GFX9-NEXT: s_sub_i32 s0, 0, s12
; GFX9-NEXT: s_sub_i32 s1, 0, s13		; GFX9-NEXT: s_sub_i32 s1, 0, s13
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s14		; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s14
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
		; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v1, v1, v2
; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5		; GFX9-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GFX9-NEXT: v_mul_lo_u32 v3, s0, v0		; GFX9-NEXT: v_mul_lo_u32 v2, s0, v0
; GFX9-NEXT: v_mul_lo_u32 v4, s1, v1		; GFX9-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
; GFX9-NEXT: s_sub_i32 s4, 0, s14		; GFX9-NEXT: s_sub_i32 s4, 0, s14
; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4		; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX9-NEXT: v_add_u32_e32 v0, v0, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
		; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
; GFX9-NEXT: v_mul_hi_u32 v0, s8, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s8, v0
; GFX9-NEXT: v_add_u32_e32 v1, v1, v4
; GFX9-NEXT: v_mul_hi_u32 v1, s9, v1		; GFX9-NEXT: v_mul_hi_u32 v1, s9, v1
; GFX9-NEXT: v_mul_f32_e32 v3, v5, v2		; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v4
; GFX9-NEXT: v_mul_lo_u32 v4, v0, s12		; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
; GFX9-NEXT: v_add_u32_e32 v6, 1, v0		; GFX9-NEXT: v_mul_lo_u32 v3, v0, s12
; GFX9-NEXT: v_mul_lo_u32 v5, v1, s13		; GFX9-NEXT: v_mul_lo_u32 v4, v1, s13
; GFX9-NEXT: v_add_u32_e32 v7, 1, v1		; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
; GFX9-NEXT: v_sub_u32_e32 v4, s8, v4		; GFX9-NEXT: v_add_u32_e32 v6, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v4		; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc		; GFX9-NEXT: v_sub_u32_e32 v7, s9, v4
; GFX9-NEXT: v_subrev_u32_e32 v6, s12, v4		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_subrev_u32_e32 v4, s12, v3
; GFX9-NEXT: v_add_u32_e32 v6, 1, v0		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v4		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_sub_u32_e32 v5, s9, v5		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
; GFX9-NEXT: v_subrev_u32_e32 v6, s12, v4		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v6, vcc		; GFX9-NEXT: v_subrev_u32_e32 v4, s12, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v5		; GFX9-NEXT: v_cndmask_b32_e32 v4, v3, v4, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc		; GFX9-NEXT: v_mul_lo_u32 v3, s4, v2
; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s15		; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s15
		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
		; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
		; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5
		; GFX9-NEXT: v_subrev_u32_e32 v6, s13, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v6, v7, v6, vcc
		; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
		; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v5
		; GFX9-NEXT: v_mul_hi_u32 v2, s10, v2
; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3		; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
; GFX9-NEXT: v_subrev_u32_e32 v8, s13, v5		; GFX9-NEXT: v_add_u32_e32 v7, 1, v1
; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v6
; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7
; GFX9-NEXT: v_mul_lo_u32 v6, s4, v3
; GFX9-NEXT: s_sub_i32 s4, 0, s15		; GFX9-NEXT: s_sub_i32 s4, 0, s15
; GFX9-NEXT: v_add_u32_e32 v8, 1, v1		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc
; GFX9-NEXT: v_mul_f32_e32 v2, v7, v2		; GFX9-NEXT: v_mul_lo_u32 v7, v2, s14
; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2		; GFX9-NEXT: v_mul_lo_u32 v8, s4, v3
; GFX9-NEXT: v_mul_hi_u32 v6, v3, v6		; GFX9-NEXT: v_subrev_u32_e32 v5, s13, v6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v5		; GFX9-NEXT: v_cndmask_b32_e32 v5, v6, v5, vcc
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v8, vcc		; GFX9-NEXT: v_sub_u32_e32 v6, s10, v7
; GFX9-NEXT: v_mul_lo_u32 v7, s4, v2		; GFX9-NEXT: v_mul_hi_u32 v7, v3, v8
; GFX9-NEXT: v_add_u32_e32 v3, v3, v6		; GFX9-NEXT: v_add_u32_e32 v8, 1, v2
; GFX9-NEXT: v_mul_hi_u32 v3, s10, v3
; GFX9-NEXT: v_subrev_u32_e32 v8, s13, v5
; GFX9-NEXT: v_mul_hi_u32 v7, v2, v7
; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc
; GFX9-NEXT: v_mul_lo_u32 v6, v3, s14
; GFX9-NEXT: v_add_u32_e32 v8, 1, v3
; GFX9-NEXT: v_add_u32_e32 v2, v2, v7
; GFX9-NEXT: v_mul_hi_u32 v7, s11, v2
; GFX9-NEXT: v_sub_u32_e32 v6, s10, v6
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s14, v6		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s14, v6
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc
; GFX9-NEXT: v_subrev_u32_e32 v2, s14, v6		; GFX9-NEXT: v_add_u32_e32 v3, v3, v7
; GFX9-NEXT: v_mul_lo_u32 v8, v7, s15		; GFX9-NEXT: v_mul_hi_u32 v3, s11, v3
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v2, vcc		; GFX9-NEXT: v_subrev_u32_e32 v7, s14, v6
; GFX9-NEXT: v_add_u32_e32 v2, 1, v3		; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
		; GFX9-NEXT: v_add_u32_e32 v7, 1, v2
		; GFX9-NEXT: v_mul_lo_u32 v8, v3, s15
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s14, v6		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s14, v6
; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s14, v6		; GFX9-NEXT: v_subrev_u32_e32 v7, s14, v6
; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
; GFX9-NEXT: v_sub_u32_e32 v3, s11, v8		; GFX9-NEXT: v_sub_u32_e32 v7, s11, v8
; GFX9-NEXT: v_add_u32_e32 v8, 1, v7		; GFX9-NEXT: v_add_u32_e32 v8, 1, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s15, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s15, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
		; GFX9-NEXT: v_subrev_u32_e32 v8, s15, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
		; GFX9-NEXT: v_add_u32_e32 v8, 1, v3
		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s15, v7
		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc
		; GFX9-NEXT: v_subrev_u32_e32 v8, s15, v7
; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
; GFX9-NEXT: v_subrev_u32_e32 v8, s15, v3
; GFX9-NEXT: v_cndmask_b32_e32 v8, v3, v8, vcc
; GFX9-NEXT: v_add_u32_e32 v3, 1, v7
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s15, v8
; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v7, s15, v8
; GFX9-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
; GFX9-NEXT: v_mov_b32_e32 v8, 0		; GFX9-NEXT: v_mov_b32_e32 v8, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]		; GFX9-NEXT: global_store_dwordx4 v8, v[0:3], s[0:1]
; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[2:3]		; GFX9-NEXT: global_store_dwordx4 v8, v[4:7], s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udivrem_v4i32:		; GFX10-LABEL: udivrem_v4i32:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 1,086 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: s_movk_i32 s0, 0xff
; GFX8-NEXT: v_and_b32_e32 v1, s0, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_store_short v[0:1], v4		; GFX8-NEXT: flat_store_short v[0:1], v4
; GFX8-NEXT: v_and_b32_e32 v0, s0, v3		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v3
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udivrem_v2i8:		; GFX9-LABEL: udivrem_v2i8:
Show All 18 Lines
; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX9-NEXT: s_bfe_u32 s9, s0, 0x80008		; GFX9-NEXT: s_bfe_u32 s9, s0, 0x80008
; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: v_add_u32_e32 v1, v1, v3		; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
; GFX9-NEXT: v_mul_hi_u32 v1, s8, v1		; GFX9-NEXT: v_mul_hi_u32 v1, s8, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v2		; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s9, v0
; GFX9-NEXT: s_movk_i32 s4, 0xff
; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6		; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_mul_lo_u32 v2, v0, s7		; GFX9-NEXT: v_mul_lo_u32 v2, v0, s7
; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3		; GFX9-NEXT: v_sub_u32_e32 v3, s8, v3
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v1		; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
; GFX9-NEXT: v_sub_u32_e32 v2, s9, v2		; GFX9-NEXT: v_sub_u32_e32 v2, s9, v2
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3		; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0		; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v2
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2		; GFX9-NEXT: v_subrev_u32_e32 v4, s7, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_short v1, v0, s[0:1]		; GFX9-NEXT: global_store_short v1, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s4, v2		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v2
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v0, v3, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: global_store_short v1, v0, s[2:3]		; GFX9-NEXT: global_store_short v1, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udivrem_v2i8:		; GFX10-LABEL: udivrem_v2i8:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10		; GFX10-NEXT: s_load_dword s0, s[4:5], 0x10
▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @udivrem_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %x, <2 x i16> %y) {		define amdgpu_kernel void @udivrem_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %x, <2 x i16> %y) {
; GFX8-LABEL: udivrem_v2i16:		; GFX8-LABEL: udivrem_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX8-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[4:7], s[4:5], 0x0
; GFX8-NEXT: s_mov_b32 s8, 0xffff
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: s_and_b32 s2, s1, 0xffff		; GFX8-NEXT: s_and_b32 s2, s1, 0xffff
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s2		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s2
; GFX8-NEXT: s_lshr_b32 s3, s1, 16		; GFX8-NEXT: s_lshr_b32 s3, s1, 16
; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s3		; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s3
; GFX8-NEXT: s_sub_i32 s1, 0, s2		; GFX8-NEXT: s_sub_i32 s1, 0, s2
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: s_lshr_b32 s9, s0, 16		; GFX8-NEXT: s_lshr_b32 s8, s0, 16
; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1		; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1
; GFX8-NEXT: s_and_b32 s0, s0, 0xffff		; GFX8-NEXT: s_and_b32 s0, s0, 0xffff
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1		; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1		; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
; GFX8-NEXT: v_mul_lo_u32 v2, s1, v0		; GFX8-NEXT: v_mul_lo_u32 v2, s1, v0
; GFX8-NEXT: s_sub_i32 s1, 0, s3		; GFX8-NEXT: s_sub_i32 s1, 0, s3
; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1		; GFX8-NEXT: v_mul_lo_u32 v3, s1, v1
; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2		; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3		; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0		; GFX8-NEXT: v_mul_hi_u32 v0, s0, v0
; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3		; GFX8-NEXT: v_add_u32_e32 v1, vcc, v1, v3
; GFX8-NEXT: v_mul_hi_u32 v1, s9, v1		; GFX8-NEXT: v_mul_hi_u32 v1, s8, v1
; GFX8-NEXT: v_mul_lo_u32 v2, v0, s2		; GFX8-NEXT: v_mul_lo_u32 v2, v0, s2
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s0, v2		; GFX8-NEXT: v_sub_u32_e32 v2, vcc, s0, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s2, v2		; GFX8-NEXT: v_subrev_u32_e64 v3, s[0:1], s2, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0		; GFX8-NEXT: v_add_u32_e32 v3, vcc, 1, v0
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s2, v2
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX8-NEXT: v_mul_lo_u32 v3, v1, s3		; GFX8-NEXT: v_mul_lo_u32 v3, v1, s3
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s2, v2		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s2, v2
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s9, v3		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s8, v3
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v1
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s3, v3
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s3, v3
; GFX8-NEXT: v_and_b32_e32 v1, s8, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v4, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: v_and_b32_e32 v0, s8, v3		; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0		; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, s4		; GFX8-NEXT: v_mov_b32_e32 v0, s4
; GFX8-NEXT: v_mov_b32_e32 v1, s5		; GFX8-NEXT: v_mov_b32_e32 v1, s5
; GFX8-NEXT: flat_store_dword v[0:1], v4		; GFX8-NEXT: flat_store_dword v[0:1], v4
; GFX8-NEXT: v_mov_b32_e32 v0, s6		; GFX8-NEXT: v_mov_b32_e32 v0, s6
; GFX8-NEXT: v_mov_b32_e32 v1, s7		; GFX8-NEXT: v_mov_b32_e32 v1, s7
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7		; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s7
; GFX8-NEXT: s_sub_i32 s0, 0, s7		; GFX8-NEXT: s_sub_i32 s0, 0, s7
; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX8-NEXT: v_mul_lo_u32 v1, s0, v0		; GFX8-NEXT: v_mul_lo_u32 v1, s0, v0
; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX8-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX8-NEXT: s_and_b32 s4, s6, 0x7ffffff		; GFX8-NEXT: s_and_b32 s4, s6, 0x7ffffff
; GFX8-NEXT: s_mov_b32 s5, 0x7ffffff
; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX8-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1		; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v1
; GFX8-NEXT: v_mul_hi_u32 v2, s4, v0		; GFX8-NEXT: v_mul_hi_u32 v2, s4, v0
; GFX8-NEXT: s_waitcnt lgkmcnt(0)		; GFX8-NEXT: s_waitcnt lgkmcnt(0)
; GFX8-NEXT: v_mov_b32_e32 v0, s0		; GFX8-NEXT: v_mov_b32_e32 v0, s0
; GFX8-NEXT: v_mov_b32_e32 v1, s1		; GFX8-NEXT: v_mov_b32_e32 v1, s1
; GFX8-NEXT: v_mul_lo_u32 v3, v2, s7		; GFX8-NEXT: v_mul_lo_u32 v3, v2, s7
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s4, v3		; GFX8-NEXT: v_sub_u32_e32 v3, vcc, s4, v3
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v3
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s7, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s7, v3
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2		; GFX8-NEXT: v_add_u32_e32 v4, vcc, 1, v2
; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v3		; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v3
; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s7, v3		; GFX8-NEXT: v_subrev_u32_e64 v4, s[0:1], s7, v3
; GFX8-NEXT: v_and_b32_e32 v2, s5, v2		; GFX8-NEXT: v_and_b32_e32 v2, 0x7ffffff, v2
; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: v_mov_b32_e32 v0, s2		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_and_b32_e32 v2, s5, v3		; GFX8-NEXT: v_and_b32_e32 v2, 0x7ffffff, v3
; GFX8-NEXT: v_mov_b32_e32 v1, s3		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_store_dword v[0:1], v2		; GFX8-NEXT: flat_store_dword v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX9-LABEL: udivrem_i27:		; GFX9-LABEL: udivrem_i27:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX9-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v2, 0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: s_and_b32 s6, s1, 0x7ffffff		; GFX9-NEXT: s_and_b32 s6, s1, 0x7ffffff
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6		; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6
; GFX9-NEXT: s_sub_i32 s1, 0, s6		; GFX9-NEXT: s_sub_i32 s1, 0, s6
; GFX9-NEXT: s_and_b32 s7, s0, 0x7ffffff		; GFX9-NEXT: s_and_b32 s7, s0, 0x7ffffff
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0		; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0		; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0		; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0		; GFX9-NEXT: v_mul_lo_u32 v1, s1, v0
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GFX9-NEXT: s_mov_b32 s4, 0x7ffffff
; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1		; GFX9-NEXT: v_mul_hi_u32 v1, v0, v1
; GFX9-NEXT: v_add_u32_e32 v0, v0, v1		; GFX9-NEXT: v_add_u32_e32 v0, v0, v1
; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0		; GFX9-NEXT: v_mul_hi_u32 v0, s7, v0
; GFX9-NEXT: v_mul_lo_u32 v1, v0, s6		; GFX9-NEXT: v_mul_lo_u32 v1, v0, s6
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_sub_u32_e32 v1, s7, v1		; GFX9-NEXT: v_sub_u32_e32 v1, s7, v1
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_add_u32_e32 v3, 1, v0		; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1		; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1		; GFX9-NEXT: v_subrev_u32_e32 v3, s6, v1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX9-NEXT: v_and_b32_e32 v0, s4, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0x7ffffff, v0
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: global_store_dword v2, v0, s[0:1]		; GFX9-NEXT: global_store_dword v2, v0, s[0:1]
; GFX9-NEXT: v_and_b32_e32 v0, s4, v1		; GFX9-NEXT: v_and_b32_e32 v0, 0x7ffffff, v1
; GFX9-NEXT: global_store_dword v2, v0, s[2:3]		; GFX9-NEXT: global_store_dword v2, v0, s[2:3]
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: udivrem_i27:		; GFX10-LABEL: udivrem_i27:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10		; GFX10-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x10
; GFX10-NEXT: s_waitcnt lgkmcnt(0)		; GFX10-NEXT: s_waitcnt lgkmcnt(0)
; GFX10-NEXT: s_and_b32 s6, s1, 0x7ffffff		; GFX10-NEXT: s_and_b32 s6, s1, 0x7ffffff
Show All 36 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i32.ll

Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	; CGP-NEXT: ; return to shader part epilog
ret i32 %readlane		ret i32 %readlane
}		}

define <2 x i32> @v_urem_v2i32(<2 x i32> %num, <2 x i32> %den) {		define <2 x i32> @v_urem_v2i32(<2 x i32> %num, <2 x i32> %den) {
; GISEL-LABEL: v_urem_v2i32:		; GISEL-LABEL: v_urem_v2i32:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2
; GISEL-NEXT: s_mov_b32 s4, 0x4f7ffffe
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_mul_f32_e32 v4, s4, v4		; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; GISEL-NEXT: v_mul_f32_e32 v6, s4, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4
; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6		; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6
; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4		; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4
; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6		; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6
; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5		; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5
; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7		; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7
▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%result = urem i32 %num, 4096		%result = urem i32 %num, 4096
ret i32 %result		ret i32 %result
}		}

define <2 x i32> @v_urem_v2i32_pow2k_denom(<2 x i32> %num) {		define <2 x i32> @v_urem_v2i32_pow2k_denom(<2 x i32> %num) {
; CHECK-LABEL: v_urem_v2i32_pow2k_denom:		; CHECK-LABEL: v_urem_v2i32_pow2k_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0xfff		; CHECK-NEXT: v_and_b32_e32 v0, 0xfff, v0
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0		; CHECK-NEXT: v_and_b32_e32 v1, 0xfff, v1
; CHECK-NEXT: v_and_b32_e32 v1, s4, v1
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%result = urem <2 x i32> %num, <i32 4096, i32 4096>		%result = urem <2 x i32> %num, <i32 4096, i32 4096>
ret <2 x i32> %result		ret <2 x i32> %result
}		}

define i32 @v_urem_i32_oddk_denom(i32 %num) {		define i32 @v_urem_i32_oddk_denom(i32 %num) {
; CHECK-LABEL: v_urem_i32_oddk_denom:		; CHECK-LABEL: v_urem_i32_oddk_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
Show All 21 Lines
}		}

define <2 x i32> @v_urem_v2i32_oddk_denom(<2 x i32> %num) {		define <2 x i32> @v_urem_v2i32_oddk_denom(<2 x i32> %num) {
; GISEL-LABEL: v_urem_v2i32_oddk_denom:		; GISEL-LABEL: v_urem_v2i32_oddk_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0x12d8fb		; GISEL-NEXT: s_mov_b32 s4, 0x12d8fb
; GISEL-NEXT: v_mov_b32_e32 v2, 0x12d8fb		; GISEL-NEXT: v_mov_b32_e32 v2, 0x12d8fb
; GISEL-NEXT: v_mov_b32_e32 v3, 0xffed2705		; GISEL-NEXT: v_cvt_f32_u32_e32 v3, 0x12d8fb
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, s4		; GISEL-NEXT: v_mov_b32_e32 v4, 0xffed2705
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v3, v3
; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; GISEL-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v3, v3
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v4		; GISEL-NEXT: v_mul_lo_u32 v4, v4, v3
; GISEL-NEXT: v_mul_hi_u32 v3, v4, v3		; GISEL-NEXT: v_mul_hi_u32 v4, v3, v4
; GISEL-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; GISEL-NEXT: v_add_i32_e32 v3, vcc, v3, v4
; GISEL-NEXT: v_mul_hi_u32 v4, v0, v3		; GISEL-NEXT: v_mul_hi_u32 v4, v0, v3
; GISEL-NEXT: v_mul_hi_u32 v3, v1, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v1, v3
; GISEL-NEXT: v_mul_lo_u32 v4, v4, s4		; GISEL-NEXT: v_mul_lo_u32 v4, v4, s4
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v3		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
; GISEL-NEXT: v_subrev_i32_e32 v3, vcc, s4, v0		; GISEL-NEXT: v_subrev_i32_e32 v3, vcc, s4, v0
; GISEL-NEXT: v_subrev_i32_e32 v4, vcc, 0x12d8fb, v1		; GISEL-NEXT: v_subrev_i32_e32 v4, vcc, 0x12d8fb, v1
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%r = urem i32 %x, %shl.y		%r = urem i32 %x, %shl.y
ret i32 %r		ret i32 %r
}		}

define <2 x i32> @v_urem_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {		define <2 x i32> @v_urem_v2i32_pow2_shl_denom(<2 x i32> %x, <2 x i32> %y) {
; GISEL-LABEL: v_urem_v2i32_pow2_shl_denom:		; GISEL-LABEL: v_urem_v2i32_pow2_shl_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_movk_i32 s4, 0x1000		; GISEL-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
; GISEL-NEXT: s_mov_b32 s5, 0x4f7ffffe		; GISEL-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; GISEL-NEXT: v_lshl_b32_e32 v2, s4, v2
; GISEL-NEXT: v_lshl_b32_e32 v3, s4, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_mul_f32_e32 v4, s5, v4		; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; GISEL-NEXT: v_mul_f32_e32 v6, s5, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4
; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6		; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6
; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4		; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4
; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6		; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6
; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5		; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5
; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7		; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7
Show All 15 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; GISEL-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_v2i32_pow2_shl_denom:		; CGP-LABEL: v_urem_v2i32_pow2_shl_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_movk_i32 s4, 0x1000		; CGP-NEXT: v_lshl_b32_e32 v2, 0x1000, v2
; CGP-NEXT: v_lshl_b32_e32 v2, s4, v2		; CGP-NEXT: v_lshl_b32_e32 v3, 0x1000, v3
; CGP-NEXT: v_lshl_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 36 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = urem <2 x i32> %x, %shl.y		%r = urem <2 x i32> %x, %shl.y
ret <2 x i32> %r		ret <2 x i32> %r
}		}

define i32 @v_urem_i32_24bit(i32 %num, i32 %den) {		define i32 @v_urem_i32_24bit(i32 %num, i32 %den) {
; GISEL-LABEL: v_urem_i32_24bit:		; GISEL-LABEL: v_urem_i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2		; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2
; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1		; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_i32_24bit:		; CGP-LABEL: v_urem_i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v1
; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; CGP-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; CGP-NEXT: v_rcp_f32_e32 v2, v2		; CGP-NEXT: v_rcp_f32_e32 v2, v2
; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; CGP-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2		; CGP-NEXT: v_cvt_u32_f32_e32 v2, v2
; CGP-NEXT: v_mul_lo_u32 v3, v3, v2		; CGP-NEXT: v_mul_lo_u32 v3, v3, v2
; CGP-NEXT: v_mul_lo_u32 v4, 0, v3		; CGP-NEXT: v_mul_lo_u32 v4, 0, v3
; CGP-NEXT: v_mul_hi_u32 v3, v2, v3		; CGP-NEXT: v_mul_hi_u32 v3, v2, v3
Show All 16 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = urem i32 %num.mask, %den.mask		%result = urem i32 %num.mask, %den.mask
ret i32 %result		ret i32 %result
}		}

define <2 x i32> @v_urem_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {		define <2 x i32> @v_urem_v2i32_24bit(<2 x i32> %num, <2 x i32> %den) {
; GISEL-LABEL: v_urem_v2i32_24bit:		; GISEL-LABEL: v_urem_v2i32_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: s_mov_b32 s5, 0x4f7ffffe		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v1, s4, v1		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; GISEL-NEXT: v_and_b32_e32 v2, s4, v2
; GISEL-NEXT: v_and_b32_e32 v3, s4, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2		; GISEL-NEXT: v_cvt_f32_u32_e32 v4, v2
; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3		; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4		; GISEL-NEXT: v_rcp_iflag_f32_e32 v4, v4
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6
; GISEL-NEXT: v_mul_f32_e32 v4, s5, v4		; GISEL-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; GISEL-NEXT: v_mul_f32_e32 v6, s5, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4		; GISEL-NEXT: v_cvt_u32_f32_e32 v4, v4
; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6		; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6
; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4		; GISEL-NEXT: v_mul_lo_u32 v5, v5, v4
; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6		; GISEL-NEXT: v_mul_lo_u32 v7, v7, v6
; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5		; GISEL-NEXT: v_mul_hi_u32 v5, v4, v5
; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7		; GISEL-NEXT: v_mul_hi_u32 v7, v6, v7
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7
Show All 15 Lines
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
; GISEL-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_v2i32_24bit:		; CGP-LABEL: v_urem_v2i32_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v1
; CGP-NEXT: v_and_b32_e32 v1, s4, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v2, s4, v2		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v3
; CGP-NEXT: v_and_b32_e32 v3, s4, v3
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v2
; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2		; CGP-NEXT: v_sub_i32_e32 v5, vcc, 0, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v3
; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3		; CGP-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
; CGP-NEXT: v_rcp_f32_e32 v4, v4		; CGP-NEXT: v_rcp_f32_e32 v4, v4
; CGP-NEXT: v_rcp_f32_e32 v6, v6		; CGP-NEXT: v_rcp_f32_e32 v6, v6
; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4		; CGP-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6		; CGP-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
Show All 40 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll

Show First 20 Lines • Show All 945 Lines • ▼ Show 20 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%result = urem i64 %num, 4096		%result = urem i64 %num, 4096
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_urem_v2i64_pow2k_denom(<2 x i64> %num) {		define <2 x i64> @v_urem_v2i64_pow2k_denom(<2 x i64> %num) {
; CHECK-LABEL: v_urem_v2i64_pow2k_denom:		; CHECK-LABEL: v_urem_v2i64_pow2k_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0xfff		; CHECK-NEXT: v_and_b32_e32 v0, 0xfff, v0
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0		; CHECK-NEXT: v_and_b32_e32 v2, 0xfff, v2
; CHECK-NEXT: v_and_b32_e32 v2, s4, v2
; CHECK-NEXT: v_mov_b32_e32 v1, 0		; CHECK-NEXT: v_mov_b32_e32 v1, 0
; CHECK-NEXT: v_mov_b32_e32 v3, 0		; CHECK-NEXT: v_mov_b32_e32 v3, 0
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%result = urem <2 x i64> %num, <i64 4096, i64 4096>		%result = urem <2 x i64> %num, <i64 4096, i64 4096>
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_urem_i64_oddk_denom(i64 %num) {		define i64 @v_urem_i64_oddk_denom(i64 %num) {
; CHECK-LABEL: v_urem_i64_oddk_denom:		; CHECK-LABEL: v_urem_i64_oddk_denom:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb		; CHECK-NEXT: s_mov_b32 s4, 0x12d8fb
; CHECK-NEXT: v_mov_b32_e32 v2, 0x12d8fb		; CHECK-NEXT: v_mov_b32_e32 v2, 0x12d8fb
; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v3, 0		; CHECK-NEXT: v_cvt_f32_u32_e32 v3, 0x12d8fb
		; CHECK-NEXT: v_cvt_f32_ubyte0_e32 v4, 0
; CHECK-NEXT: s_mov_b32 s5, 0xffed2705		; CHECK-NEXT: s_mov_b32 s5, 0xffed2705
; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000		; CHECK-NEXT: s_bfe_i32 s6, -1, 0x10000
; CHECK-NEXT: s_bfe_i32 s7, -1, 0x10000		; CHECK-NEXT: s_bfe_i32 s7, -1, 0x10000
; CHECK-NEXT: v_cvt_f32_u32_e32 v4, s4		; CHECK-NEXT: v_mac_f32_e32 v3, 0x4f800000, v4
; CHECK-NEXT: v_mov_b32_e32 v5, s6		; CHECK-NEXT: v_mov_b32_e32 v4, s6
; CHECK-NEXT: v_mov_b32_e32 v6, s7		; CHECK-NEXT: v_mov_b32_e32 v5, s7
; CHECK-NEXT: v_mac_f32_e32 v4, 0x4f800000, v3		; CHECK-NEXT: v_rcp_iflag_f32_e32 v3, v3
; CHECK-NEXT: v_rcp_iflag_f32_e32 v3, v4
; CHECK-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3		; CHECK-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3
; CHECK-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3		; CHECK-NEXT: v_mul_f32_e32 v6, 0x2f800000, v3
; CHECK-NEXT: v_trunc_f32_e32 v4, v4		; CHECK-NEXT: v_trunc_f32_e32 v6, v6
; CHECK-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4		; CHECK-NEXT: v_mac_f32_e32 v3, 0xcf800000, v6
; CHECK-NEXT: v_cvt_u32_f32_e32 v4, v4		; CHECK-NEXT: v_cvt_u32_f32_e32 v6, v6
; CHECK-NEXT: v_cvt_u32_f32_e32 v3, v3		; CHECK-NEXT: v_cvt_u32_f32_e32 v3, v3
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v7, s5, v6
; CHECK-NEXT: v_mul_lo_u32 v8, s5, v3		; CHECK-NEXT: v_mul_lo_u32 v8, s5, v3
; CHECK-NEXT: v_mul_lo_u32 v9, -1, v3		; CHECK-NEXT: v_mul_lo_u32 v9, -1, v3
; CHECK-NEXT: v_mul_hi_u32 v10, s5, v3		; CHECK-NEXT: v_mul_hi_u32 v10, s5, v3
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_mul_lo_u32 v9, v4, v8		; CHECK-NEXT: v_mul_lo_u32 v9, v6, v8
; CHECK-NEXT: v_mul_hi_u32 v11, v3, v8		; CHECK-NEXT: v_mul_hi_u32 v11, v3, v8
; CHECK-NEXT: v_mul_hi_u32 v8, v4, v8		; CHECK-NEXT: v_mul_hi_u32 v8, v6, v8
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v10		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v10
; CHECK-NEXT: v_mul_lo_u32 v10, v3, v7		; CHECK-NEXT: v_mul_lo_u32 v10, v3, v7
; CHECK-NEXT: v_mul_lo_u32 v12, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v12, v6, v7
; CHECK-NEXT: v_mul_hi_u32 v13, v3, v7		; CHECK-NEXT: v_mul_hi_u32 v13, v3, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v6, v7
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v10		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v10
; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v12, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v12, v8
; CHECK-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v11		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v11
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v13		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v13
; CHECK-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CHECK-NEXT: v_add_i32_e32 v10, vcc, v12, v11		; CHECK-NEXT: v_add_i32_e32 v10, vcc, v12, v11
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v8		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v8
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v7, vcc		; CHECK-NEXT: v_addc_u32_e32 v6, vcc, v6, v7, vcc
; CHECK-NEXT: v_mul_lo_u32 v7, s5, v3		; CHECK-NEXT: v_mul_lo_u32 v7, s5, v3
; CHECK-NEXT: v_mul_lo_u32 v8, -1, v3		; CHECK-NEXT: v_mul_lo_u32 v8, -1, v3
; CHECK-NEXT: v_mul_hi_u32 v9, s5, v3		; CHECK-NEXT: v_mul_hi_u32 v9, s5, v3
; CHECK-NEXT: v_mul_lo_u32 v10, s5, v4		; CHECK-NEXT: v_mul_lo_u32 v10, s5, v6
; CHECK-NEXT: v_mul_lo_u32 v11, v4, v7		; CHECK-NEXT: v_mul_lo_u32 v11, v6, v7
; CHECK-NEXT: v_mul_hi_u32 v12, v3, v7		; CHECK-NEXT: v_mul_hi_u32 v12, v3, v7
; CHECK-NEXT: v_mul_hi_u32 v7, v4, v7		; CHECK-NEXT: v_mul_hi_u32 v7, v6, v7
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v10		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v10
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CHECK-NEXT: v_mul_lo_u32 v9, v3, v8		; CHECK-NEXT: v_mul_lo_u32 v9, v3, v8
; CHECK-NEXT: v_mul_lo_u32 v10, v4, v8		; CHECK-NEXT: v_mul_lo_u32 v10, v6, v8
; CHECK-NEXT: v_mul_hi_u32 v13, v3, v8		; CHECK-NEXT: v_mul_hi_u32 v13, v3, v8
; CHECK-NEXT: v_mul_hi_u32 v8, v4, v8		; CHECK-NEXT: v_mul_hi_u32 v8, v6, v8
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CHECK-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v10, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v10, v7
; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v13		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v13
; CHECK-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v11, v9		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v11, v9
; CHECK-NEXT: v_add_i32_e32 v10, vcc, v10, v12		; CHECK-NEXT: v_add_i32_e32 v10, vcc, v10, v12
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; CHECK-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v8, v9
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v7
; CHECK-NEXT: v_addc_u32_e32 v4, vcc, v4, v8, vcc		; CHECK-NEXT: v_addc_u32_e32 v6, vcc, v6, v8, vcc
; CHECK-NEXT: v_mul_lo_u32 v7, v1, v3		; CHECK-NEXT: v_mul_lo_u32 v7, v1, v3
; CHECK-NEXT: v_mul_hi_u32 v8, v0, v3		; CHECK-NEXT: v_mul_hi_u32 v8, v0, v3
; CHECK-NEXT: v_mul_hi_u32 v3, v1, v3		; CHECK-NEXT: v_mul_hi_u32 v3, v1, v3
; CHECK-NEXT: v_mul_lo_u32 v9, v0, v4		; CHECK-NEXT: v_mul_lo_u32 v9, v0, v6
; CHECK-NEXT: v_mul_lo_u32 v10, v1, v4		; CHECK-NEXT: v_mul_lo_u32 v10, v1, v6
; CHECK-NEXT: v_mul_hi_u32 v11, v0, v4		; CHECK-NEXT: v_mul_hi_u32 v11, v0, v6
; CHECK-NEXT: v_mul_hi_u32 v4, v1, v4		; CHECK-NEXT: v_mul_hi_u32 v6, v1, v6
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v9
; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v9, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v10, v3		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v10, v3
; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v7, v8
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v11		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v11
; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v8, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v9, v7
; CHECK-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; CHECK-NEXT: v_add_i32_e32 v8, vcc, v10, v8
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v7		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v7
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, 1, vcc
; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7		; CHECK-NEXT: v_add_i32_e32 v7, vcc, v8, v7
; CHECK-NEXT: v_mul_lo_u32 v8, s4, v3		; CHECK-NEXT: v_mul_lo_u32 v8, s4, v3
; CHECK-NEXT: v_mul_lo_u32 v9, 0, v3		; CHECK-NEXT: v_mul_lo_u32 v9, 0, v3
; CHECK-NEXT: v_mul_hi_u32 v3, s4, v3		; CHECK-NEXT: v_mul_hi_u32 v3, s4, v3
; CHECK-NEXT: v_add_i32_e32 v4, vcc, v4, v7		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v6, v7
; CHECK-NEXT: v_mul_lo_u32 v4, s4, v4		; CHECK-NEXT: v_mul_lo_u32 v6, s4, v6
; CHECK-NEXT: v_add_i32_e32 v4, vcc, v9, v4		; CHECK-NEXT: v_add_i32_e32 v6, vcc, v9, v6
; CHECK-NEXT: v_add_i32_e32 v3, vcc, v4, v3		; CHECK-NEXT: v_add_i32_e32 v3, vcc, v6, v3
; CHECK-NEXT: v_sub_i32_e32 v0, vcc, v0, v8		; CHECK-NEXT: v_sub_i32_e32 v0, vcc, v0, v8
; CHECK-NEXT: v_subb_u32_e64 v4, s[4:5], v1, v3, vcc		; CHECK-NEXT: v_subb_u32_e64 v6, s[4:5], v1, v3, vcc
; CHECK-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v3		; CHECK-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v3
; CHECK-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v2		; CHECK-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v2
; CHECK-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[4:5]		; CHECK-NEXT: v_cndmask_b32_e64 v3, 0, -1, s[4:5]
; CHECK-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v4		; CHECK-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v6
; CHECK-NEXT: v_cndmask_b32_e64 v3, v5, v3, s[4:5]		; CHECK-NEXT: v_cndmask_b32_e64 v3, v4, v3, s[4:5]
; CHECK-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CHECK-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CHECK-NEXT: v_sub_i32_e32 v5, vcc, v0, v2		; CHECK-NEXT: v_sub_i32_e32 v4, vcc, v0, v2
; CHECK-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CHECK-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CHECK-NEXT: v_cmp_ge_u32_e32 vcc, v5, v2		; CHECK-NEXT: v_cmp_ge_u32_e32 vcc, v4, v2
; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
; CHECK-NEXT: v_sub_i32_e32 v2, vcc, v5, v2		; CHECK-NEXT: v_sub_i32_e32 v2, vcc, v4, v2
; CHECK-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1		; CHECK-NEXT: v_cmp_eq_u32_e64 s[4:5], 0, v1
; CHECK-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[4:5]		; CHECK-NEXT: v_cndmask_b32_e64 v5, v5, v7, s[4:5]
; CHECK-NEXT: v_subbrev_u32_e32 v7, vcc, 0, v1, vcc		; CHECK-NEXT: v_subbrev_u32_e32 v7, vcc, 0, v1, vcc
; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6		; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; CHECK-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc		; CHECK-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
; CHECK-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc		; CHECK-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc
; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3		; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
; CHECK-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; CHECK-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; CHECK-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc		; CHECK-NEXT: v_cndmask_b32_e32 v1, v6, v1, vcc
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%result = urem i64 %num, 1235195		%result = urem i64 %num, 1235195
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {		define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {
; GISEL-LABEL: v_urem_v2i64_oddk_denom:		; GISEL-LABEL: v_urem_v2i64_oddk_denom:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s8, 0x12d8fb		; GISEL-NEXT: s_mov_b32 s8, 0x12d8fb
; GISEL-NEXT: v_mov_b32_e32 v4, 0x12d8fb		; GISEL-NEXT: v_mov_b32_e32 v4, 0x12d8fb
; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v7, 0		; GISEL-NEXT: v_cvt_f32_u32_e32 v7, 0x12d8fb
		; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v5, 0
; GISEL-NEXT: s_sub_u32 s6, 0, 0x12d8fb		; GISEL-NEXT: s_sub_u32 s6, 0, 0x12d8fb
; GISEL-NEXT: v_cvt_f32_u32_e32 v8, s8		; GISEL-NEXT: v_madmk_f32 v6, v5, 0x4f800000, v7
; GISEL-NEXT: s_subb_u32 s7, 0, 0		; GISEL-NEXT: s_subb_u32 s7, 0, 0
; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000
; GISEL-NEXT: v_madmk_f32 v9, v7, 0x4f800000, v8		; GISEL-NEXT: v_mac_f32_e32 v7, 0x4f800000, v5
		; GISEL-NEXT: v_rcp_iflag_f32_e32 v8, v6
; GISEL-NEXT: v_mov_b32_e32 v6, s4		; GISEL-NEXT: v_mov_b32_e32 v6, s4
; GISEL-NEXT: v_mov_b32_e32 v5, s5		; GISEL-NEXT: v_mov_b32_e32 v5, s5
; GISEL-NEXT: v_mac_f32_e32 v8, 0x4f800000, v7		; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v7
; GISEL-NEXT: s_sub_u32 s9, 0, 0x12d8fb		; GISEL-NEXT: s_sub_u32 s9, 0, 0x12d8fb
; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v9		; GISEL-NEXT: v_mul_f32_e32 v8, 0x5f7ffffc, v8
; GISEL-NEXT: v_rcp_iflag_f32_e32 v8, v8		; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7
; GISEL-NEXT: s_subb_u32 s10, 0, 0		; GISEL-NEXT: s_subb_u32 s10, 0, 0
; GISEL-NEXT: s_bfe_i32 s11, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s11, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s12, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s12, -1, 0x10000
; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7		; GISEL-NEXT: v_mul_f32_e32 v9, 0x2f800000, v8
; GISEL-NEXT: v_mul_f32_e32 v8, 0x5f7ffffc, v8		; GISEL-NEXT: v_mul_f32_e32 v10, 0x2f800000, v7
; GISEL-NEXT: v_mul_f32_e32 v9, 0x2f800000, v7
; GISEL-NEXT: v_mul_f32_e32 v10, 0x2f800000, v8
; GISEL-NEXT: v_trunc_f32_e32 v9, v9		; GISEL-NEXT: v_trunc_f32_e32 v9, v9
; GISEL-NEXT: v_trunc_f32_e32 v10, v10		; GISEL-NEXT: v_trunc_f32_e32 v10, v10
; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v9		; GISEL-NEXT: v_mac_f32_e32 v8, 0xcf800000, v9
; GISEL-NEXT: v_cvt_u32_f32_e32 v9, v9		; GISEL-NEXT: v_cvt_u32_f32_e32 v9, v9
; GISEL-NEXT: v_mac_f32_e32 v8, 0xcf800000, v10		; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v10
; GISEL-NEXT: v_cvt_u32_f32_e32 v10, v10		; GISEL-NEXT: v_cvt_u32_f32_e32 v10, v10
; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7
; GISEL-NEXT: v_mul_lo_u32 v11, s6, v9
; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8		; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8
		; GISEL-NEXT: v_mul_lo_u32 v11, s6, v9
		; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7
; GISEL-NEXT: v_mul_lo_u32 v12, s9, v10		; GISEL-NEXT: v_mul_lo_u32 v12, s9, v10
; GISEL-NEXT: v_mul_lo_u32 v13, s6, v7		; GISEL-NEXT: v_mul_lo_u32 v13, s6, v8
; GISEL-NEXT: v_mul_lo_u32 v14, s7, v7		; GISEL-NEXT: v_mul_lo_u32 v14, s7, v8
; GISEL-NEXT: v_mul_hi_u32 v15, s6, v7		; GISEL-NEXT: v_mul_hi_u32 v15, s6, v8
; GISEL-NEXT: v_mul_lo_u32 v16, s9, v8		; GISEL-NEXT: v_mul_lo_u32 v16, s9, v7
; GISEL-NEXT: v_mul_lo_u32 v17, s10, v8		; GISEL-NEXT: v_mul_lo_u32 v17, s10, v7
; GISEL-NEXT: v_mul_hi_u32 v18, s9, v8		; GISEL-NEXT: v_mul_hi_u32 v18, s9, v7
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v14, v11		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v14, v11
; GISEL-NEXT: v_mul_lo_u32 v14, v9, v13		; GISEL-NEXT: v_mul_lo_u32 v14, v9, v13
; GISEL-NEXT: v_mul_hi_u32 v19, v7, v13		; GISEL-NEXT: v_mul_hi_u32 v19, v8, v13
; GISEL-NEXT: v_mul_hi_u32 v13, v9, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v9, v13
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v12		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v12
; GISEL-NEXT: v_mul_lo_u32 v17, v10, v16		; GISEL-NEXT: v_mul_lo_u32 v17, v10, v16
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v15		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v15
; GISEL-NEXT: v_mul_hi_u32 v15, v8, v16		; GISEL-NEXT: v_mul_hi_u32 v15, v7, v16
; GISEL-NEXT: v_mul_hi_u32 v16, v10, v16		; GISEL-NEXT: v_mul_hi_u32 v16, v10, v16
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v18		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v18
; GISEL-NEXT: v_mul_lo_u32 v18, v8, v12		; GISEL-NEXT: v_mul_lo_u32 v18, v7, v12
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v18		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v17, v15		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v17, v15
; GISEL-NEXT: v_mul_lo_u32 v15, v7, v11		; GISEL-NEXT: v_mul_lo_u32 v15, v8, v11
; GISEL-NEXT: v_mul_lo_u32 v17, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v17, v9, v11
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v15		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v15
; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19
; GISEL-NEXT: v_mul_hi_u32 v14, v7, v11		; GISEL-NEXT: v_mul_hi_u32 v14, v8, v11
; GISEL-NEXT: v_mul_hi_u32 v11, v9, v11		; GISEL-NEXT: v_mul_hi_u32 v11, v9, v11
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v19		; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v19
; GISEL-NEXT: v_mul_lo_u32 v19, v10, v12		; GISEL-NEXT: v_mul_lo_u32 v19, v10, v12
; GISEL-NEXT: v_add_i32_e64 v13, s[4:5], v17, v13		; GISEL-NEXT: v_add_i32_e64 v13, s[4:5], v17, v13
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v13, s[4:5], v13, v14		; GISEL-NEXT: v_add_i32_e64 v13, s[4:5], v13, v14
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v17, v14		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v17, v14
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17
; GISEL-NEXT: v_mul_hi_u32 v18, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v18, v7, v12
; GISEL-NEXT: v_mul_hi_u32 v12, v10, v12		; GISEL-NEXT: v_mul_hi_u32 v12, v10, v12
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v19, v16		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v19, v16
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v16, v18		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v16, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v15		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v15
; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v16, v17		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v16, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v15		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v15
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v18, v17		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v18, v17
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v14		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v14
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v15		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v15
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v13		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v13
; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v9, v11, vcc		; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v9, v11, vcc
; GISEL-NEXT: v_mul_lo_u32 v11, s6, v7		; GISEL-NEXT: v_mul_lo_u32 v11, s6, v8
; GISEL-NEXT: v_mul_lo_u32 v13, s7, v7		; GISEL-NEXT: v_mul_lo_u32 v13, s7, v8
; GISEL-NEXT: v_mul_hi_u32 v14, s6, v7		; GISEL-NEXT: v_mul_hi_u32 v14, s6, v8
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v16		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v16
; GISEL-NEXT: v_addc_u32_e32 v10, vcc, v10, v12, vcc		; GISEL-NEXT: v_addc_u32_e32 v10, vcc, v10, v12, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, s9, v8		; GISEL-NEXT: v_mul_lo_u32 v12, s9, v7
; GISEL-NEXT: v_mul_lo_u32 v15, s10, v8		; GISEL-NEXT: v_mul_lo_u32 v15, s10, v7
; GISEL-NEXT: v_mul_hi_u32 v16, s9, v8		; GISEL-NEXT: v_mul_hi_u32 v16, s9, v7
; GISEL-NEXT: v_mul_lo_u32 v17, s6, v9		; GISEL-NEXT: v_mul_lo_u32 v17, s6, v9
; GISEL-NEXT: v_mul_lo_u32 v18, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v18, v9, v11
; GISEL-NEXT: v_mul_hi_u32 v19, v7, v11		; GISEL-NEXT: v_mul_hi_u32 v19, v8, v11
; GISEL-NEXT: v_mul_hi_u32 v11, v9, v11		; GISEL-NEXT: v_mul_hi_u32 v11, v9, v11
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17
; GISEL-NEXT: v_mul_lo_u32 v17, s9, v10		; GISEL-NEXT: v_mul_lo_u32 v17, s9, v10
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v17		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v17
; GISEL-NEXT: v_mul_lo_u32 v17, v10, v12		; GISEL-NEXT: v_mul_lo_u32 v17, v10, v12
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; GISEL-NEXT: v_mul_hi_u32 v14, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v14, v7, v12
; GISEL-NEXT: v_mul_hi_u32 v12, v10, v12		; GISEL-NEXT: v_mul_hi_u32 v12, v10, v12
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; GISEL-NEXT: v_mul_lo_u32 v16, v8, v15		; GISEL-NEXT: v_mul_lo_u32 v16, v7, v15
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v16, v14		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v16, v14
; GISEL-NEXT: v_mul_lo_u32 v14, v7, v13		; GISEL-NEXT: v_mul_lo_u32 v14, v8, v13
; GISEL-NEXT: v_mul_lo_u32 v16, v9, v13		; GISEL-NEXT: v_mul_lo_u32 v16, v9, v13
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v18, v14		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v18, v14
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19
; GISEL-NEXT: v_mul_hi_u32 v14, v7, v13		; GISEL-NEXT: v_mul_hi_u32 v14, v8, v13
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v18, s[4:5], v18, v19		; GISEL-NEXT: v_add_i32_e64 v18, s[4:5], v18, v19
; GISEL-NEXT: v_mul_lo_u32 v19, v10, v15		; GISEL-NEXT: v_mul_lo_u32 v19, v10, v15
; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v16, v11		; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v16, v11
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14		; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v16, v14		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v16, v14
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; GISEL-NEXT: v_mul_hi_u32 v17, v8, v15		; GISEL-NEXT: v_mul_hi_u32 v17, v7, v15
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v19, v12		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v19, v12
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v17		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v19, v17		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v19, v17
; GISEL-NEXT: v_mov_b32_e32 v19, s11		; GISEL-NEXT: v_mov_b32_e32 v19, s11
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v18		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v18		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v18
; GISEL-NEXT: v_mov_b32_e32 v18, s12		; GISEL-NEXT: v_mov_b32_e32 v18, s12
; GISEL-NEXT: v_mul_hi_u32 v13, v9, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v9, v13
; GISEL-NEXT: v_mul_hi_u32 v15, v10, v15		; GISEL-NEXT: v_mul_hi_u32 v15, v10, v15
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v16		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v16
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; GISEL-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v15, v16		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v15, v16
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v11
; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v9, v13, vcc		; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v9, v13, vcc
; GISEL-NEXT: v_mul_lo_u32 v11, v1, v7		; GISEL-NEXT: v_mul_lo_u32 v11, v1, v8
; GISEL-NEXT: v_mul_hi_u32 v13, v0, v7		; GISEL-NEXT: v_mul_hi_u32 v13, v0, v8
; GISEL-NEXT: v_mul_hi_u32 v7, v1, v7		; GISEL-NEXT: v_mul_hi_u32 v8, v1, v8
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v12		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; GISEL-NEXT: v_addc_u32_e32 v10, vcc, v10, v14, vcc		; GISEL-NEXT: v_addc_u32_e32 v10, vcc, v10, v14, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, v3, v8		; GISEL-NEXT: v_mul_lo_u32 v12, v3, v7
; GISEL-NEXT: v_mul_hi_u32 v14, v2, v8		; GISEL-NEXT: v_mul_hi_u32 v14, v2, v7
; GISEL-NEXT: v_mul_hi_u32 v8, v3, v8		; GISEL-NEXT: v_mul_hi_u32 v7, v3, v7
; GISEL-NEXT: v_mul_lo_u32 v15, v0, v9		; GISEL-NEXT: v_mul_lo_u32 v15, v0, v9
; GISEL-NEXT: v_mul_lo_u32 v16, v1, v9		; GISEL-NEXT: v_mul_lo_u32 v16, v1, v9
; GISEL-NEXT: v_mul_hi_u32 v17, v0, v9		; GISEL-NEXT: v_mul_hi_u32 v17, v0, v9
; GISEL-NEXT: v_mul_hi_u32 v9, v1, v9		; GISEL-NEXT: v_mul_hi_u32 v9, v1, v9
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v15		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v15
; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v13		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v13
; GISEL-NEXT: v_mul_lo_u32 v11, v2, v10		; GISEL-NEXT: v_mul_lo_u32 v11, v2, v10
; GISEL-NEXT: v_mul_lo_u32 v13, v3, v10		; GISEL-NEXT: v_mul_lo_u32 v13, v3, v10
; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v12, v11		; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v12, v11
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14		; GISEL-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14
; GISEL-NEXT: v_mul_hi_u32 v11, v2, v10		; GISEL-NEXT: v_mul_hi_u32 v11, v2, v10
; GISEL-NEXT: v_mul_hi_u32 v10, v3, v10		; GISEL-NEXT: v_mul_hi_u32 v10, v3, v10
; GISEL-NEXT: v_add_i32_e64 v7, s[6:7], v16, v7		; GISEL-NEXT: v_add_i32_e64 v8, s[6:7], v16, v8
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[6:7]
; GISEL-NEXT: v_add_i32_e64 v8, s[6:7], v13, v8		; GISEL-NEXT: v_add_i32_e64 v7, s[6:7], v13, v7
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[6:7]
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v17		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v11		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v17		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v17
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v16		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v16
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v13, v11		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v13, v11
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v15		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v15
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v8, v12		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v14, v13		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v14, v13
; GISEL-NEXT: v_mul_lo_u32 v14, s8, v7		; GISEL-NEXT: v_mul_lo_u32 v14, s8, v8
; GISEL-NEXT: v_mul_lo_u32 v15, 0, v7		; GISEL-NEXT: v_mul_lo_u32 v15, 0, v8
; GISEL-NEXT: v_mul_hi_u32 v7, s8, v7
; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v12
; GISEL-NEXT: v_mul_lo_u32 v12, s8, v8
; GISEL-NEXT: v_mul_lo_u32 v16, 0, v8
; GISEL-NEXT: v_mul_hi_u32 v8, s8, v8		; GISEL-NEXT: v_mul_hi_u32 v8, s8, v8
		; GISEL-NEXT: v_add_i32_e32 v11, vcc, v11, v12
		; GISEL-NEXT: v_mul_lo_u32 v12, s8, v7
		; GISEL-NEXT: v_mul_lo_u32 v16, 0, v7
		; GISEL-NEXT: v_mul_hi_u32 v7, s8, v7
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v13		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v13
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_mul_lo_u32 v9, s8, v9		; GISEL-NEXT: v_mul_lo_u32 v9, s8, v9
; GISEL-NEXT: v_mul_lo_u32 v10, s8, v10		; GISEL-NEXT: v_mul_lo_u32 v10, s8, v10
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v15, v9		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v15, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v16, v10		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v16, v10
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v9, v7		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v9, v8
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v10, v8		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v10, v7
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v14		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v14
; GISEL-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v7, vcc		; GISEL-NEXT: v_subb_u32_e64 v9, s[4:5], v1, v8, vcc
; GISEL-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v7		; GISEL-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v8
; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v4		; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v4
; GISEL-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
; GISEL-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v12		; GISEL-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v12
; GISEL-NEXT: v_subb_u32_e64 v10, s[6:7], v3, v8, s[4:5]		; GISEL-NEXT: v_subb_u32_e64 v10, s[6:7], v3, v7, s[4:5]
; GISEL-NEXT: v_sub_i32_e64 v3, s[6:7], v3, v8		; GISEL-NEXT: v_sub_i32_e64 v3, s[6:7], v3, v7
; GISEL-NEXT: v_cmp_ge_u32_e64 s[6:7], v2, v4		; GISEL-NEXT: v_cmp_ge_u32_e64 s[6:7], v2, v4
; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]
; GISEL-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v9		; GISEL-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v9
; GISEL-NEXT: v_cndmask_b32_e64 v6, v6, v7, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v6, v6, v8, s[6:7]
; GISEL-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
; GISEL-NEXT: v_cndmask_b32_e32 v7, v19, v8, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v7, v19, v7, vcc
; GISEL-NEXT: v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]		; GISEL-NEXT: v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]
; GISEL-NEXT: v_sub_i32_e32 v8, vcc, v0, v4		; GISEL-NEXT: v_sub_i32_e32 v8, vcc, v0, v4
; GISEL-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v8, v4		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v8, v4
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc
; GISEL-NEXT: v_sub_i32_e32 v12, vcc, v2, v4		; GISEL-NEXT: v_sub_i32_e32 v12, vcc, v2, v4
; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v12, v4		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v12, v4
Show All 20 Lines
; GISEL-NEXT: v_cndmask_b32_e64 v3, v10, v3, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v3, v10, v3, s[4:5]
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_v2i64_oddk_denom:		; CGP-LABEL: v_urem_v2i64_oddk_denom:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s8, 0x12d8fb		; CGP-NEXT: s_mov_b32 s8, 0x12d8fb
; CGP-NEXT: v_mov_b32_e32 v4, 0x12d8fb		; CGP-NEXT: v_mov_b32_e32 v4, 0x12d8fb
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v5, 0		; CGP-NEXT: v_cvt_f32_u32_e32 v5, 0x12d8fb
		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; CGP-NEXT: s_mov_b32 s6, 0xffed2705		; CGP-NEXT: s_mov_b32 s6, 0xffed2705
; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s4, -1, 0x10000
; CGP-NEXT: s_bfe_i32 s5, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s5, -1, 0x10000
; CGP-NEXT: v_cvt_f32_ubyte0_e32 v6, 0		; CGP-NEXT: v_cvt_f32_u32_e32 v7, 0x12d8fb
		; CGP-NEXT: v_cvt_f32_ubyte0_e32 v8, 0
; CGP-NEXT: s_bfe_i32 s7, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s7, -1, 0x10000
; CGP-NEXT: s_bfe_i32 s9, -1, 0x10000		; CGP-NEXT: s_bfe_i32 s9, -1, 0x10000
; CGP-NEXT: v_cvt_f32_u32_e32 v7, s8		; CGP-NEXT: v_mac_f32_e32 v5, 0x4f800000, v6
; CGP-NEXT: v_mov_b32_e32 v8, s4		; CGP-NEXT: v_mov_b32_e32 v6, s4
; CGP-NEXT: v_mov_b32_e32 v9, s5		; CGP-NEXT: v_mov_b32_e32 v9, s5
; CGP-NEXT: v_cvt_f32_u32_e32 v10, v4		; CGP-NEXT: v_mac_f32_e32 v7, 0x4f800000, v8
; CGP-NEXT: v_mac_f32_e32 v7, 0x4f800000, v5		; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v5
; CGP-NEXT: v_mac_f32_e32 v10, 0x4f800000, v6		; CGP-NEXT: v_rcp_iflag_f32_e32 v7, v7
; CGP-NEXT: v_rcp_iflag_f32_e32 v5, v7
; CGP-NEXT: v_rcp_iflag_f32_e32 v6, v10
; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5		; CGP-NEXT: v_mul_f32_e32 v5, 0x5f7ffffc, v5
; CGP-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; CGP-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7
; CGP-NEXT: v_mul_f32_e32 v7, 0x2f800000, v5		; CGP-NEXT: v_mul_f32_e32 v8, 0x2f800000, v5
; CGP-NEXT: v_mul_f32_e32 v10, 0x2f800000, v6		; CGP-NEXT: v_mul_f32_e32 v10, 0x2f800000, v7
; CGP-NEXT: v_trunc_f32_e32 v7, v7		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_trunc_f32_e32 v10, v10		; CGP-NEXT: v_trunc_f32_e32 v10, v10
; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v7		; CGP-NEXT: v_mac_f32_e32 v5, 0xcf800000, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v7, v7		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_mac_f32_e32 v6, 0xcf800000, v10		; CGP-NEXT: v_mac_f32_e32 v7, 0xcf800000, v10
; CGP-NEXT: v_cvt_u32_f32_e32 v10, v10		; CGP-NEXT: v_cvt_u32_f32_e32 v10, v10
; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5		; CGP-NEXT: v_cvt_u32_f32_e32 v5, v5
; CGP-NEXT: v_mul_lo_u32 v11, s6, v7		; CGP-NEXT: v_mul_lo_u32 v11, s6, v8
; CGP-NEXT: v_cvt_u32_f32_e32 v6, v6		; CGP-NEXT: v_cvt_u32_f32_e32 v7, v7
; CGP-NEXT: v_mul_lo_u32 v12, s6, v10		; CGP-NEXT: v_mul_lo_u32 v12, s6, v10
; CGP-NEXT: v_mul_lo_u32 v13, s6, v5		; CGP-NEXT: v_mul_lo_u32 v13, s6, v5
; CGP-NEXT: v_mul_lo_u32 v14, -1, v5		; CGP-NEXT: v_mul_lo_u32 v14, -1, v5
; CGP-NEXT: v_mul_hi_u32 v15, s6, v5		; CGP-NEXT: v_mul_hi_u32 v15, s6, v5
; CGP-NEXT: v_mul_lo_u32 v16, s6, v6		; CGP-NEXT: v_mul_lo_u32 v16, s6, v7
; CGP-NEXT: v_mul_lo_u32 v17, -1, v6		; CGP-NEXT: v_mul_lo_u32 v17, -1, v7
; CGP-NEXT: v_mul_hi_u32 v18, s6, v6		; CGP-NEXT: v_mul_hi_u32 v18, s6, v7
; CGP-NEXT: v_add_i32_e32 v11, vcc, v14, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v14, v11
; CGP-NEXT: v_mul_lo_u32 v14, v7, v13		; CGP-NEXT: v_mul_lo_u32 v14, v8, v13
; CGP-NEXT: v_mul_hi_u32 v19, v5, v13		; CGP-NEXT: v_mul_hi_u32 v19, v5, v13
; CGP-NEXT: v_mul_hi_u32 v13, v7, v13		; CGP-NEXT: v_mul_hi_u32 v13, v8, v13
; CGP-NEXT: v_add_i32_e32 v12, vcc, v17, v12		; CGP-NEXT: v_add_i32_e32 v12, vcc, v17, v12
; CGP-NEXT: v_mul_lo_u32 v17, v10, v16		; CGP-NEXT: v_mul_lo_u32 v17, v10, v16
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15
; CGP-NEXT: v_mul_hi_u32 v15, v6, v16		; CGP-NEXT: v_mul_hi_u32 v15, v7, v16
; CGP-NEXT: v_mul_hi_u32 v16, v10, v16		; CGP-NEXT: v_mul_hi_u32 v16, v10, v16
; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v18		; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v18
; CGP-NEXT: v_mul_lo_u32 v18, v6, v12		; CGP-NEXT: v_mul_lo_u32 v18, v7, v12
; CGP-NEXT: v_add_i32_e32 v17, vcc, v17, v18		; CGP-NEXT: v_add_i32_e32 v17, vcc, v17, v18
; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v15		; CGP-NEXT: v_add_i32_e32 v15, vcc, v17, v15
; CGP-NEXT: v_mul_lo_u32 v15, v5, v11		; CGP-NEXT: v_mul_lo_u32 v15, v5, v11
; CGP-NEXT: v_mul_lo_u32 v17, v7, v11		; CGP-NEXT: v_mul_lo_u32 v17, v8, v11
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v15		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v15
; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19
; CGP-NEXT: v_mul_hi_u32 v14, v5, v11		; CGP-NEXT: v_mul_hi_u32 v14, v5, v11
; CGP-NEXT: v_mul_hi_u32 v11, v7, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v15, s[4:5], v15, v19		; CGP-NEXT: v_add_i32_e64 v15, s[4:5], v15, v19
; CGP-NEXT: v_mul_lo_u32 v19, v10, v12		; CGP-NEXT: v_mul_lo_u32 v19, v10, v12
; CGP-NEXT: v_add_i32_e64 v13, s[4:5], v17, v13		; CGP-NEXT: v_add_i32_e64 v13, s[4:5], v17, v13
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v13, s[4:5], v13, v14		; CGP-NEXT: v_add_i32_e64 v13, s[4:5], v13, v14
; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v17, v14		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v17, v14
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v17, vcc, v18, v17		; CGP-NEXT: v_add_i32_e32 v17, vcc, v18, v17
; CGP-NEXT: v_mul_hi_u32 v18, v6, v12		; CGP-NEXT: v_mul_hi_u32 v18, v7, v12
; CGP-NEXT: v_mul_hi_u32 v12, v10, v12		; CGP-NEXT: v_mul_hi_u32 v12, v10, v12
; CGP-NEXT: v_add_i32_e32 v16, vcc, v19, v16		; CGP-NEXT: v_add_i32_e32 v16, vcc, v19, v16
; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v16, vcc, v16, v18		; CGP-NEXT: v_add_i32_e32 v16, vcc, v16, v18
; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; CGP-NEXT: v_add_i32_e32 v18, vcc, v19, v18
; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15		; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v15
; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v16, vcc, v16, v17		; CGP-NEXT: v_add_i32_e32 v16, vcc, v16, v17
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15		; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v15
; CGP-NEXT: v_add_i32_e32 v15, vcc, v18, v17		; CGP-NEXT: v_add_i32_e32 v15, vcc, v18, v17
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v14
; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15		; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v15
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v13		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v13
; CGP-NEXT: v_addc_u32_e32 v7, vcc, v7, v11, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v11, vcc
; CGP-NEXT: v_mul_lo_u32 v11, s6, v5		; CGP-NEXT: v_mul_lo_u32 v11, s6, v5
; CGP-NEXT: v_mul_lo_u32 v13, -1, v5		; CGP-NEXT: v_mul_lo_u32 v13, -1, v5
; CGP-NEXT: v_mul_hi_u32 v14, s6, v5		; CGP-NEXT: v_mul_hi_u32 v14, s6, v5
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v16		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v16
; CGP-NEXT: v_addc_u32_e32 v10, vcc, v10, v12, vcc		; CGP-NEXT: v_addc_u32_e32 v10, vcc, v10, v12, vcc
; CGP-NEXT: v_mul_lo_u32 v12, s6, v6		; CGP-NEXT: v_mul_lo_u32 v12, s6, v7
; CGP-NEXT: v_mul_lo_u32 v15, -1, v6		; CGP-NEXT: v_mul_lo_u32 v15, -1, v7
; CGP-NEXT: v_mul_hi_u32 v16, s6, v6		; CGP-NEXT: v_mul_hi_u32 v16, s6, v7
; CGP-NEXT: v_mul_lo_u32 v17, s6, v7		; CGP-NEXT: v_mul_lo_u32 v17, s6, v8
; CGP-NEXT: v_mul_lo_u32 v18, v7, v11		; CGP-NEXT: v_mul_lo_u32 v18, v8, v11
; CGP-NEXT: v_mul_hi_u32 v19, v5, v11		; CGP-NEXT: v_mul_hi_u32 v19, v5, v11
; CGP-NEXT: v_mul_hi_u32 v11, v7, v11		; CGP-NEXT: v_mul_hi_u32 v11, v8, v11
; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v17		; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v17
; CGP-NEXT: v_mul_lo_u32 v17, s6, v10		; CGP-NEXT: v_mul_lo_u32 v17, s6, v10
; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v17		; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v17
; CGP-NEXT: v_mul_lo_u32 v17, v10, v12		; CGP-NEXT: v_mul_lo_u32 v17, v10, v12
; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; CGP-NEXT: v_mul_hi_u32 v14, v6, v12		; CGP-NEXT: v_mul_hi_u32 v14, v7, v12
; CGP-NEXT: v_mul_hi_u32 v12, v10, v12		; CGP-NEXT: v_mul_hi_u32 v12, v10, v12
; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16		; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; CGP-NEXT: v_mul_lo_u32 v16, v6, v15		; CGP-NEXT: v_mul_lo_u32 v16, v7, v15
; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v14		; CGP-NEXT: v_add_i32_e32 v14, vcc, v16, v14
; CGP-NEXT: v_mul_lo_u32 v14, v5, v13		; CGP-NEXT: v_mul_lo_u32 v14, v5, v13
; CGP-NEXT: v_mul_lo_u32 v16, v7, v13		; CGP-NEXT: v_mul_lo_u32 v16, v8, v13
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v18, v14		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v18, v14
; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v14, v19
; CGP-NEXT: v_mul_hi_u32 v14, v5, v13		; CGP-NEXT: v_mul_hi_u32 v14, v5, v13
; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v18, s[4:5], v18, v19		; CGP-NEXT: v_add_i32_e64 v18, s[4:5], v18, v19
; CGP-NEXT: v_mul_lo_u32 v19, v10, v15		; CGP-NEXT: v_mul_lo_u32 v19, v10, v15
; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v16, v11		; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v16, v11
; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14		; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14
; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v16, v14		; CGP-NEXT: v_add_i32_e64 v14, s[4:5], v16, v14
; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; CGP-NEXT: v_mul_hi_u32 v17, v6, v15		; CGP-NEXT: v_mul_hi_u32 v17, v7, v15
; CGP-NEXT: v_add_i32_e32 v12, vcc, v19, v12		; CGP-NEXT: v_add_i32_e32 v12, vcc, v19, v12
; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v17		; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v17
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v17, vcc, v19, v17		; CGP-NEXT: v_add_i32_e32 v17, vcc, v19, v17
; CGP-NEXT: v_mov_b32_e32 v19, s7		; CGP-NEXT: v_mov_b32_e32 v19, s7
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v18		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v18
; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v18		; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v18
; CGP-NEXT: v_mov_b32_e32 v18, s9		; CGP-NEXT: v_mov_b32_e32 v18, s9
; CGP-NEXT: v_mul_hi_u32 v13, v7, v13		; CGP-NEXT: v_mul_hi_u32 v13, v8, v13
; CGP-NEXT: v_mul_hi_u32 v15, v10, v15		; CGP-NEXT: v_mul_hi_u32 v15, v10, v15
; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16		; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16
; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16		; CGP-NEXT: v_add_i32_e32 v16, vcc, v17, v16
; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; CGP-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v16		; CGP-NEXT: v_add_i32_e32 v14, vcc, v15, v16
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v11		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v11
; CGP-NEXT: v_addc_u32_e32 v7, vcc, v7, v13, vcc		; CGP-NEXT: v_addc_u32_e32 v8, vcc, v8, v13, vcc
; CGP-NEXT: v_mul_lo_u32 v11, v1, v5		; CGP-NEXT: v_mul_lo_u32 v11, v1, v5
; CGP-NEXT: v_mul_hi_u32 v13, v0, v5		; CGP-NEXT: v_mul_hi_u32 v13, v0, v5
; CGP-NEXT: v_mul_hi_u32 v5, v1, v5		; CGP-NEXT: v_mul_hi_u32 v5, v1, v5
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v12		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; CGP-NEXT: v_addc_u32_e32 v10, vcc, v10, v14, vcc		; CGP-NEXT: v_addc_u32_e32 v10, vcc, v10, v14, vcc
; CGP-NEXT: v_mul_lo_u32 v12, v3, v6		; CGP-NEXT: v_mul_lo_u32 v12, v3, v7
; CGP-NEXT: v_mul_hi_u32 v14, v2, v6		; CGP-NEXT: v_mul_hi_u32 v14, v2, v7
; CGP-NEXT: v_mul_hi_u32 v6, v3, v6		; CGP-NEXT: v_mul_hi_u32 v7, v3, v7
; CGP-NEXT: v_mul_lo_u32 v15, v0, v7		; CGP-NEXT: v_mul_lo_u32 v15, v0, v8
; CGP-NEXT: v_mul_lo_u32 v16, v1, v7		; CGP-NEXT: v_mul_lo_u32 v16, v1, v8
; CGP-NEXT: v_mul_hi_u32 v17, v0, v7		; CGP-NEXT: v_mul_hi_u32 v17, v0, v8
; CGP-NEXT: v_mul_hi_u32 v7, v1, v7		; CGP-NEXT: v_mul_hi_u32 v8, v1, v8
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v15
; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v13
; CGP-NEXT: v_mul_lo_u32 v11, v2, v10		; CGP-NEXT: v_mul_lo_u32 v11, v2, v10
; CGP-NEXT: v_mul_lo_u32 v13, v3, v10		; CGP-NEXT: v_mul_lo_u32 v13, v3, v10
; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v12, v11		; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v12, v11
; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14		; CGP-NEXT: v_add_i32_e64 v11, s[4:5], v11, v14
; CGP-NEXT: v_mul_hi_u32 v11, v2, v10		; CGP-NEXT: v_mul_hi_u32 v11, v2, v10
; CGP-NEXT: v_mul_hi_u32 v10, v3, v10		; CGP-NEXT: v_mul_hi_u32 v10, v3, v10
; CGP-NEXT: v_add_i32_e64 v5, s[6:7], v16, v5		; CGP-NEXT: v_add_i32_e64 v5, s[6:7], v16, v5
; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[6:7]		; CGP-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[6:7]
; CGP-NEXT: v_add_i32_e64 v6, s[6:7], v13, v6		; CGP-NEXT: v_add_i32_e64 v7, s[6:7], v13, v7
; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[6:7]		; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[6:7]
; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v17		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v17
; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16		; CGP-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v11		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v11
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v17		; CGP-NEXT: v_add_i32_e32 v14, vcc, v14, v17
; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16		; CGP-NEXT: v_add_i32_e32 v12, vcc, v12, v16
; CGP-NEXT: v_add_i32_e32 v11, vcc, v13, v11		; CGP-NEXT: v_add_i32_e32 v11, vcc, v13, v11
; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v15		; CGP-NEXT: v_add_i32_e32 v5, vcc, v5, v15
; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v13, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v6, vcc, v6, v12		; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v12, 0, 1, vcc
; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13		; CGP-NEXT: v_add_i32_e32 v13, vcc, v14, v13
; CGP-NEXT: v_mul_lo_u32 v14, s8, v5		; CGP-NEXT: v_mul_lo_u32 v14, s8, v5
; CGP-NEXT: v_mul_lo_u32 v15, 0, v5		; CGP-NEXT: v_mul_lo_u32 v15, 0, v5
; CGP-NEXT: v_mul_hi_u32 v5, s8, v5		; CGP-NEXT: v_mul_hi_u32 v5, s8, v5
; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12		; CGP-NEXT: v_add_i32_e32 v11, vcc, v11, v12
; CGP-NEXT: v_mul_lo_u32 v12, s8, v6		; CGP-NEXT: v_mul_lo_u32 v12, s8, v7
; CGP-NEXT: v_mul_lo_u32 v16, 0, v6		; CGP-NEXT: v_mul_lo_u32 v16, 0, v7
; CGP-NEXT: v_mul_hi_u32 v6, s8, v6		; CGP-NEXT: v_mul_hi_u32 v7, s8, v7
; CGP-NEXT: v_add_i32_e32 v7, vcc, v7, v13		; CGP-NEXT: v_add_i32_e32 v8, vcc, v8, v13
; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; CGP-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; CGP-NEXT: v_mul_lo_u32 v7, s8, v7		; CGP-NEXT: v_mul_lo_u32 v8, s8, v8
; CGP-NEXT: v_mul_lo_u32 v10, s8, v10		; CGP-NEXT: v_mul_lo_u32 v10, s8, v10
; CGP-NEXT: v_add_i32_e32 v7, vcc, v15, v7		; CGP-NEXT: v_add_i32_e32 v8, vcc, v15, v8
; CGP-NEXT: v_add_i32_e32 v10, vcc, v16, v10		; CGP-NEXT: v_add_i32_e32 v10, vcc, v16, v10
; CGP-NEXT: v_add_i32_e32 v5, vcc, v7, v5		; CGP-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; CGP-NEXT: v_add_i32_e32 v6, vcc, v10, v6		; CGP-NEXT: v_add_i32_e32 v7, vcc, v10, v7
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v14		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v14
; CGP-NEXT: v_subb_u32_e64 v7, s[4:5], v1, v5, vcc		; CGP-NEXT: v_subb_u32_e64 v8, s[4:5], v1, v5, vcc
; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v5		; CGP-NEXT: v_sub_i32_e64 v1, s[4:5], v1, v5
; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v4		; CGP-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v4
; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v5, 0, -1, s[4:5]
; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v12		; CGP-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v12
; CGP-NEXT: v_subb_u32_e64 v10, s[6:7], v3, v6, s[4:5]		; CGP-NEXT: v_subb_u32_e64 v10, s[6:7], v3, v7, s[4:5]
; CGP-NEXT: v_sub_i32_e64 v3, s[6:7], v3, v6		; CGP-NEXT: v_sub_i32_e64 v3, s[6:7], v3, v7
; CGP-NEXT: v_cmp_ge_u32_e64 s[6:7], v2, v4		; CGP-NEXT: v_cmp_ge_u32_e64 s[6:7], v2, v4
; CGP-NEXT: v_cndmask_b32_e64 v6, 0, -1, s[6:7]		; CGP-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[6:7]
; CGP-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v7		; CGP-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v8
; CGP-NEXT: v_cndmask_b32_e64 v5, v8, v5, s[6:7]		; CGP-NEXT: v_cndmask_b32_e64 v5, v6, v5, s[6:7]
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v10
; CGP-NEXT: v_cndmask_b32_e32 v6, v19, v6, vcc		; CGP-NEXT: v_cndmask_b32_e32 v6, v19, v7, vcc
; CGP-NEXT: v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]		; CGP-NEXT: v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]
; CGP-NEXT: v_sub_i32_e32 v8, vcc, v0, v4		; CGP-NEXT: v_sub_i32_e32 v7, vcc, v0, v4
; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v8, v4		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v7, v4
; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc
; CGP-NEXT: v_sub_i32_e32 v12, vcc, v2, v4		; CGP-NEXT: v_sub_i32_e32 v12, vcc, v2, v4
; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc		; CGP-NEXT: v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v12, v4		; CGP-NEXT: v_cmp_ge_u32_e32 vcc, v12, v4
; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, vcc		; CGP-NEXT: v_cndmask_b32_e64 v13, 0, -1, vcc
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v1
; CGP-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc
; CGP-NEXT: v_sub_i32_e32 v11, vcc, v8, v4		; CGP-NEXT: v_sub_i32_e32 v11, vcc, v7, v4
; CGP-NEXT: v_subbrev_u32_e32 v14, vcc, 0, v1, vcc		; CGP-NEXT: v_subbrev_u32_e32 v14, vcc, 0, v1, vcc
; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3		; CGP-NEXT: v_cmp_eq_u32_e32 vcc, 0, v3
; CGP-NEXT: v_cndmask_b32_e32 v13, v18, v13, vcc		; CGP-NEXT: v_cndmask_b32_e32 v13, v18, v13, vcc
; CGP-NEXT: v_sub_i32_e32 v4, vcc, v12, v4		; CGP-NEXT: v_sub_i32_e32 v4, vcc, v12, v4
; CGP-NEXT: v_subbrev_u32_e32 v15, vcc, 0, v3, vcc		; CGP-NEXT: v_subbrev_u32_e32 v15, vcc, 0, v3, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v9
; CGP-NEXT: v_cndmask_b32_e32 v8, v8, v11, vcc		; CGP-NEXT: v_cndmask_b32_e32 v7, v7, v11, vcc
; CGP-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v13		; CGP-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v13
; CGP-NEXT: v_cndmask_b32_e64 v4, v12, v4, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v4, v12, v4, s[4:5]
; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v14, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v1, v14, vcc
; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5		; CGP-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc		; CGP-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
; CGP-NEXT: v_cndmask_b32_e64 v3, v3, v15, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v3, v3, v15, s[4:5]
; CGP-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6		; CGP-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v6
; CGP-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[4:5]
; CGP-NEXT: v_cndmask_b32_e32 v1, v7, v1, vcc		; CGP-NEXT: v_cndmask_b32_e32 v1, v8, v1, vcc
; CGP-NEXT: v_cndmask_b32_e64 v3, v10, v3, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v3, v10, v3, s[4:5]
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%result = urem <2 x i64> %num, <i64 1235195, i64 1235195>		%result = urem <2 x i64> %num, <i64 1235195, i64 1235195>
ret <2 x i64> %result		ret <2 x i64> %result
}		}

define i64 @v_urem_i64_pow2_shl_denom(i64 %x, i64 %y) {		define i64 @v_urem_i64_pow2_shl_denom(i64 %x, i64 %y) {
; CHECK-LABEL: v_urem_i64_pow2_shl_denom:		; CHECK-LABEL: v_urem_i64_pow2_shl_denom:
▲ Show 20 Lines • Show All 758 Lines • ▼ Show 20 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%r = urem <2 x i64> %x, %shl.y		%r = urem <2 x i64> %x, %shl.y
ret <2 x i64> %r		ret <2 x i64> %r
}		}

define i64 @v_urem_i64_24bit(i64 %num, i64 %den) {		define i64 @v_urem_i64_24bit(i64 %num, i64 %den) {
; GISEL-LABEL: v_urem_i64_24bit:		; GISEL-LABEL: v_urem_i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s4, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; GISEL-NEXT: v_and_b32_e32 v0, s4, v0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; GISEL-NEXT: v_and_b32_e32 v1, s4, v2
; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v2, v1
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, 0, v1
; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2		; GISEL-NEXT: v_rcp_iflag_f32_e32 v2, v2
; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2		; GISEL-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2		; GISEL-NEXT: v_cvt_u32_f32_e32 v2, v2
; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2		; GISEL-NEXT: v_mul_lo_u32 v3, v3, v2
; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3		; GISEL-NEXT: v_mul_hi_u32 v3, v2, v3
; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v3
; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2		; GISEL-NEXT: v_mul_hi_u32 v2, v0, v2
; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1		; GISEL-NEXT: v_mul_lo_u32 v2, v2, v1
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1		; GISEL-NEXT: v_sub_i32_e32 v2, vcc, v0, v1
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v0, v1
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GISEL-NEXT: v_mov_b32_e32 v1, 0		; GISEL-NEXT: v_mov_b32_e32 v1, 0
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_i64_24bit:		; CGP-LABEL: v_urem_i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s4, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s4, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s4, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v2, v0		; CGP-NEXT: v_cvt_f32_u32_e32 v2, v0
; CGP-NEXT: v_cvt_f32_u32_e32 v3, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v3, v1
; CGP-NEXT: v_rcp_f32_e32 v4, v3		; CGP-NEXT: v_rcp_f32_e32 v4, v3
; CGP-NEXT: v_mul_f32_e32 v4, v2, v4		; CGP-NEXT: v_mul_f32_e32 v4, v2, v4
; CGP-NEXT: v_trunc_f32_e32 v4, v4		; CGP-NEXT: v_trunc_f32_e32 v4, v4
; CGP-NEXT: v_mad_f32 v2, -v4, v3, v2		; CGP-NEXT: v_mad_f32 v2, -v4, v3, v2
; CGP-NEXT: v_cvt_u32_f32_e32 v4, v4		; CGP-NEXT: v_cvt_u32_f32_e32 v4, v4
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v2\|, v3		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v2\|, v3
Show All 9 Lines	; CGP-NEXT: s_setpc_b64 s[30:31]
%result = urem i64 %num.mask, %den.mask		%result = urem i64 %num.mask, %den.mask
ret i64 %result		ret i64 %result
}		}

define <2 x i64> @v_urem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {		define <2 x i64> @v_urem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
; GISEL-LABEL: v_urem_v2i64_24bit:		; GISEL-LABEL: v_urem_v2i64_24bit:
; GISEL: ; %bb.0:		; GISEL: ; %bb.0:
; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GISEL-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GISEL-NEXT: s_mov_b32 s6, 0xffffff		; GISEL-NEXT: v_and_b32_e32 v3, 0xffffff, v4
; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v7, 0		; GISEL-NEXT: v_and_b32_e32 v1, 0xffffff, v6
; GISEL-NEXT: v_and_b32_e32 v3, s6, v4		; GISEL-NEXT: v_cvt_f32_ubyte0_e32 v6, 0
; GISEL-NEXT: v_and_b32_e32 v1, s6, v6		; GISEL-NEXT: v_cvt_f32_u32_e32 v7, v3
; GISEL-NEXT: v_cvt_f32_u32_e32 v6, v3
; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v3		; GISEL-NEXT: v_sub_i32_e32 v4, vcc, 0, v3
; GISEL-NEXT: v_subb_u32_e64 v5, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_subb_u32_e64 v5, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v1		; GISEL-NEXT: v_cvt_f32_u32_e32 v8, v1
; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v1		; GISEL-NEXT: v_sub_i32_e32 v9, vcc, 0, v1
; GISEL-NEXT: v_subb_u32_e64 v10, s[4:5], 0, 0, vcc		; GISEL-NEXT: v_subb_u32_e64 v10, s[4:5], 0, 0, vcc
; GISEL-NEXT: v_mac_f32_e32 v6, 0x4f800000, v7		; GISEL-NEXT: v_mac_f32_e32 v7, 0x4f800000, v6
; GISEL-NEXT: v_mac_f32_e32 v8, 0x4f800000, v7		; GISEL-NEXT: v_mac_f32_e32 v8, 0x4f800000, v6
; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v6		; GISEL-NEXT: v_rcp_iflag_f32_e32 v6, v7
; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v8		; GISEL-NEXT: v_rcp_iflag_f32_e32 v7, v8
; GISEL-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6		; GISEL-NEXT: v_mul_f32_e32 v6, 0x5f7ffffc, v6
; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7		; GISEL-NEXT: v_mul_f32_e32 v7, 0x5f7ffffc, v7
; GISEL-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6		; GISEL-NEXT: v_mul_f32_e32 v8, 0x2f800000, v6
; GISEL-NEXT: v_mul_f32_e32 v11, 0x2f800000, v7		; GISEL-NEXT: v_mul_f32_e32 v11, 0x2f800000, v7
; GISEL-NEXT: v_trunc_f32_e32 v8, v8		; GISEL-NEXT: v_trunc_f32_e32 v8, v8
; GISEL-NEXT: v_trunc_f32_e32 v11, v11		; GISEL-NEXT: v_trunc_f32_e32 v11, v11
; GISEL-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8		; GISEL-NEXT: v_mac_f32_e32 v6, 0xcf800000, v8
; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8		; GISEL-NEXT: v_cvt_u32_f32_e32 v8, v8
; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v11		; GISEL-NEXT: v_mac_f32_e32 v7, 0xcf800000, v11
; GISEL-NEXT: v_cvt_u32_f32_e32 v11, v11		; GISEL-NEXT: v_cvt_u32_f32_e32 v11, v11
; GISEL-NEXT: v_cvt_u32_f32_e32 v6, v6		; GISEL-NEXT: v_cvt_u32_f32_e32 v12, v6
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v8		; GISEL-NEXT: v_mul_lo_u32 v6, v4, v8
; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7		; GISEL-NEXT: v_cvt_u32_f32_e32 v7, v7
; GISEL-NEXT: v_mul_lo_u32 v13, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v13, v9, v11
; GISEL-NEXT: v_mul_lo_u32 v14, v4, v6		; GISEL-NEXT: v_mul_lo_u32 v14, v4, v12
; GISEL-NEXT: v_mul_lo_u32 v15, v5, v6		; GISEL-NEXT: v_mul_lo_u32 v15, v5, v12
; GISEL-NEXT: v_mul_hi_u32 v16, v4, v6		; GISEL-NEXT: v_mul_hi_u32 v16, v4, v12
; GISEL-NEXT: v_mul_lo_u32 v17, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v17, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v18, v10, v7		; GISEL-NEXT: v_mul_lo_u32 v18, v10, v7
; GISEL-NEXT: v_mul_hi_u32 v19, v9, v7		; GISEL-NEXT: v_mul_hi_u32 v19, v9, v7
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v15, v12		; GISEL-NEXT: v_add_i32_e32 v6, vcc, v15, v6
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13
; GISEL-NEXT: v_mul_lo_u32 v15, v11, v17		; GISEL-NEXT: v_mul_lo_u32 v15, v11, v17
; GISEL-NEXT: v_mul_hi_u32 v18, v7, v17		; GISEL-NEXT: v_mul_hi_u32 v18, v7, v17
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v19		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v19
; GISEL-NEXT: v_mul_lo_u32 v19, v7, v13		; GISEL-NEXT: v_mul_lo_u32 v19, v7, v13
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v19		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v19
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v18		; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v18
; GISEL-NEXT: v_mul_lo_u32 v15, v8, v14		; GISEL-NEXT: v_mul_lo_u32 v15, v8, v14
; GISEL-NEXT: v_mul_hi_u32 v18, v6, v14		; GISEL-NEXT: v_mul_hi_u32 v18, v12, v14
; GISEL-NEXT: v_mul_hi_u32 v14, v8, v14		; GISEL-NEXT: v_mul_hi_u32 v14, v8, v14
; GISEL-NEXT: v_mul_hi_u32 v17, v11, v17		; GISEL-NEXT: v_mul_hi_u32 v17, v11, v17
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v12, v16		; GISEL-NEXT: v_add_i32_e64 v16, s[4:5], v6, v16
; GISEL-NEXT: v_mul_lo_u32 v16, v6, v12		; GISEL-NEXT: v_mul_lo_u32 v6, v12, v16
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v16		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v15, v6
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18
; GISEL-NEXT: v_mul_lo_u32 v15, v8, v12
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v16, s[4:5], v16, v18
; GISEL-NEXT: v_mul_hi_u32 v18, v6, v12
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v15, v14
; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v18		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v18
		; GISEL-NEXT: v_mul_lo_u32 v6, v8, v16
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18		; GISEL-NEXT: v_add_i32_e64 v15, s[4:5], v15, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_mul_hi_u32 v18, v12, v16
; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v14
; GISEL-NEXT: v_mul_lo_u32 v19, v11, v13		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v19, v17		; GISEL-NEXT: v_add_i32_e64 v18, s[4:5], v6, v18
; GISEL-NEXT: v_mul_hi_u32 v19, v7, v13		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, s[4:5]
		; GISEL-NEXT: v_add_i32_e64 v14, s[4:5], v14, v6
		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
		; GISEL-NEXT: v_add_i32_e32 v19, vcc, v19, v6
		; GISEL-NEXT: v_mul_lo_u32 v6, v11, v13
		; GISEL-NEXT: v_add_i32_e32 v6, vcc, v6, v17
		; GISEL-NEXT: v_mul_hi_u32 v17, v7, v13
; GISEL-NEXT: v_cndmask_b32_e64 v20, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v20, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v19		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v6, v17
; GISEL-NEXT: v_cndmask_b32_e64 v19, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v19, vcc, v20, v19		; GISEL-NEXT: v_add_i32_e32 v20, vcc, v20, v6
		; GISEL-NEXT: v_and_b32_e32 v6, 0xffffff, v0
		; GISEL-NEXT: v_and_b32_e32 v0, 0xffffff, v2
; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s4, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s5, -1, 0x10000
		; GISEL-NEXT: s_bfe_i32 s6, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s7, -1, 0x10000		; GISEL-NEXT: s_bfe_i32 s7, -1, 0x10000
; GISEL-NEXT: s_bfe_i32 s8, -1, 0x10000		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v18, v15
; GISEL-NEXT: v_and_b32_e32 v0, s6, v0		; GISEL-NEXT: v_cndmask_b32_e64 v15, 0, 1, vcc
; GISEL-NEXT: v_and_b32_e32 v2, s6, v2		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v15
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v14, v16		; GISEL-NEXT: v_mov_b32_e32 v15, s4
; GISEL-NEXT: v_cndmask_b32_e64 v16, 0, 1, vcc		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v19
; GISEL-NEXT: v_add_i32_e32 v15, vcc, v15, v16
; GISEL-NEXT: v_mov_b32_e32 v16, s4
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v17, v18
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v18, vcc, v19, v18		; GISEL-NEXT: v_add_i32_e32 v18, vcc, v20, v18
; GISEL-NEXT: v_mov_b32_e32 v19, s5		; GISEL-NEXT: v_mov_b32_e32 v19, s5
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v16, v8, v16
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v12, v15		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v16, v14
; GISEL-NEXT: v_mov_b32_e32 v15, s7		; GISEL-NEXT: v_mov_b32_e32 v16, s6
; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v18		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v18
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v6, v14		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v12, v2
; GISEL-NEXT: v_addc_u32_e32 v8, vcc, v8, v12, vcc		; GISEL-NEXT: v_addc_u32_e32 v8, vcc, v8, v14, vcc
; GISEL-NEXT: v_mul_lo_u32 v12, v4, v6		; GISEL-NEXT: v_mul_lo_u32 v12, v4, v2
; GISEL-NEXT: v_mul_lo_u32 v5, v5, v6		; GISEL-NEXT: v_mul_lo_u32 v5, v5, v2
; GISEL-NEXT: v_mul_hi_u32 v14, v4, v6		; GISEL-NEXT: v_mul_hi_u32 v14, v4, v2
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v17		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v17
; GISEL-NEXT: v_addc_u32_e32 v11, vcc, v11, v13, vcc		; GISEL-NEXT: v_addc_u32_e32 v11, vcc, v11, v13, vcc
; GISEL-NEXT: v_mul_lo_u32 v13, v9, v7		; GISEL-NEXT: v_mul_lo_u32 v13, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v10, v10, v7		; GISEL-NEXT: v_mul_lo_u32 v10, v10, v7
; GISEL-NEXT: v_mul_hi_u32 v17, v9, v7		; GISEL-NEXT: v_mul_hi_u32 v17, v9, v7
; GISEL-NEXT: v_mul_lo_u32 v4, v4, v8		; GISEL-NEXT: v_mul_lo_u32 v4, v4, v8
; GISEL-NEXT: v_mul_lo_u32 v18, v8, v12		; GISEL-NEXT: v_mul_lo_u32 v18, v8, v12
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v5, v4		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v5, v4
; GISEL-NEXT: v_mul_hi_u32 v5, v6, v12		; GISEL-NEXT: v_mul_hi_u32 v5, v2, v12
; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12		; GISEL-NEXT: v_mul_hi_u32 v12, v8, v12
; GISEL-NEXT: v_mul_lo_u32 v9, v9, v11		; GISEL-NEXT: v_mul_lo_u32 v9, v9, v11
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v10, v9		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v10, v9
; GISEL-NEXT: v_mul_lo_u32 v10, v11, v13		; GISEL-NEXT: v_mul_lo_u32 v10, v11, v13
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v14		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v14
; GISEL-NEXT: v_mul_hi_u32 v14, v7, v13		; GISEL-NEXT: v_mul_hi_u32 v14, v7, v13
; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13		; GISEL-NEXT: v_mul_hi_u32 v13, v11, v13
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v17		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v17
; GISEL-NEXT: v_mul_lo_u32 v17, v7, v9		; GISEL-NEXT: v_mul_lo_u32 v17, v7, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v14		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v14
; GISEL-NEXT: v_mul_lo_u32 v10, v6, v4		; GISEL-NEXT: v_mul_lo_u32 v10, v2, v4
; GISEL-NEXT: v_mul_lo_u32 v14, v8, v4		; GISEL-NEXT: v_mul_lo_u32 v14, v8, v4
; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10		; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v10, v5		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v10, v5
; GISEL-NEXT: v_mul_hi_u32 v5, v6, v4		; GISEL-NEXT: v_mul_hi_u32 v5, v2, v4
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10		; GISEL-NEXT: v_add_i32_e64 v10, s[4:5], v18, v10
; GISEL-NEXT: v_mul_lo_u32 v18, v11, v9		; GISEL-NEXT: v_mul_lo_u32 v18, v11, v9
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12		; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v12, v5		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v12, v5
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12		; GISEL-NEXT: v_add_i32_e64 v12, s[4:5], v14, v12
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v14, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v14, vcc, v17, v14
; GISEL-NEXT: v_mul_hi_u32 v17, v7, v9		; GISEL-NEXT: v_mul_hi_u32 v17, v7, v9
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v18, v13
; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v18, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17		; GISEL-NEXT: v_add_i32_e32 v17, vcc, v18, v17
; GISEL-NEXT: v_mov_b32_e32 v18, s8		; GISEL-NEXT: v_mov_b32_e32 v18, s7
; GISEL-NEXT: v_mul_hi_u32 v4, v8, v4		; GISEL-NEXT: v_mul_hi_u32 v4, v8, v4
; GISEL-NEXT: v_mul_hi_u32 v9, v11, v9		; GISEL-NEXT: v_mul_hi_u32 v9, v11, v9
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v10		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v10
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14		; GISEL-NEXT: v_add_i32_e32 v13, vcc, v13, v14
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v12, v10		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v12, v10
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v10		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v10
; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v12		; GISEL-NEXT: v_add_i32_e32 v9, vcc, v9, v12
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v5		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc		; GISEL-NEXT: v_addc_u32_e32 v4, vcc, v8, v4, vcc
; GISEL-NEXT: v_mul_lo_u32 v6, 0, v5		; GISEL-NEXT: v_mul_lo_u32 v5, 0, v2
; GISEL-NEXT: v_mul_hi_u32 v8, v0, v5		; GISEL-NEXT: v_mul_hi_u32 v8, v6, v2
; GISEL-NEXT: v_mul_hi_u32 v5, 0, v5		; GISEL-NEXT: v_mul_hi_u32 v2, 0, v2
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v13		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v13
; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v11, v9, vcc		; GISEL-NEXT: v_addc_u32_e32 v9, vcc, v11, v9, vcc
; GISEL-NEXT: v_mul_lo_u32 v10, 0, v7		; GISEL-NEXT: v_mul_lo_u32 v10, 0, v7
; GISEL-NEXT: v_mul_hi_u32 v11, v2, v7		; GISEL-NEXT: v_mul_hi_u32 v11, v0, v7
; GISEL-NEXT: v_mul_hi_u32 v7, 0, v7		; GISEL-NEXT: v_mul_hi_u32 v7, 0, v7
; GISEL-NEXT: v_mul_lo_u32 v12, v0, v4		; GISEL-NEXT: v_mul_lo_u32 v12, v6, v4
; GISEL-NEXT: v_mul_lo_u32 v13, 0, v4		; GISEL-NEXT: v_mul_lo_u32 v13, 0, v4
; GISEL-NEXT: v_mul_hi_u32 v14, v0, v4		; GISEL-NEXT: v_mul_hi_u32 v14, v6, v4
; GISEL-NEXT: v_mul_hi_u32 v4, 0, v4		; GISEL-NEXT: v_mul_hi_u32 v4, 0, v4
; GISEL-NEXT: v_mul_lo_u32 v17, v2, v9		; GISEL-NEXT: v_mul_lo_u32 v17, v0, v9
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v17
; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v17, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_mul_lo_u32 v10, 0, v9		; GISEL-NEXT: v_mul_lo_u32 v10, 0, v9
; GISEL-NEXT: v_mul_hi_u32 v11, v2, v9		; GISEL-NEXT: v_mul_hi_u32 v11, v0, v9
; GISEL-NEXT: v_mul_hi_u32 v9, 0, v9		; GISEL-NEXT: v_mul_hi_u32 v9, 0, v9
; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v12		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v12
; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v12, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v13, v5		; GISEL-NEXT: v_add_i32_e64 v2, s[4:5], v13, v2
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v7, s[4:5], v10, v7		; GISEL-NEXT: v_add_i32_e64 v7, s[4:5], v10, v7
; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v10, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v6, s[4:5], v6, v8		; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v8
; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v5, 0, 1, s[4:5]
; GISEL-NEXT: v_add_i32_e64 v5, s[4:5], v5, v14		; GISEL-NEXT: v_add_i32_e64 v2, s[4:5], v2, v14
; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, 1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v8, 0, 1, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v14, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v11
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v12, v6		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v12, v5
; GISEL-NEXT: v_add_i32_e32 v8, vcc, v13, v8		; GISEL-NEXT: v_add_i32_e32 v8, vcc, v13, v8
; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14		; GISEL-NEXT: v_add_i32_e32 v12, vcc, v17, v14
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v5, v6		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GISEL-NEXT: v_cndmask_b32_e64 v6, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v5, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12		; GISEL-NEXT: v_add_i32_e32 v7, vcc, v7, v12
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, 1, vcc
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v8, v6		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v8, v5
; GISEL-NEXT: v_mul_lo_u32 v8, v3, v5		; GISEL-NEXT: v_mul_lo_u32 v8, v3, v2
; GISEL-NEXT: v_mul_lo_u32 v12, 0, v5		; GISEL-NEXT: v_mul_lo_u32 v12, 0, v2
; GISEL-NEXT: v_mul_hi_u32 v5, v3, v5		; GISEL-NEXT: v_mul_hi_u32 v2, v3, v2
; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11		; GISEL-NEXT: v_add_i32_e32 v10, vcc, v10, v11
; GISEL-NEXT: v_mul_lo_u32 v11, v1, v7		; GISEL-NEXT: v_mul_lo_u32 v11, v1, v7
; GISEL-NEXT: v_mul_lo_u32 v13, 0, v7		; GISEL-NEXT: v_mul_lo_u32 v13, 0, v7
; GISEL-NEXT: v_mul_hi_u32 v7, v1, v7		; GISEL-NEXT: v_mul_hi_u32 v7, v1, v7
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v6		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v9, v10		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v9, v10
; GISEL-NEXT: v_mul_lo_u32 v4, v3, v4		; GISEL-NEXT: v_mul_lo_u32 v4, v3, v4
; GISEL-NEXT: v_mul_lo_u32 v6, v1, v6		; GISEL-NEXT: v_mul_lo_u32 v5, v1, v5
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v12, v4		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v12, v4
; GISEL-NEXT: v_add_i32_e32 v6, vcc, v13, v6		; GISEL-NEXT: v_add_i32_e32 v5, vcc, v13, v5
; GISEL-NEXT: v_add_i32_e32 v4, vcc, v4, v5		; GISEL-NEXT: v_add_i32_e32 v2, vcc, v4, v2
; GISEL-NEXT: v_add_i32_e32 v5, vcc, v6, v7		; GISEL-NEXT: v_add_i32_e32 v4, vcc, v5, v7
; GISEL-NEXT: v_sub_i32_e32 v0, vcc, v0, v8		; GISEL-NEXT: v_sub_i32_e32 v5, vcc, v6, v8
; GISEL-NEXT: v_subb_u32_e64 v6, s[4:5], 0, v4, vcc		; GISEL-NEXT: v_subb_u32_e64 v6, s[4:5], 0, v2, vcc
; GISEL-NEXT: v_sub_i32_e64 v4, s[4:5], 0, v4		; GISEL-NEXT: v_sub_i32_e64 v2, s[4:5], 0, v2
; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v0, v3		; GISEL-NEXT: v_cmp_ge_u32_e64 s[4:5], v5, v3
; GISEL-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v7, 0, -1, s[4:5]
; GISEL-NEXT: v_sub_i32_e64 v2, s[4:5], v2, v11		; GISEL-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v11
; GISEL-NEXT: v_subb_u32_e64 v8, s[6:7], 0, v5, s[4:5]		; GISEL-NEXT: v_subb_u32_e64 v9, s[6:7], 0, v4, s[4:5]
; GISEL-NEXT: v_sub_i32_e64 v5, s[6:7], 0, v5		; GISEL-NEXT: v_sub_i32_e64 v0, s[6:7], 0, v4
; GISEL-NEXT: v_cmp_ge_u32_e64 s[6:7], v2, v1		; GISEL-NEXT: v_cmp_ge_u32_e64 s[6:7], v8, v1
; GISEL-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v4, 0, -1, s[6:7]
; GISEL-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v6		; GISEL-NEXT: v_cmp_eq_u32_e64 s[6:7], 0, v6
; GISEL-NEXT: v_cndmask_b32_e64 v7, v16, v7, s[6:7]		; GISEL-NEXT: v_cndmask_b32_e64 v7, v15, v7, s[6:7]
; GISEL-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v8		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v9
; GISEL-NEXT: v_cndmask_b32_e32 v9, v15, v9, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc
; GISEL-NEXT: v_subbrev_u32_e64 v5, vcc, 0, v5, s[4:5]		; GISEL-NEXT: v_subbrev_u32_e64 v0, vcc, 0, v0, s[4:5]
; GISEL-NEXT: v_sub_i32_e32 v10, vcc, v0, v3		; GISEL-NEXT: v_sub_i32_e32 v10, vcc, v5, v3
; GISEL-NEXT: v_subbrev_u32_e32 v4, vcc, 0, v4, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v10, v3		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v10, v3
; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v11, 0, -1, vcc
; GISEL-NEXT: v_sub_i32_e32 v12, vcc, v2, v1		; GISEL-NEXT: v_sub_i32_e32 v12, vcc, v8, v1
; GISEL-NEXT: v_subbrev_u32_e32 v5, vcc, 0, v5, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v13, vcc, 0, v0, vcc
; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v12, v1		; GISEL-NEXT: v_cmp_ge_u32_e32 vcc, v12, v1
; GISEL-NEXT: v_cndmask_b32_e64 v13, 0, -1, vcc		; GISEL-NEXT: v_cndmask_b32_e64 v0, 0, -1, vcc
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
; GISEL-NEXT: v_cndmask_b32_e32 v11, v19, v11, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v11, v19, v11, vcc
; GISEL-NEXT: v_sub_i32_e32 v3, vcc, v10, v3		; GISEL-NEXT: v_sub_i32_e32 v3, vcc, v10, v3
; GISEL-NEXT: v_subbrev_u32_e32 v14, vcc, 0, v4, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v14, vcc, 0, v2, vcc
; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v5		; GISEL-NEXT: v_cmp_eq_u32_e32 vcc, 0, v13
; GISEL-NEXT: v_cndmask_b32_e32 v13, v18, v13, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v18, v0, vcc
; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v12, v1		; GISEL-NEXT: v_sub_i32_e32 v1, vcc, v12, v1
; GISEL-NEXT: v_subbrev_u32_e32 v15, vcc, 0, v5, vcc		; GISEL-NEXT: v_subbrev_u32_e32 v15, vcc, 0, v13, vcc
; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v11		; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v11
; GISEL-NEXT: v_cndmask_b32_e32 v3, v10, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v3, v10, v3, vcc
; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v13		; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v0
; GISEL-NEXT: v_cndmask_b32_e64 v1, v12, v1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v1, v12, v1, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e32 v4, v4, v14, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v10, v2, v14, vcc
; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7		; GISEL-NEXT: v_cmp_ne_u32_e32 vcc, 0, v7
; GISEL-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v0, v5, v3, vcc
; GISEL-NEXT: v_cndmask_b32_e64 v3, v5, v15, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v3, v13, v15, s[4:5]
; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v9		; GISEL-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v4
; GISEL-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v2, v8, v1, s[4:5]
; GISEL-NEXT: v_cndmask_b32_e32 v1, v6, v4, vcc		; GISEL-NEXT: v_cndmask_b32_e32 v1, v6, v10, vcc
; GISEL-NEXT: v_cndmask_b32_e64 v3, v8, v3, s[4:5]		; GISEL-NEXT: v_cndmask_b32_e64 v3, v9, v3, s[4:5]
; GISEL-NEXT: s_setpc_b64 s[30:31]		; GISEL-NEXT: s_setpc_b64 s[30:31]
;		;
; CGP-LABEL: v_urem_v2i64_24bit:		; CGP-LABEL: v_urem_v2i64_24bit:
; CGP: ; %bb.0:		; CGP: ; %bb.0:
; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CGP-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CGP-NEXT: s_mov_b32 s6, 0xffffff		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v0, s6, v0		; CGP-NEXT: v_and_b32_e32 v1, 0xffffff, v2
; CGP-NEXT: v_and_b32_e32 v1, s6, v2		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v4
; CGP-NEXT: v_and_b32_e32 v2, s6, v4		; CGP-NEXT: v_and_b32_e32 v3, 0xffffff, v6
; CGP-NEXT: v_and_b32_e32 v3, s6, v6
; CGP-NEXT: v_cvt_f32_u32_e32 v4, v0		; CGP-NEXT: v_cvt_f32_u32_e32 v4, v0
; CGP-NEXT: v_cvt_f32_u32_e32 v5, v2		; CGP-NEXT: v_cvt_f32_u32_e32 v5, v2
; CGP-NEXT: v_cvt_f32_u32_e32 v6, v1		; CGP-NEXT: v_cvt_f32_u32_e32 v6, v1
; CGP-NEXT: v_cvt_f32_u32_e32 v7, v3		; CGP-NEXT: v_cvt_f32_u32_e32 v7, v3
; CGP-NEXT: v_rcp_f32_e32 v8, v5		; CGP-NEXT: v_rcp_f32_e32 v8, v5
; CGP-NEXT: v_rcp_f32_e32 v9, v7		; CGP-NEXT: v_rcp_f32_e32 v9, v7
; CGP-NEXT: v_mul_f32_e32 v8, v4, v8		; CGP-NEXT: v_mul_f32_e32 v8, v4, v8
; CGP-NEXT: v_mul_f32_e32 v9, v6, v9		; CGP-NEXT: v_mul_f32_e32 v9, v6, v9
; CGP-NEXT: v_trunc_f32_e32 v8, v8		; CGP-NEXT: v_trunc_f32_e32 v8, v8
; CGP-NEXT: v_trunc_f32_e32 v9, v9		; CGP-NEXT: v_trunc_f32_e32 v9, v9
; CGP-NEXT: v_mad_f32 v4, -v8, v5, v4		; CGP-NEXT: v_mad_f32 v4, -v8, v5, v4
; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8		; CGP-NEXT: v_cvt_u32_f32_e32 v8, v8
; CGP-NEXT: v_mad_f32 v6, -v9, v7, v6		; CGP-NEXT: v_mad_f32 v6, -v9, v7, v6
; CGP-NEXT: v_cvt_u32_f32_e32 v9, v9		; CGP-NEXT: v_cvt_u32_f32_e32 v9, v9
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, v5		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v4\|, v5
; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v4, 0, 1, s[4:5]
; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v6\|, v7		; CGP-NEXT: v_cmp_ge_f32_e64 s[4:5], \|v6\|, v7
; CGP-NEXT: v_cndmask_b32_e64 v5, 0, 1, s[4:5]		; CGP-NEXT: v_cndmask_b32_e64 v5, 0, 1, s[4:5]
; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4		; CGP-NEXT: v_add_i32_e32 v4, vcc, v8, v4
; CGP-NEXT: v_add_i32_e32 v5, vcc, v9, v5		; CGP-NEXT: v_add_i32_e32 v5, vcc, v9, v5
; CGP-NEXT: v_mul_lo_u32 v2, v4, v2		; CGP-NEXT: v_mul_lo_u32 v2, v4, v2
; CGP-NEXT: v_mul_lo_u32 v3, v5, v3		; CGP-NEXT: v_mul_lo_u32 v3, v5, v3
; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; CGP-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v3		; CGP-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
; CGP-NEXT: v_and_b32_e32 v0, s6, v0		; CGP-NEXT: v_and_b32_e32 v0, 0xffffff, v0
; CGP-NEXT: v_and_b32_e32 v2, s6, v1		; CGP-NEXT: v_and_b32_e32 v2, 0xffffff, v1
; CGP-NEXT: v_mov_b32_e32 v1, 0		; CGP-NEXT: v_mov_b32_e32 v1, 0
; CGP-NEXT: v_mov_b32_e32 v3, 0		; CGP-NEXT: v_mov_b32_e32 v3, 0
; CGP-NEXT: s_setpc_b64 s[30:31]		; CGP-NEXT: s_setpc_b64 s[30:31]
%num.mask = and <2 x i64> %num, <i64 16777215, i64 16777215>		%num.mask = and <2 x i64> %num, <i64 16777215, i64 16777215>
%den.mask = and <2 x i64> %den, <i64 16777215, i64 16777215>		%den.mask = and <2 x i64> %den, <i64 16777215, i64 16777215>
%result = urem <2 x i64> %num.mask, %den.mask		%result = urem <2 x i64> %num.mask, %den.mask
ret <2 x i64> %result		ret <2 x i64> %result
}		}

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

	Show First 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp			; GFX9-NEXT: v_pk_sub_u16 v0, v0, v1 clamp
	; GFX9-NEXT: v_pk_sub_u16 v1, v2, v3 clamp			; GFX9-NEXT: v_pk_sub_u16 v1, v2, v3 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_mov_b32_e32 v2, 8			; GFX9-NEXT: v_mov_b32_e32 v2, 8
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0xff			; GFX9-NEXT: s_movk_i32 s4, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s4, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s4, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, 24			; GFX9-NEXT: v_mov_b32_e32 v3, 24
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_usubsat_v4i8:			; GFX10-LABEL: v_usubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s2, 8			; GFX9-NEXT: s_mov_b32 s2, 8
	; GFX9-NEXT: v_pk_sub_u16 v1, s3, v1 clamp			; GFX9-NEXT: v_pk_sub_u16 v1, s3, v1 clamp
	; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
	; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_lshrrev_b16 v1, 8, v1 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s0, 0xff			; GFX9-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v2, s2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: s_mov_b32 s5, 24			; GFX9-NEXT: s_mov_b32 s5, 24
	; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2			; GFX9-NEXT: v_and_or_b32 v0, v0, s0, v2
	; GFX9-NEXT: v_and_b32_e32 v2, s0, v1			; GFX9-NEXT: v_and_b32_e32 v2, 0xff, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2			; GFX9-NEXT: v_lshlrev_b32_sdwa v1, s5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_2
	; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1			; GFX9-NEXT: v_or3_b32 v0, v0, v2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_usubsat_v4i8:			; GFX10-LABEL: s_usubsat_v4i8:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	▲ Show 20 Lines • Show All 2,903 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/add.v2i16.ll

	Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines

	; FIXME: Need to handle non-uniform case for function below (load without gep).			; FIXME: Need to handle non-uniform case for function below (load without gep).
	; GCN-LABEL: {{^}}v_test_add_v2i16_zext_to_v2i64:			; GCN-LABEL: {{^}}v_test_add_v2i16_zext_to_v2i64:
	; GFX9PLUS: v_mov_b32_e32 [[MASK:v[0-9+]]], 0xffff			; GFX9PLUS: v_mov_b32_e32 [[MASK:v[0-9+]]], 0xffff
	; GFX9PLUS: global_load_dword [[A:v[0-9]+]]			; GFX9PLUS: global_load_dword [[A:v[0-9]+]]
	; GFX9PLUS: global_load_dword [[B:v[0-9]+]]			; GFX9PLUS: global_load_dword [[B:v[0-9]+]]

	; GFX9PLUS: v_pk_add_u16 [[ADD:v[0-9]+]], [[A]], [[B]]			; GFX9PLUS: v_pk_add_u16 [[ADD:v[0-9]+]], [[A]], [[B]]
	; GFX9-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], [[MASK]], [[ADD]]			; GFX9PLUS-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]
	; GFX10-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]
	; GFX9PLUS-DAG: v_and_b32_sdwa v{{[0-9]+}}, [[MASK]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9PLUS-DAG: v_and_b32_sdwa v{{[0-9]+}}, [[MASK]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9PLUS: buffer_store_dwordx4			; GFX9PLUS: buffer_store_dwordx4

	; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}			; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
	; VI-DAG: flat_load_dword v[[A:[0-9]+]]			; VI-DAG: flat_load_dword v[[A:[0-9]+]]
	; VI-DAG: flat_load_dword v[[B:[0-9]+]]			; VI-DAG: flat_load_dword v[[B:[0-9]+]]

	; VI-DAG: v_add_u16_e32			; VI-DAG: v_add_u16_e32
	▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,171 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP127:%.*]] = select i1 [[TMP125]], i32 [[TMP126]], i32 [[TMP122]]			; CHECK-NEXT: [[TMP127:%.*]] = select i1 [[TMP125]], i32 [[TMP126]], i32 [[TMP122]]
	; CHECK-NEXT: [[TMP128:%.*]] = insertelement <4 x i32> [[TMP96]], i32 [[TMP127]], i64 3			; CHECK-NEXT: [[TMP128:%.*]] = insertelement <4 x i32> [[TMP96]], i32 [[TMP127]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP128]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP128]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: udiv_v4i32:			; GFX6-LABEL: udiv_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s3, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s15, 0xf000			; GFX6-NEXT: s_mov_b32 s15, 0xf000
	; GFX6-NEXT: s_mov_b32 s14, -1			; GFX6-NEXT: s_mov_b32 s14, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_i32 s2, 0, s8			; GFX6-NEXT: s_sub_i32 s2, 0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s10
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s11			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s11
	; GFX6-NEXT: v_mul_f32_e32 v0, s3, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s3, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s9			; GFX6-NEXT: s_sub_i32 s2, 0, s9
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_sub_i32 s2, 0, s10			; GFX6-NEXT: s_sub_i32 s2, 0, s10
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v2, v0, s8
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v5, v1, s9
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s4, v2
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s8, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v2			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s5, v5			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s5, v5
	; GFX6-NEXT: v_mul_f32_e32 v2, s3, v2			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2			; GFX6-NEXT: v_mul_lo_u32 v4, s2, v2
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v3			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GFX6-NEXT: v_mul_hi_u32 v4, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v2, v4
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v1
	; GFX6-NEXT: s_sub_i32 s0, 0, s11			; GFX6-NEXT: s_sub_i32 s0, 0, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v4, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v6
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, s3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v3, v2, s10
	; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2			; GFX6-NEXT: v_add_i32_e32 v6, vcc, 1, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s6, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s6, v3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v3
	; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5			; GFX6-NEXT: v_mul_hi_u32 v5, v4, v5
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v6, s[0:1]
	Show All 15 Lines
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v4i32:			; GFX9-LABEL: udiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b32 s12, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s2, 0, s8			; GFX9-NEXT: s_sub_i32 s2, 0, s8
	; GFX9-NEXT: s_sub_i32 s3, 0, s9			; GFX9-NEXT: s_sub_i32 s3, 0, s9
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s10			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s10
	; GFX9-NEXT: v_mul_f32_e32 v0, s12, v0			; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s11
				; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s12, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX9-NEXT: s_sub_i32 s2, 0, s10			; GFX9-NEXT: s_sub_i32 s2, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
				; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_f32_e32 v3, s12, v5			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v5
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, s8			; GFX9-NEXT: v_mul_lo_u32 v3, v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s11
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0			; GFX9-NEXT: v_add_u32_e32 v7, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v5, s4, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v5			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
				; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v5			; GFX9-NEXT: v_subrev_u32_e32 v7, s8, v3
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, s9			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v7, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
				; GFX9-NEXT: v_mul_lo_u32 v3, s2, v2
				; GFX9-NEXT: s_sub_i32 s2, 0, s11
				; GFX9-NEXT: v_mul_lo_u32 v5, v1, s9
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v0			; GFX9-NEXT: v_add_u32_e32 v7, 1, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v5			; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX9-NEXT: v_add_u32_e32 v8, 1, v1
				; GFX9-NEXT: v_sub_u32_e32 v5, s5, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v7, s2, v3			; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-NEXT: v_sub_u32_e32 v6, s5, v6			; GFX9-NEXT: v_mul_lo_u32 v3, s2, v6
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v6			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, s12, v2			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v8, vcc
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_mul_hi_u32 v3, v6, v3
	; GFX9-NEXT: v_mul_hi_u32 v5, v3, v7			; GFX9-NEXT: v_mul_lo_u32 v8, v2, s10
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_subrev_u32_e32 v7, s9, v5
	; GFX9-NEXT: s_sub_i32 s2, 0, s11			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v7, s9, v6			; GFX9-NEXT: v_add_u32_e32 v3, v6, v3
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v1			; GFX9-NEXT: v_add_u32_e32 v7, 1, v1
	; GFX9-NEXT: v_mul_hi_u32 v5, v2, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, v3, s10			; GFX9-NEXT: v_sub_u32_e32 v5, s6, v8
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v7, vcc
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v5
	; GFX9-NEXT: v_mul_hi_u32 v5, s7, v2			; GFX9-NEXT: v_subrev_u32_e32 v6, s10, v5
	; GFX9-NEXT: v_sub_u32_e32 v6, s6, v8			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v3			; GFX9-NEXT: v_mul_lo_u32 v6, v3, s11
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v3, v7, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s10, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v6, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v5, s11
	; GFX9-NEXT: v_add_u32_e32 v7, 1, v2			; GFX9-NEXT: v_add_u32_e32 v7, 1, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
	; GFX9-NEXT: v_sub_u32_e32 v3, s7, v6			; GFX9-NEXT: v_add_u32_e32 v7, 1, v2
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v5			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s10, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX9-NEXT: v_sub_u32_e32 v5, s7, v6
				; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v7, vcc
				; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
				; GFX9-NEXT: v_subrev_u32_e32 v6, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s11, v3			; GFX9-NEXT: v_add_u32_e32 v6, 1, v3
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v5
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <4 x i32> %x, %y			%r = udiv <4 x i32> %x, %y
	store <4 x i32> %r, <4 x i32> addrspace(1)* %out			store <4 x i32> %r, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {			define amdgpu_kernel void @urem_v4i32(<4 x i32> addrspace(1)* %out, <4 x i32> %x, <4 x i32> %y) {
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP119:%.*]] = select i1 [[TMP117]], i32 [[TMP118]], i32 [[TMP116]]			; CHECK-NEXT: [[TMP119:%.*]] = select i1 [[TMP117]], i32 [[TMP118]], i32 [[TMP116]]
	; CHECK-NEXT: [[TMP120:%.*]] = insertelement <4 x i32> [[TMP90]], i32 [[TMP119]], i64 3			; CHECK-NEXT: [[TMP120:%.*]] = insertelement <4 x i32> [[TMP90]], i32 [[TMP119]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP120]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP120]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_v4i32:			; GFX6-LABEL: urem_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s13, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_i32 s2, 0, s8			; GFX6-NEXT: s_sub_i32 s12, 0, s8
	; GFX6-NEXT: s_sub_i32 s12, 0, s9			; GFX6-NEXT: s_sub_i32 s13, 0, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX6-NEXT: v_mul_f32_e32 v0, s13, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s13, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1
	; GFX6-NEXT: v_mul_lo_u32 v4, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, s13, v3			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: s_sub_i32 s4, 0, s10			; GFX6-NEXT: s_sub_i32 s4, 0, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX6-NEXT: s_sub_i32 s4, 0, s11			; GFX6-NEXT: s_sub_i32 s4, 0, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_f32_e32 v3, s13, v4			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5
	Show All 15 Lines
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v4i32:			; GFX9-LABEL: urem_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b32 s12, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s2, 0, s8			; GFX9-NEXT: s_sub_i32 s2, 0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s10			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s10
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s3, 0, s9			; GFX9-NEXT: s_sub_i32 s3, 0, s9
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v0, s12, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s12, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s11			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v3, s2, v0
	; GFX9-NEXT: s_sub_i32 s2, 0, s10
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_f32_e32 v2, s12, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_mul_lo_u32 v5, s3, v1
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v6			; GFX9-NEXT: s_sub_i32 s2, 0, s10
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
				; GFX9-NEXT: v_mul_hi_u32 v5, v1, v5
				; GFX9-NEXT: v_add_u32_e32 v0, v0, v3
				; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s11
				; GFX9-NEXT: v_add_u32_e32 v1, v1, v5
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v2			; GFX9-NEXT: v_mul_lo_u32 v5, s2, v2
	; GFX9-NEXT: s_sub_i32 s2, 0, s11			; GFX9-NEXT: s_sub_i32 s2, 0, s11
	; GFX9-NEXT: v_mul_f32_e32 v3, s12, v3			; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v5, v2, v5			; GFX9-NEXT: v_mul_hi_u32 v5, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
				; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: v_add_u32_e32 v2, v2, v5
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v3			; GFX9-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
				; GFX9-NEXT: v_mul_lo_u32 v5, s2, v3
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX9-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v5, v3, v5
	; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0			; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0
				; GFX9-NEXT: v_mul_hi_u32 v5, v3, v5
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc
				; GFX9-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX9-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX9-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
	; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0			; GFX9-NEXT: v_subrev_u32_e32 v6, s8, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v1			; GFX9-NEXT: v_subrev_u32_e32 v6, s9, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, v3, s11			; GFX9-NEXT: v_mul_lo_u32 v3, v3, s11
	▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP163:%.*]] = sub i32 [[TMP162]], [[TMP128]]			; CHECK-NEXT: [[TMP163:%.*]] = sub i32 [[TMP162]], [[TMP128]]
	; CHECK-NEXT: [[TMP164:%.*]] = insertelement <4 x i32> [[TMP123]], i32 [[TMP163]], i64 3			; CHECK-NEXT: [[TMP164:%.*]] = insertelement <4 x i32> [[TMP123]], i32 [[TMP163]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP164]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP164]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v4i32:			; GFX6-LABEL: sdiv_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s16, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[12:13], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s15, 0xf000			; GFX6-NEXT: s_mov_b32 s15, 0xf000
	; GFX6-NEXT: s_mov_b32 s14, -1			; GFX6-NEXT: s_mov_b32 s14, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s2, s8, 31			; GFX6-NEXT: s_ashr_i32 s2, s8, 31
	; GFX6-NEXT: s_add_i32 s3, s8, s2			; GFX6-NEXT: s_add_i32 s3, s8, s2
	; GFX6-NEXT: s_xor_b32 s3, s3, s2			; GFX6-NEXT: s_xor_b32 s3, s3, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX6-NEXT: s_ashr_i32 s8, s9, 31			; GFX6-NEXT: s_ashr_i32 s8, s9, 31
	; GFX6-NEXT: s_add_i32 s0, s9, s8			; GFX6-NEXT: s_add_i32 s0, s9, s8
	; GFX6-NEXT: s_xor_b32 s9, s0, s8			; GFX6-NEXT: s_xor_b32 s9, s0, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_i32 s1, 0, s3			; GFX6-NEXT: s_sub_i32 s1, 0, s3
	; GFX6-NEXT: s_ashr_i32 s0, s4, 31			; GFX6-NEXT: s_ashr_i32 s0, s4, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, s16, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: s_xor_b32 s2, s0, s2			; GFX6-NEXT: s_xor_b32 s2, s0, s2
	; GFX6-NEXT: v_mul_lo_u32 v2, s1, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s1, v0
	; GFX6-NEXT: s_add_i32 s1, s4, s0			; GFX6-NEXT: s_add_i32 s1, s4, s0
	; GFX6-NEXT: v_mul_f32_e32 v1, s16, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s0, 0, s9			; GFX6-NEXT: s_sub_i32 s0, 0, s9
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s1, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s3
	Show All 17 Lines
	; GFX6-NEXT: s_xor_b32 s2, s0, s8			; GFX6-NEXT: s_xor_b32 s2, s0, s8
	; GFX6-NEXT: s_add_i32 s0, s10, s3			; GFX6-NEXT: s_add_i32 s0, s10, s3
	; GFX6-NEXT: s_xor_b32 s4, s0, s3			; GFX6-NEXT: s_xor_b32 s4, s0, s3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s4
	; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v2, v1, s9
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v1
	; GFX6-NEXT: v_mul_f32_e32 v3, s16, v3			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v2			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s9, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v4, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v2			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v4, s[0:1]
	; GFX6-NEXT: s_sub_i32 s0, 0, s4			; GFX6-NEXT: s_sub_i32 s0, 0, s4
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v3
	Show All 11 Lines
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s5			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s5
	; GFX6-NEXT: v_mul_hi_u32 v2, s1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s1, v2
	; GFX6-NEXT: s_xor_b32 s3, s0, s3			; GFX6-NEXT: s_xor_b32 s3, s0, s3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; GFX6-NEXT: v_mul_lo_u32 v3, v2, s4			; GFX6-NEXT: v_mul_lo_u32 v3, v2, s4
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v2			; GFX6-NEXT: v_add_i32_e32 v5, vcc, 1, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, s16, v4			; GFX6-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s1, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s4, v3			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s4, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v5, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v3			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GFX6-NEXT: s_sub_i32 s0, 0, s5			; GFX6-NEXT: s_sub_i32 s0, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	Show All 22 Lines
	; GFX6-NEXT: v_xor_b32_e32 v3, s2, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s2, v3
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s2, v3			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s2, v3
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[12:15], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i32:			; GFX9-LABEL: sdiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b32 s15, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s8, 31			; GFX9-NEXT: s_ashr_i32 s2, s8, 31
	; GFX9-NEXT: s_add_i32 s3, s8, s2			; GFX9-NEXT: s_add_i32 s3, s8, s2
	; GFX9-NEXT: s_xor_b32 s3, s3, s2			; GFX9-NEXT: s_xor_b32 s3, s3, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_ashr_i32 s12, s9, 31			; GFX9-NEXT: s_ashr_i32 s12, s9, 31
	; GFX9-NEXT: s_add_i32 s9, s9, s12			; GFX9-NEXT: s_add_i32 s9, s9, s12
	; GFX9-NEXT: s_xor_b32 s9, s9, s12			; GFX9-NEXT: s_xor_b32 s9, s9, s12
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_sub_i32 s14, 0, s3			; GFX9-NEXT: s_sub_i32 s14, 0, s3
	; GFX9-NEXT: s_ashr_i32 s8, s4, 31			; GFX9-NEXT: s_ashr_i32 s8, s4, 31
	; GFX9-NEXT: v_mul_f32_e32 v0, s15, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_add_i32 s4, s4, s8			; GFX9-NEXT: s_add_i32 s4, s4, s8
	; GFX9-NEXT: s_xor_b32 s4, s4, s8			; GFX9-NEXT: s_xor_b32 s4, s4, s8
	; GFX9-NEXT: v_mul_lo_u32 v2, s14, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s14, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s15, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s14, 0, s9			; GFX9-NEXT: s_sub_i32 s14, 0, s9
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: s_ashr_i32 s13, s5, 31			; GFX9-NEXT: s_ashr_i32 s13, s5, 31
	; GFX9-NEXT: v_mul_lo_u32 v3, s14, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s14, v1
	; GFX9-NEXT: s_add_i32 s5, s5, s13			; GFX9-NEXT: s_add_i32 s5, s5, s13
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	Show All 18 Lines
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s4			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, s4
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, s9			; GFX9-NEXT: v_mul_lo_u32 v2, v1, s9
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_ashr_i32 s8, s11, 31			; GFX9-NEXT: s_ashr_i32 s8, s11, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2			; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_f32_e32 v3, s15, v3			; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_subrev_u32_e32 v5, s9, v2			; GFX9-NEXT: v_subrev_u32_e32 v5, s9, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: s_sub_i32 s5, 0, s4			; GFX9-NEXT: s_sub_i32 s5, 0, s4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v2
	; GFX9-NEXT: v_mul_lo_u32 v2, s5, v3			; GFX9-NEXT: v_mul_lo_u32 v2, s5, v3
	; GFX9-NEXT: s_add_i32 s9, s11, s8			; GFX9-NEXT: s_add_i32 s9, s11, s8
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v1			; GFX9-NEXT: v_add_u32_e32 v5, 1, v1
	; GFX9-NEXT: s_xor_b32 s9, s9, s8			; GFX9-NEXT: s_xor_b32 s9, s9, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: v_mul_hi_u32 v2, v3, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s9
	; GFX9-NEXT: s_ashr_i32 s5, s6, 31			; GFX9-NEXT: s_ashr_i32 s5, s6, 31
	; GFX9-NEXT: s_add_i32 s6, s6, s5			; GFX9-NEXT: s_add_i32 s6, s6, s5
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v3, v5
	; GFX9-NEXT: s_xor_b32 s6, s6, s5			; GFX9-NEXT: s_xor_b32 s6, s6, s5
	; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX9-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: v_mul_f32_e32 v3, s15, v3			; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_xor_b32 s2, s13, s12			; GFX9-NEXT: s_xor_b32 s2, s13, s12
	; GFX9-NEXT: v_mul_lo_u32 v5, v2, s4			; GFX9-NEXT: v_mul_lo_u32 v5, v2, s4
	; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s2, v1
	; GFX9-NEXT: v_subrev_u32_e32 v1, s2, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s2, v1
	; GFX9-NEXT: s_xor_b32 s2, s5, s3			; GFX9-NEXT: s_xor_b32 s2, s5, s3
	; GFX9-NEXT: s_sub_i32 s3, 0, s9			; GFX9-NEXT: s_sub_i32 s3, 0, s9
	▲ Show 20 Lines • Show All 190 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP151:%.*]] = sub i32 [[TMP150]], [[TMP117]]			; CHECK-NEXT: [[TMP151:%.*]] = sub i32 [[TMP150]], [[TMP117]]
	; CHECK-NEXT: [[TMP152:%.*]] = insertelement <4 x i32> [[TMP114]], i32 [[TMP151]], i64 3			; CHECK-NEXT: [[TMP152:%.*]] = insertelement <4 x i32> [[TMP114]], i32 [[TMP151]], i64 3
	; CHECK-NEXT: store <4 x i32> [[TMP152]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <4 x i32> [[TMP152]], <4 x i32> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_v4i32:			; GFX6-LABEL: srem_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s14, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_ashr_i32 s2, s8, 31			; GFX6-NEXT: s_ashr_i32 s2, s8, 31
	; GFX6-NEXT: s_add_i32 s8, s8, s2			; GFX6-NEXT: s_add_i32 s8, s8, s2
	; GFX6-NEXT: s_xor_b32 s8, s8, s2			; GFX6-NEXT: s_xor_b32 s8, s8, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: s_ashr_i32 s12, s9, 31			; GFX6-NEXT: s_ashr_i32 s13, s9, 31
	; GFX6-NEXT: s_add_i32 s9, s9, s12			; GFX6-NEXT: s_add_i32 s9, s9, s13
	; GFX6-NEXT: s_xor_b32 s9, s9, s12			; GFX6-NEXT: s_xor_b32 s9, s9, s13
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_sub_i32 s13, 0, s8			; GFX6-NEXT: s_sub_i32 s14, 0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_ashr_i32 s12, s4, 31			; GFX6-NEXT: s_ashr_i32 s12, s4, 31
	; GFX6-NEXT: v_mul_f32_e32 v0, s14, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: s_add_i32 s4, s4, s12			; GFX6-NEXT: s_add_i32 s4, s4, s12
	; GFX6-NEXT: s_xor_b32 s4, s4, s12			; GFX6-NEXT: s_xor_b32 s4, s4, s12
	; GFX6-NEXT: v_mul_lo_u32 v2, s13, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s14, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s14, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s13, 0, s9			; GFX6-NEXT: s_sub_i32 s14, 0, s9
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s13, v1
	; GFX6-NEXT: s_ashr_i32 s13, s5, 31			; GFX6-NEXT: s_ashr_i32 s13, s5, 31
	; GFX6-NEXT: s_add_i32 s5, s5, s13			; GFX6-NEXT: s_add_i32 s5, s5, s13
				; GFX6-NEXT: s_xor_b32 s5, s5, s13
				; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
				; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
				; GFX6-NEXT: v_mul_lo_u32 v2, s14, v1
				; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: s_xor_b32 s4, s5, s13
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: s_ashr_i32 s5, s10, 31			; GFX6-NEXT: s_ashr_i32 s4, s10, 31
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: s_add_i32 s8, s10, s5			; GFX6-NEXT: s_add_i32 s8, s10, s4
	; GFX6-NEXT: s_xor_b32 s5, s8, s5			; GFX6-NEXT: s_xor_b32 s4, s8, s4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s5			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s4
	; GFX6-NEXT: v_mul_hi_u32 v1, s4, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0
	; GFX6-NEXT: v_mul_f32_e32 v2, s14, v2			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1
	; GFX6-NEXT: s_sub_i32 s4, 0, s5			; GFX6-NEXT: s_sub_i32 s5, 0, s4
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_mul_lo_u32 v4, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v4, s5, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s9, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v4			; GFX6-NEXT: v_mul_hi_u32 v3, v2, v4
	; GFX6-NEXT: s_ashr_i32 s8, s11, 31			; GFX6-NEXT: s_ashr_i32 s8, s11, 31
	; GFX6-NEXT: s_add_i32 s9, s11, s8			; GFX6-NEXT: s_add_i32 s9, s11, s8
	; GFX6-NEXT: s_ashr_i32 s4, s6, 31			; GFX6-NEXT: s_ashr_i32 s5, s6, 31
	; GFX6-NEXT: s_xor_b32 s8, s9, s8			; GFX6-NEXT: s_xor_b32 s8, s9, s8
	; GFX6-NEXT: s_add_i32 s6, s6, s4			; GFX6-NEXT: s_add_i32 s6, s6, s5
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s8
	; GFX6-NEXT: s_xor_b32 s6, s6, s4			; GFX6-NEXT: s_xor_b32 s6, s6, s5
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s13, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s13, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s13, v1			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s13, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s5			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s4
	; GFX6-NEXT: v_mul_f32_e32 v3, s14, v3			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s5, v2			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s4, v2
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX6-NEXT: s_sub_i32 s6, 0, s8			; GFX6-NEXT: s_sub_i32 s6, 0, s8
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v4, s6, v3			; GFX6-NEXT: v_mul_lo_u32 v4, s6, v3
	; GFX6-NEXT: s_ashr_i32 s6, s7, 31			; GFX6-NEXT: s_ashr_i32 s6, s7, 31
	; GFX6-NEXT: s_add_i32 s7, s7, s6			; GFX6-NEXT: s_add_i32 s7, s7, s6
	; GFX6-NEXT: s_xor_b32 s7, s7, s6			; GFX6-NEXT: s_xor_b32 s7, s7, s6
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v3, v4
	; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s5, v2			; GFX6-NEXT: v_subrev_i32_e32 v5, vcc, s4, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3			; GFX6-NEXT: v_mul_hi_u32 v3, s7, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s5, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s4, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX6-NEXT: v_xor_b32_e32 v2, s4, v2			; GFX6-NEXT: v_xor_b32_e32 v2, s5, v2
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s8			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s8
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s4, v2			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s5, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s7, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s8, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v3			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v3
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v4i32:			; GFX9-LABEL: srem_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b32 s13, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_ashr_i32 s2, s8, 31			; GFX9-NEXT: s_ashr_i32 s2, s8, 31
	; GFX9-NEXT: s_add_i32 s8, s8, s2			; GFX9-NEXT: s_add_i32 s8, s8, s2
	; GFX9-NEXT: s_xor_b32 s2, s8, s2			; GFX9-NEXT: s_xor_b32 s2, s8, s2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX9-NEXT: s_ashr_i32 s3, s9, 31			; GFX9-NEXT: s_ashr_i32 s3, s9, 31
	; GFX9-NEXT: s_sub_i32 s12, 0, s2
	; GFX9-NEXT: s_add_i32 s8, s9, s3			; GFX9-NEXT: s_add_i32 s8, s9, s3
				; GFX9-NEXT: s_sub_i32 s12, 0, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s3, s8, s3			; GFX9-NEXT: s_xor_b32 s3, s8, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX9-NEXT: s_ashr_i32 s8, s4, 31			; GFX9-NEXT: s_ashr_i32 s8, s4, 31
	; GFX9-NEXT: v_mul_f32_e32 v0, s13, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_add_i32 s4, s4, s8			; GFX9-NEXT: s_add_i32 s4, s4, s8
	; GFX9-NEXT: s_xor_b32 s4, s4, s8			; GFX9-NEXT: s_xor_b32 s4, s4, s8
	; GFX9-NEXT: v_mul_lo_u32 v2, s12, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s13, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s12, 0, s3			; GFX9-NEXT: s_sub_i32 s12, 0, s3
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: s_ashr_i32 s9, s5, 31			; GFX9-NEXT: s_ashr_i32 s9, s5, 31
	; GFX9-NEXT: v_mul_lo_u32 v3, s12, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s12, v1
	; GFX9-NEXT: s_add_i32 s5, s5, s9			; GFX9-NEXT: s_ashr_i32 s12, s10, 31
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
				; GFX9-NEXT: s_add_i32 s5, s5, s9
	; GFX9-NEXT: s_xor_b32 s5, s5, s9			; GFX9-NEXT: s_xor_b32 s5, s5, s9
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s2			; GFX9-NEXT: v_mul_lo_u32 v0, v0, s2
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0			; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0			; GFX9-NEXT: v_subrev_u32_e32 v2, s2, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v0
	; GFX9-NEXT: s_ashr_i32 s2, s10, 31			; GFX9-NEXT: s_add_i32 s2, s10, s12
	; GFX9-NEXT: s_add_i32 s4, s10, s2			; GFX9-NEXT: s_xor_b32 s2, s2, s12
	; GFX9-NEXT: s_xor_b32 s2, s4, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v2, s2
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s3			; GFX9-NEXT: v_mul_lo_u32 v1, v1, s3
	; GFX9-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX9-NEXT: v_subrev_u32_e32 v0, s8, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s8, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: v_mul_f32_e32 v2, s13, v2			; GFX9-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v2
	; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1			; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v1
	; GFX9-NEXT: s_sub_i32 s3, 0, s2			; GFX9-NEXT: s_sub_i32 s3, 0, s2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2			; GFX9-NEXT: v_mul_lo_u32 v3, s3, v2
	; GFX9-NEXT: s_ashr_i32 s3, s11, 31			; GFX9-NEXT: s_ashr_i32 s3, s11, 31
	; GFX9-NEXT: s_add_i32 s4, s11, s3			; GFX9-NEXT: s_add_i32 s4, s11, s3
	; GFX9-NEXT: s_xor_b32 s3, s4, s3			; GFX9-NEXT: s_xor_b32 s3, s4, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, s3
	; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX9-NEXT: s_ashr_i32 s4, s6, 31			; GFX9-NEXT: s_ashr_i32 s4, s6, 31
	; GFX9-NEXT: s_add_i32 s5, s6, s4			; GFX9-NEXT: s_add_i32 s5, s6, s4
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v3			; GFX9-NEXT: v_add_u32_e32 v2, v2, v3
	; GFX9-NEXT: s_xor_b32 s5, s5, s4			; GFX9-NEXT: s_xor_b32 s5, s5, s4
	; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2			; GFX9-NEXT: v_mul_hi_u32 v2, s5, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, s13, v5			; GFX9-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX9-NEXT: s_sub_i32 s6, 0, s3			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, v2, s2			; GFX9-NEXT: v_mul_lo_u32 v2, v2, s2
	; GFX9-NEXT: v_xor_b32_e32 v1, s9, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s9, v1
	; GFX9-NEXT: v_mul_lo_u32 v5, s6, v3			; GFX9-NEXT: v_mul_lo_u32 v5, s6, v3
	; GFX9-NEXT: v_subrev_u32_e32 v1, s9, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s9, v1
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2			; GFX9-NEXT: v_sub_u32_e32 v2, s5, v2
	; GFX9-NEXT: s_ashr_i32 s5, s7, 31			; GFX9-NEXT: s_ashr_i32 s5, s7, 31
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	;			;
	; GFX6-LABEL: udiv_v4i16:			; GFX6-LABEL: udiv_v4i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_and_b32 s8, s6, 0xffff			; GFX6-NEXT: s_and_b32 s9, s6, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s9
	; GFX6-NEXT: s_and_b32 s9, s4, 0xffff
	; GFX6-NEXT: s_lshr_b32 s6, s6, 16			; GFX6-NEXT: s_lshr_b32 s6, s6, 16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: s_and_b32 s8, s4, 0xffff
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s8
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GFX6-NEXT: s_lshr_b32 s4, s4, 16			; GFX6-NEXT: s_lshr_b32 s4, s4, 16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s4
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3			; GFX6-NEXT: v_mul_f32_e32 v3, v1, v3
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_mad_f32 v1, -v3, v0, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: s_and_b32 s4, s7, 0xffff			; GFX6-NEXT: s_and_b32 s4, s7, 0xffff
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v3
	; GFX6-NEXT: v_mad_f32 v2, -v1, v3, v4			; GFX6-NEXT: v_mad_f32 v3, -v1, v2, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s4
	; GFX6-NEXT: s_and_b32 s4, s5, 0xffff			; GFX6-NEXT: s_and_b32 s4, s5, 0xffff
				; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v2
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: s_lshr_b32 s4, s7, 16			; GFX6-NEXT: s_lshr_b32 s4, s7, 16
	; GFX6-NEXT: v_mad_f32 v3, -v1, v4, v5			; GFX6-NEXT: v_mad_f32 v3, -v1, v4, v5
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4
	; GFX6-NEXT: s_lshr_b32 s4, s5, 16			; GFX6-NEXT: s_lshr_b32 s4, s5, 16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4
	; GFX6-NEXT: s_mov_b32 s8, 0xffff			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mul_f32_e32 v3, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v3, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v3
	; GFX6-NEXT: v_mad_f32 v3, -v3, v5, v6			; GFX6-NEXT: v_mad_f32 v3, -v3, v5, v6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
	; GFX6-NEXT: v_and_b32_e32 v1, s8, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_and_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v3			; GFX6-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v4i16:			; GFX9-LABEL: udiv_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	Show All 39 Lines
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v8			; GFX9-NEXT: v_mul_f32_e32 v3, v7, v8
	; GFX9-NEXT: v_trunc_f32_e32 v3, v3			; GFX9-NEXT: v_trunc_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v3
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
	; GFX9-NEXT: v_mad_f32 v3, -v3, v5, v7			; GFX9-NEXT: v_mad_f32 v3, -v3, v5, v7
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_and_b32_e32 v0, v4, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[0:1]			; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = udiv <4 x i16> %x, %y			%r = udiv <4 x i16> %x, %y
	store <4 x i16> %r, <4 x i16> addrspace(1)* %out			store <4 x i16> %r, <4 x i16> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_and_b32 s8, s6, 0xffff			; GFX6-NEXT: s_and_b32 s8, s6, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_mov_b32_e32 v4, s6			; GFX6-NEXT: v_mov_b32_e32 v4, s6
	; GFX6-NEXT: s_mov_b32 s8, 0xffff
	; GFX6-NEXT: v_alignbit_b32 v4, s7, v4, 16			; GFX6-NEXT: v_alignbit_b32 v4, s7, v4, 16
	; GFX6-NEXT: s_and_b32 s9, s4, 0xffff			; GFX6-NEXT: s_and_b32 s8, s4, 0xffff
	; GFX6-NEXT: v_and_b32_e32 v5, s8, v4			; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, v5			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, v5
	; GFX6-NEXT: v_mov_b32_e32 v3, s4			; GFX6-NEXT: v_mov_b32_e32 v1, s4
	; GFX6-NEXT: v_alignbit_b32 v3, s5, v3, 16			; GFX6-NEXT: v_alignbit_b32 v1, s5, v1, 16
	; GFX6-NEXT: v_and_b32_e32 v6, s8, v3			; GFX6-NEXT: v_and_b32_e32 v6, 0xffff, v1
	; GFX6-NEXT: v_mul_f32_e32 v2, v1, v2			; GFX6-NEXT: v_mul_f32_e32 v3, v2, v3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, v6			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, v6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
				; GFX6-NEXT: v_trunc_f32_e32 v3, v3
				; GFX6-NEXT: v_mad_f32 v2, -v3, v0, v2
				; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
				; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
				; GFX6-NEXT: v_mul_f32_e32 v2, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v1, -v2, v0, v1			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GFX6-NEXT: v_mad_f32 v2, -v2, v5, v6
	; GFX6-NEXT: v_mul_f32_e32 v1, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GFX6-NEXT: v_mad_f32 v1, -v1, v5, v6
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5
	; GFX6-NEXT: s_and_b32 s6, s7, 0xffff			; GFX6-NEXT: s_and_b32 s6, s7, 0xffff
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v2, vcc			; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s6
	; GFX6-NEXT: s_and_b32 s6, s5, 0xffff			; GFX6-NEXT: s_and_b32 s6, s5, 0xffff
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, v4			; GFX6-NEXT: v_mul_lo_u32 v2, v2, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v5, v3
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: s_lshr_b32 s4, s7, 16			; GFX6-NEXT: s_lshr_b32 s4, s7, 16
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, v3, v1			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v1, v2
	; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v1, v4, v5
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s4
	; GFX6-NEXT: s_lshr_b32 s6, s5, 16			; GFX6-NEXT: s_lshr_b32 s6, s5, 16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_mad_f32 v4, -v1, v2, v4			; GFX6-NEXT: v_mad_f32 v4, -v1, v3, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v2			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v3
	; GFX6-NEXT: v_mul_f32_e32 v2, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v3, v6, v7
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v3
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mad_f32 v2, -v2, v5, v6			; GFX6-NEXT: v_mad_f32 v3, -v3, v5, v6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
	; GFX6-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s4			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s4
	; GFX6-NEXT: v_and_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v1, s8, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s6, v3
				; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
				; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX6-NEXT: v_or_b32_e32 v1, v1, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v4i16:			; GFX9-LABEL: urem_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: v_mov_b32_e32 v6, 0			; GFX9-NEXT: v_mov_b32_e32 v6, 0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v3			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v3
	; GFX9-NEXT: v_mad_f32 v3, -v3, v5, v7			; GFX9-NEXT: v_mad_f32 v3, -v3, v5, v7
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
	; GFX9-NEXT: v_mul_lo_u32 v2, v2, s3			; GFX9-NEXT: v_mul_lo_u32 v2, v2, s3
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mul_lo_u32 v3, v3, s6			; GFX9-NEXT: v_mul_lo_u32 v3, v3, s6
	; GFX9-NEXT: v_sub_u32_e32 v4, s4, v1			; GFX9-NEXT: v_sub_u32_e32 v4, s4, v1
	; GFX9-NEXT: v_sub_u32_e32 v1, s8, v2			; GFX9-NEXT: v_sub_u32_e32 v1, s8, v2
				; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_sub_u32_e32 v2, s5, v3			; GFX9-NEXT: v_sub_u32_e32 v2, s5, v3
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_and_b32_e32 v1, v3, v1
	; GFX9-NEXT: v_and_b32_e32 v0, v3, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v2, 16, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[0:1]			; GFX9-NEXT: global_store_dwordx2 v6, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem <4 x i16> %x, %y			%r = urem <4 x i16> %x, %y
	store <4 x i16> %r, <4 x i16> addrspace(1)* %out			store <4 x i16> %r, <4 x i16> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX6-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX6-NEXT: v_trunc_f32_e32 v5, v5			; GFX6-NEXT: v_trunc_f32_e32 v5, v5
	; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4			; GFX6-NEXT: v_mad_f32 v4, -v5, v2, v4
	; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5			; GFX6-NEXT: v_cvt_i32_f32_e32 v5, v5
	; GFX6-NEXT: v_mov_b32_e32 v6, s4			; GFX6-NEXT: v_mov_b32_e32 v6, s4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v2\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v2\|
	; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX6-NEXT: v_and_b32_e32 v1, s4, v1			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_or_b32_e32 v1, v1, v2			; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v2			; GFX6-NEXT: v_or_b32_e32 v0, v0, v2
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i16:			; GFX9-LABEL: sdiv_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_or_b32 s4, s0, 1			; GFX9-NEXT: s_or_b32 s4, s0, 1
	; GFX9-NEXT: v_mul_f32_e32 v6, v5, v6			; GFX9-NEXT: v_mul_f32_e32 v6, v5, v6
	; GFX9-NEXT: v_trunc_f32_e32 v6, v6			; GFX9-NEXT: v_trunc_f32_e32 v6, v6
	; GFX9-NEXT: v_mad_f32 v5, -v6, v0, v5			; GFX9-NEXT: v_mad_f32 v5, -v6, v0, v5
	; GFX9-NEXT: v_cvt_i32_f32_e32 v6, v6			; GFX9-NEXT: v_cvt_i32_f32_e32 v6, v6
	; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v5\|, \|v0\|			; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v5\|, \|v0\|
	; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec			; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GFX9-NEXT: s_cselect_b32 s0, s4, 0			; GFX9-NEXT: s_cselect_b32 s0, s4, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX9-NEXT: v_add_u32_e32 v0, s0, v6			; GFX9-NEXT: v_add_u32_e32 v0, s0, v6
	; GFX9-NEXT: v_and_b32_e32 v1, v5, v1			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1
	; GFX9-NEXT: v_and_b32_e32 v0, v5, v3			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3
	; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = sdiv <4 x i16> %x, %y			%r = sdiv <4 x i16> %x, %y
	store <4 x i16> %r, <4 x i16> addrspace(1)* %out			store <4 x i16> %r, <4 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v6, s4			; GFX6-NEXT: v_mov_b32_e32 v6, s4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v3\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v3\|
	; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, 0, v6, vcc
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s6			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s6
	; GFX6-NEXT: s_lshr_b32 s4, s5, 16			; GFX6-NEXT: s_lshr_b32 s4, s5, 16
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v2
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s4, v3
	; GFX6-NEXT: s_mov_b32 s4, 0xffff
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s4, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v3
	; GFX6-NEXT: v_and_b32_e32 v2, s4, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1			; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v4i16:			; GFX9-LABEL: srem_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_or_b32 s8, s0, 1			; GFX9-NEXT: s_or_b32 s8, s0, 1
	; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v5\|, \|v4\|			; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v5\|, \|v4\|
	; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec			; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GFX9-NEXT: s_cselect_b32 s0, s8, 0			; GFX9-NEXT: s_cselect_b32 s0, s8, 0
	; GFX9-NEXT: v_add_u32_e32 v4, s0, v6			; GFX9-NEXT: v_add_u32_e32 v4, s0, v6
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, s7			; GFX9-NEXT: v_mul_lo_u32 v4, v4, s7
	; GFX9-NEXT: v_sub_u32_e32 v5, s9, v1			; GFX9-NEXT: v_sub_u32_e32 v5, s9, v1
	; GFX9-NEXT: v_sub_u32_e32 v1, s6, v3			; GFX9-NEXT: v_sub_u32_e32 v1, s6, v3
				; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_sub_u32_e32 v3, s5, v4			; GFX9-NEXT: v_sub_u32_e32 v3, s5, v4
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_and_b32_e32 v1, v4, v1
	; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX9-NEXT: v_and_b32_e32 v3, v4, v5			; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v5
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v3			; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v3
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem <4 x i16> %x, %y			%r = srem <4 x i16> %x, %y
	store <4 x i16> %r, <4 x i16> addrspace(1)* %out			store <4 x i16> %r, <4 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 550 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP66:%.*]] = insertelement <3 x i16> [[TMP44]], i16 [[TMP65]], i64 2			; CHECK-NEXT: [[TMP66:%.*]] = insertelement <3 x i16> [[TMP44]], i16 [[TMP65]], i64 2
	; CHECK-NEXT: store <3 x i16> [[TMP66]], <3 x i16> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <3 x i16> [[TMP66]], <3 x i16> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_v3i16:			; GFX6-LABEL: urem_v3i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s8, 0xffff
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_and_b32 s9, s6, 0xffff			; GFX6-NEXT: s_and_b32 s8, s6, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s8
	; GFX6-NEXT: s_and_b32 s2, s4, 0xffff			; GFX6-NEXT: s_and_b32 s2, s4, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s2
	; GFX6-NEXT: v_mov_b32_e32 v2, s6			; GFX6-NEXT: v_mov_b32_e32 v2, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v1
	; GFX6-NEXT: v_alignbit_b32 v2, s7, v2, 16			; GFX6-NEXT: v_alignbit_b32 v2, s7, v2, 16
	; GFX6-NEXT: v_and_b32_e32 v5, s8, v2			; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, v5			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, v5
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v6, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v0, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v1, v3
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v0			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v1
	; GFX6-NEXT: v_mov_b32_e32 v1, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v6, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_alignbit_b32 v0, s5, v0, 16
	; GFX6-NEXT: v_alignbit_b32 v1, s5, v1, 16			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s6
	; GFX6-NEXT: v_and_b32_e32 v3, s8, v1			; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, v3			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, v3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v1
	; GFX6-NEXT: s_and_b32 s4, s7, 0xffff			; GFX6-NEXT: s_and_b32 s4, s7, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v5, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v5, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_and_b32 s4, s5, 0xffff			; GFX6-NEXT: s_and_b32 s4, s5, 0xffff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s4
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2
	; GFX6-NEXT: v_mul_f32_e32 v3, v7, v8			; GFX6-NEXT: v_mul_f32_e32 v3, v7, v8
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v3
	; GFX6-NEXT: v_mad_f32 v3, -v3, v6, v7			; GFX6-NEXT: v_mad_f32 v3, -v3, v6, v7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v6			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v6
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, v3, s7			; GFX6-NEXT: v_mul_lo_u32 v3, v3, s7
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v2			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v3			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s5, v3
	; GFX6-NEXT: v_and_b32_e32 v0, s8, v0			; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4			; GFX6-NEXT: buffer_store_short v2, off, s[0:3], 0 offset:4
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v3i16:			; GFX9-LABEL: urem_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 545 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: udiv_v3i15:			; GFX6-LABEL: udiv_v3i15:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_and_b32 s8, s2, 0x7fff			; GFX6-NEXT: v_mov_b32_e32 v0, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s8			; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: s_and_b32 s9, s0, 0x7fff			; GFX6-NEXT: s_and_b32 s8, s0, 0x7fff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s8
				; GFX6-NEXT: s_and_b32 s3, s2, 0x7fff
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v2, s0
	; GFX6-NEXT: s_bfe_u32 s0, s0, 0xf000f			; GFX6-NEXT: s_bfe_u32 s0, s0, 0xf000f
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s0			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v1
	; GFX6-NEXT: v_mov_b32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s0
	; GFX6-NEXT: s_bfe_u32 s2, s2, 0xf000f			; GFX6-NEXT: s_bfe_u32 s2, s2, 0xf000f
	; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: s_movk_i32 s3, 0x7fff
	; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30			; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_and_b32_e32 v2, s3, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v1, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v1, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v2, v2			; GFX6-NEXT: v_cvt_f32_u32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v1			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v1
	; GFX6-NEXT: v_mul_f32_e32 v1, v6, v7			; GFX6-NEXT: v_mul_f32_e32 v1, v6, v7
	; GFX6-NEXT: v_and_b32_e32 v0, s3, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mad_f32 v4, -v1, v5, v6			; GFX6-NEXT: v_mad_f32 v4, -v1, v5, v6
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, v0			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v2			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v5
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mul_f32_e32 v1, v0, v6			; GFX6-NEXT: v_mul_f32_e32 v1, v0, v6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v1
	; GFX6-NEXT: v_mad_f32 v0, -v1, v2, v0			; GFX6-NEXT: v_mad_f32 v0, -v1, v2, v0
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v2			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v2
	; GFX6-NEXT: v_and_b32_e32 v2, s3, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v3
	; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v0, vcc, 0, v5, vcc
	; GFX6-NEXT: v_and_b32_e32 v3, s3, v4			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v3i15:			; GFX9-LABEL: udiv_v3i15:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX9-NEXT: s_movk_i32 s6, 0x7fff
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30			; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX9-NEXT: s_and_b32 s3, s2, 0x7fff			; GFX9-NEXT: s_and_b32 s6, s2, 0x7fff
	; GFX9-NEXT: s_and_b32 s7, s0, 0x7fff			; GFX9-NEXT: s_and_b32 s3, s0, 0x7fff
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v3, s0			; GFX9-NEXT: v_mov_b32_e32 v3, s0
	; GFX9-NEXT: s_bfe_u32 s0, s0, 0xf000f			; GFX9-NEXT: s_bfe_u32 s0, s0, 0xf000f
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s6
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s0			; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s0
	; GFX9-NEXT: s_bfe_u32 s2, s2, 0xf000f			; GFX9-NEXT: s_bfe_u32 s2, s2, 0xf000f
	; GFX9-NEXT: v_alignbit_b32 v3, s1, v3, 30			; GFX9-NEXT: v_alignbit_b32 v3, s1, v3, 30
	; GFX9-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX9-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX9-NEXT: v_and_b32_e32 v3, s6, v3			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mad_f32 v4, -v5, v1, v4			; GFX9-NEXT: v_mad_f32 v4, -v5, v1, v4
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v3
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v1			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v1
	; GFX9-NEXT: v_mul_f32_e32 v1, v7, v8			; GFX9-NEXT: v_mul_f32_e32 v1, v7, v8
	; GFX9-NEXT: v_and_b32_e32 v0, s6, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0x7fff, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
	; GFX9-NEXT: v_mad_f32 v5, -v1, v6, v7			; GFX9-NEXT: v_mad_f32 v5, -v1, v6, v7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, v0			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v3			; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v3
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, v6			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v1, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v1, vcc
	; GFX9-NEXT: v_mul_f32_e32 v1, v0, v7			; GFX9-NEXT: v_mul_f32_e32 v1, v0, v7
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v1
	; GFX9-NEXT: v_mad_f32 v0, -v1, v3, v0			; GFX9-NEXT: v_mad_f32 v0, -v1, v3, v0
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v3			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v0\|, v3
	; GFX9-NEXT: v_and_b32_e32 v3, s6, v4			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, 0, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v0, vcc, 0, v6, vcc
	; GFX9-NEXT: v_and_b32_e32 v4, s6, v5			; GFX9-NEXT: v_and_b32_e32 v4, 0x7fff, v5
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4
	; GFX9-NEXT: v_or_b32_e32 v3, v3, v4			; GFX9-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX9-NEXT: v_or_b32_e32 v0, v3, v0			; GFX9-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[4:5]			; GFX9-NEXT: global_store_dword v2, v0, s[4:5]
	; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4			; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: urem_v3i15:			; GFX6-LABEL: urem_v3i15:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_and_b32 s9, s2, 0x7fff			; GFX6-NEXT: s_and_b32 s8, s2, 0x7fff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s8
	; GFX6-NEXT: s_and_b32 s10, s0, 0x7fff			; GFX6-NEXT: s_and_b32 s9, s0, 0x7fff
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v2, s0
	; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30			; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30
	; GFX6-NEXT: s_bfe_u32 s1, s0, 0xf000f			; GFX6-NEXT: s_bfe_u32 s1, s0, 0xf000f
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s1			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s1
	; GFX6-NEXT: s_bfe_u32 s10, s2, 0xf000f			; GFX6-NEXT: s_bfe_u32 s9, s2, 0xf000f
	; GFX6-NEXT: v_mov_b32_e32 v0, s2			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v4, v3, v4
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mad_f32 v3, -v4, v1, v3			; GFX6-NEXT: v_mad_f32 v3, -v4, v1, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v1			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s9
	; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30			; GFX6-NEXT: v_mov_b32_e32 v0, s2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX6-NEXT: s_movk_i32 s3, 0x7fff			; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: v_and_b32_e32 v2, s3, v2			; GFX6-NEXT: v_and_b32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s2, v1			; GFX6-NEXT: v_sub_i32_e32 v6, vcc, s2, v1
	; GFX6-NEXT: v_mul_f32_e32 v1, v3, v4			; GFX6-NEXT: v_mul_f32_e32 v1, v3, v4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v4, v2			; GFX6-NEXT: v_cvt_f32_u32_e32 v4, v2
	; GFX6-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v7, v0			; GFX6-NEXT: v_cvt_f32_u32_e32 v7, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v4
	; GFX6-NEXT: v_mad_f32 v3, -v1, v5, v3			; GFX6-NEXT: v_mad_f32 v3, -v1, v5, v3
				; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v5
				; GFX6-NEXT: s_lshr_b32 s0, s0, 15
	; GFX6-NEXT: v_mul_f32_e32 v3, v7, v8			; GFX6-NEXT: v_mul_f32_e32 v3, v7, v8
	; GFX6-NEXT: v_trunc_f32_e32 v3, v3			; GFX6-NEXT: v_trunc_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v5, v3
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX6-NEXT: v_mad_f32 v3, -v3, v4, v7			; GFX6-NEXT: v_mad_f32 v3, -v3, v4, v7
	; GFX6-NEXT: s_lshr_b32 s0, s0, 15
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, v4
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s0
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v5, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v3, v2
	; GFX6-NEXT: s_lshr_b32 s8, s2, 15			; GFX6-NEXT: s_lshr_b32 s3, s2, 15
	; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v1			; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s3, v1
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_and_b32_e32 v3, s3, v3			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v2, s3, v6			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v6
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: urem_v3i15:			; GFX9-LABEL: urem_v3i15:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX9-NEXT: s_movk_i32 s6, 0x7fff
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: s_and_b32 s6, s2, 0x7fff
				; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s6
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30			; GFX9-NEXT: s_and_b32 s7, s0, 0x7fff
	; GFX9-NEXT: s_and_b32 s3, s2, 0x7fff			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7
	; GFX9-NEXT: s_and_b32 s8, s0, 0x7fff			; GFX9-NEXT: s_bfe_u32 s6, s0, 0xf000f
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v4, s3
	; GFX9-NEXT: s_bfe_u32 s3, s0, 0xf000f
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v1
	; GFX9-NEXT: v_mov_b32_e32 v3, s0			; GFX9-NEXT: v_mov_b32_e32 v3, s0
				; GFX9-NEXT: v_rcp_iflag_f32_e32 v5, v1
	; GFX9-NEXT: v_alignbit_b32 v3, s1, v3, 30			; GFX9-NEXT: v_alignbit_b32 v3, s1, v3, 30
	; GFX9-NEXT: s_bfe_u32 s7, s2, 0xf000f			; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30
				; GFX9-NEXT: s_bfe_u32 s3, s2, 0xf000f
	; GFX9-NEXT: v_mul_f32_e32 v5, v4, v5			; GFX9-NEXT: v_mul_f32_e32 v5, v4, v5
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mad_f32 v4, -v5, v1, v4			; GFX9-NEXT: v_mad_f32 v4, -v5, v1, v4
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: v_and_b32_e32 v3, s6, v3			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v1			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, v1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v5, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v5, vcc
	; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v5, v3
	; GFX9-NEXT: v_and_b32_e32 v0, s6, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0x7fff, v0
	; GFX9-NEXT: v_mul_f32_e32 v4, v7, v8			; GFX9-NEXT: v_mul_f32_e32 v4, v7, v8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v0			; GFX9-NEXT: v_cvt_f32_u32_e32 v8, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v5
	; GFX9-NEXT: v_trunc_f32_e32 v4, v4			; GFX9-NEXT: v_trunc_f32_e32 v4, v4
	; GFX9-NEXT: v_mad_f32 v7, -v4, v6, v7			; GFX9-NEXT: v_mad_f32 v7, -v4, v6, v7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, v6			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, v6
	; GFX9-NEXT: v_mul_f32_e32 v6, v8, v9			; GFX9-NEXT: v_mul_f32_e32 v6, v8, v9
	; GFX9-NEXT: v_trunc_f32_e32 v6, v6			; GFX9-NEXT: v_trunc_f32_e32 v6, v6
	; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v6			; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v6
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v4, vcc
	; GFX9-NEXT: v_mad_f32 v6, -v6, v5, v8			; GFX9-NEXT: v_mad_f32 v6, -v6, v5, v8
	; GFX9-NEXT: s_lshr_b32 s1, s0, 15			; GFX9-NEXT: s_lshr_b32 s1, s0, 15
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, v5			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, v5
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, s1			; GFX9-NEXT: v_mul_lo_u32 v4, v4, s1
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s0			; GFX9-NEXT: v_mul_lo_u32 v1, v1, s0
	; GFX9-NEXT: v_mul_lo_u32 v3, v5, v3			; GFX9-NEXT: v_mul_lo_u32 v3, v5, v3
	; GFX9-NEXT: s_lshr_b32 s0, s2, 15			; GFX9-NEXT: s_lshr_b32 s0, s2, 15
	; GFX9-NEXT: v_sub_u32_e32 v4, s0, v4			; GFX9-NEXT: v_sub_u32_e32 v4, s0, v4
	; GFX9-NEXT: v_sub_u32_e32 v5, s2, v1			; GFX9-NEXT: v_sub_u32_e32 v5, s2, v1
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v3			; GFX9-NEXT: v_sub_u32_e32 v0, v0, v3
	; GFX9-NEXT: v_and_b32_e32 v4, s6, v4			; GFX9-NEXT: v_and_b32_e32 v4, 0x7fff, v4
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]
	; GFX9-NEXT: v_and_b32_e32 v3, s6, v5			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v5
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4
	; GFX9-NEXT: v_or_b32_e32 v3, v3, v4			; GFX9-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX9-NEXT: v_or_b32_e32 v0, v3, v0			; GFX9-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[4:5]			; GFX9-NEXT: global_store_dword v2, v0, s[4:5]
	; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4			; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = urem <3 x i15> %x, %y			%r = urem <3 x i15> %x, %y
	▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v1, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mad_f32 v5, -v1, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v1, v4, v5
	; GFX6-NEXT: v_cvt_i32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GFX6-NEXT: s_movk_i32 s0, 0x7fff			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v3, s0, v3
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v2, s0, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 15, v3
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX9-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX9-NEXT: v_or_b32_e32 v0, 1, v0			; GFX9-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, v6, v7			; GFX9-NEXT: v_mul_f32_e32 v1, v6, v7
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_i32_f32_e32 v7, v1			; GFX9-NEXT: v_cvt_i32_f32_e32 v7, v1
	; GFX9-NEXT: v_mad_f32 v1, -v1, v3, v6			; GFX9-NEXT: v_mad_f32 v1, -v1, v3, v6
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v3\|			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, \|v3\|
	; GFX9-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GFX9-NEXT: s_movk_i32 s0, 0x7fff
	; GFX9-NEXT: v_add_u32_e32 v0, v7, v0			; GFX9-NEXT: v_add_u32_e32 v0, v7, v0
	; GFX9-NEXT: v_and_b32_e32 v3, s0, v4			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX9-NEXT: v_and_b32_e32 v4, s0, v5			; GFX9-NEXT: v_and_b32_e32 v4, 0x7fff, v5
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4
	; GFX9-NEXT: v_or_b32_e32 v3, v3, v4			; GFX9-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX9-NEXT: v_or_b32_e32 v0, v3, v0			; GFX9-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[6:7]			; GFX9-NEXT: global_store_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX9-NEXT: global_store_short v2, v0, s[6:7] offset:4			; GFX9-NEXT: global_store_short v2, v0, s[6:7] offset:4
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: srem_v3i15:			; GFX6-LABEL: srem_v3i15:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_bfe_i32 s10, s2, 0xf0000			; GFX6-NEXT: s_bfe_i32 s9, s2, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s10			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s9
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v2, s0
	; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30			; GFX6-NEXT: v_alignbit_b32 v2, s1, v2, 30
	; GFX6-NEXT: s_bfe_i32 s1, s0, 0xf0000			; GFX6-NEXT: s_bfe_i32 s1, s0, 0xf0000
	; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s1			; GFX6-NEXT: v_cvt_f32_i32_e32 v4, s1
	; GFX6-NEXT: s_xor_b32 s1, s10, s1			; GFX6-NEXT: s_xor_b32 s1, s9, s1
	; GFX6-NEXT: s_ashr_i32 s1, s1, 30			; GFX6-NEXT: s_ashr_i32 s1, s1, 30
	; GFX6-NEXT: s_or_b32 s1, s1, 1			; GFX6-NEXT: s_or_b32 s1, s1, 1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX6-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GFX6-NEXT: v_mov_b32_e32 v7, s1			; GFX6-NEXT: v_mov_b32_e32 v7, s1
	; GFX6-NEXT: s_lshr_b32 s9, s0, 15			; GFX6-NEXT: s_lshr_b32 s8, s0, 15
	; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f			; GFX6-NEXT: s_bfe_i32 s1, s2, 0xf000f
	; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6			; GFX6-NEXT: v_mul_f32_e32 v6, v5, v6
	; GFX6-NEXT: v_trunc_f32_e32 v6, v6			; GFX6-NEXT: v_trunc_f32_e32 v6, v6
	; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5			; GFX6-NEXT: v_mad_f32 v5, -v6, v4, v5
	; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6			; GFX6-NEXT: v_cvt_i32_f32_e32 v6, v6
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v5\|, \|v4\|
	; GFX6-NEXT: v_cndmask_b32_e32 v4, 0, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, 0, v7, vcc
	; GFX6-NEXT: v_mov_b32_e32 v0, s2			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v2
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6			; GFX6-NEXT: v_add_i32_e32 v4, vcc, v4, v6
	; GFX6-NEXT: v_mul_lo_u32 v4, v4, s0			; GFX6-NEXT: v_mul_lo_u32 v4, v4, s0
	; GFX6-NEXT: s_bfe_i32 s0, s0, 0xf000f			; GFX6-NEXT: s_bfe_i32 s0, s0, 0xf000f
	; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s0			; GFX6-NEXT: v_cvt_f32_i32_e32 v5, s0
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s1			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, s1
	; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: s_movk_i32 s3, 0x7fff
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_and_b32_e32 v3, s3, v2
	; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s2, v4			; GFX6-NEXT: v_sub_i32_e32 v4, vcc, s2, v4
	; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7			; GFX6-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX6-NEXT: v_trunc_f32_e32 v7, v7
	; GFX6-NEXT: s_xor_b32 s0, s1, s0			; GFX6-NEXT: s_xor_b32 s0, s1, s0
	; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 15
	; GFX6-NEXT: s_ashr_i32 s0, s0, 30			; GFX6-NEXT: s_ashr_i32 s0, s0, 30
				; GFX6-NEXT: v_mul_f32_e32 v7, v6, v7
				; GFX6-NEXT: v_trunc_f32_e32 v7, v7
				; GFX6-NEXT: v_mad_f32 v6, -v7, v5, v6
	; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7			; GFX6-NEXT: v_cvt_i32_f32_e32 v7, v7
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v5\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v6\|, \|v5\|
	; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2			; GFX6-NEXT: v_cvt_f32_i32_e32 v6, v2
				; GFX6-NEXT: v_mov_b32_e32 v0, s2
	; GFX6-NEXT: s_or_b32 s0, s0, 1			; GFX6-NEXT: s_or_b32 s0, s0, 1
				; GFX6-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX6-NEXT: v_mov_b32_e32 v8, s0			; GFX6-NEXT: v_mov_b32_e32 v8, s0
	; GFX6-NEXT: v_and_b32_e32 v1, s3, v0			; GFX6-NEXT: v_and_b32_e32 v1, 0x7fff, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, 0, v8, vcc
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 15
	; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v7			; GFX6-NEXT: v_add_i32_e32 v5, vcc, v5, v7
	; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0			; GFX6-NEXT: v_cvt_f32_i32_e32 v7, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6			; GFX6-NEXT: v_rcp_iflag_f32_e32 v8, v6
	; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2			; GFX6-NEXT: v_xor_b32_e32 v0, v0, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GFX6-NEXT: v_or_b32_e32 v0, 1, v0			; GFX6-NEXT: v_or_b32_e32 v0, 1, v0
	; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8			; GFX6-NEXT: v_mul_f32_e32 v2, v7, v8
	; GFX6-NEXT: v_trunc_f32_e32 v2, v2			; GFX6-NEXT: v_trunc_f32_e32 v2, v2
	; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7			; GFX6-NEXT: v_mad_f32 v7, -v2, v6, v7
	; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|			; GFX6-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|
	; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GFX6-NEXT: v_mul_lo_u32 v5, v5, s9			; GFX6-NEXT: v_mul_lo_u32 v5, v5, s8
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, v3			; GFX6-NEXT: v_mul_lo_u32 v0, v0, v3
	; GFX6-NEXT: s_lshr_b32 s8, s2, 15			; GFX6-NEXT: s_lshr_b32 s3, s2, 15
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s8, v5			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s3, v5
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v0, v1			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v2, s3, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 30
	; GFX6-NEXT: v_and_b32_e32 v3, s3, v4			; GFX6-NEXT: v_and_b32_e32 v3, 0x7fff, v4
	; GFX6-NEXT: v_lshlrev_b32_e32 v2, 15, v2			; GFX6-NEXT: v_lshlrev_b32_e32 v2, 15, v2
	; GFX6-NEXT: v_or_b32_e32 v2, v3, v2			; GFX6-NEXT: v_or_b32_e32 v2, v3, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v2, v0			; GFX6-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX6-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4			; GFX6-NEXT: buffer_store_short v0, off, s[4:7], 0 offset:4
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v3i15:			; GFX9-LABEL: srem_v3i15:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX9-NEXT: s_movk_i32 s8, 0x7fff			; GFX9-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0x34
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_bfe_i32 s6, s2, 0xf0000			; GFX9-NEXT: s_bfe_i32 s1, s2, 0xf0000
	; GFX9-NEXT: v_cvt_f32_i32_e32 v5, s6			; GFX9-NEXT: v_cvt_f32_i32_e32 v5, s1
				; GFX9-NEXT: s_bfe_i32 s0, s6, 0xf0000
				; GFX9-NEXT: v_cvt_f32_i32_e32 v4, s0
				; GFX9-NEXT: s_xor_b32 s0, s1, s0
	; GFX9-NEXT: v_mov_b32_e32 v0, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s6
	; GFX9-NEXT: v_alignbit_b32 v1, s1, v1, 30
	; GFX9-NEXT: s_bfe_i32 s1, s0, 0xf0000
	; GFX9-NEXT: v_cvt_f32_i32_e32 v4, s1
	; GFX9-NEXT: s_xor_b32 s1, s6, s1
	; GFX9-NEXT: s_ashr_i32 s1, s1, 30
	; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v4			; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GFX9-NEXT: s_lshr_b32 s3, s2, 15			; GFX9-NEXT: s_ashr_i32 s0, s0, 30
	; GFX9-NEXT: s_lshr_b32 s9, s0, 15			; GFX9-NEXT: s_lshr_b32 s8, s2, 15
	; GFX9-NEXT: s_or_b32 s1, s1, 1			; GFX9-NEXT: v_alignbit_b32 v0, s3, v0, 30
	; GFX9-NEXT: v_mul_f32_e32 v6, v5, v6			; GFX9-NEXT: v_mul_f32_e32 v6, v5, v6
	; GFX9-NEXT: v_trunc_f32_e32 v6, v6			; GFX9-NEXT: v_trunc_f32_e32 v6, v6
	; GFX9-NEXT: v_mad_f32 v5, -v6, v4, v5			; GFX9-NEXT: v_mad_f32 v5, -v6, v4, v5
	; GFX9-NEXT: v_cvt_i32_f32_e32 v6, v6			; GFX9-NEXT: v_cvt_i32_f32_e32 v6, v6
	; GFX9-NEXT: v_cmp_ge_f32_e64 s[6:7], \|v5\|, \|v4\|			; GFX9-NEXT: v_alignbit_b32 v1, s7, v1, 30
	; GFX9-NEXT: s_and_b64 s[6:7], s[6:7], exec			; GFX9-NEXT: s_lshr_b32 s3, s6, 15
	; GFX9-NEXT: s_cselect_b32 s1, s1, 0			; GFX9-NEXT: s_or_b32 s7, s0, 1
	; GFX9-NEXT: v_add_u32_e32 v4, s1, v6			; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v5\|, \|v4\|
	; GFX9-NEXT: s_bfe_i32 s1, s0, 0xf000f			; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GFX9-NEXT: v_cvt_f32_i32_e32 v5, s1			; GFX9-NEXT: s_cselect_b32 s0, s7, 0
	; GFX9-NEXT: v_mul_lo_u32 v4, v4, s0			; GFX9-NEXT: v_add_u32_e32 v4, s0, v6
	; GFX9-NEXT: s_bfe_i32 s0, s2, 0xf000f			; GFX9-NEXT: s_bfe_i32 s0, s6, 0xf000f
	; GFX9-NEXT: v_cvt_f32_i32_e32 v6, s0			; GFX9-NEXT: v_cvt_f32_i32_e32 v5, s0
				; GFX9-NEXT: s_bfe_i32 s1, s2, 0xf000f
				; GFX9-NEXT: v_cvt_f32_i32_e32 v6, s1
				; GFX9-NEXT: s_xor_b32 s0, s1, s0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v5			; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v5
	; GFX9-NEXT: s_xor_b32 s0, s0, s1			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v1
	; GFX9-NEXT: v_and_b32_e32 v3, s8, v1
	; GFX9-NEXT: s_ashr_i32 s0, s0, 30			; GFX9-NEXT: s_ashr_i32 s0, s0, 30
				; GFX9-NEXT: v_bfe_i32 v1, v1, 0, 15
	; GFX9-NEXT: v_mul_f32_e32 v7, v6, v7			; GFX9-NEXT: v_mul_f32_e32 v7, v6, v7
	; GFX9-NEXT: v_trunc_f32_e32 v7, v7			; GFX9-NEXT: v_trunc_f32_e32 v7, v7
	; GFX9-NEXT: v_mad_f32 v6, -v7, v5, v6			; GFX9-NEXT: v_mad_f32 v6, -v7, v5, v6
	; GFX9-NEXT: v_cvt_i32_f32_e32 v7, v7			; GFX9-NEXT: v_cvt_i32_f32_e32 v7, v7
	; GFX9-NEXT: v_bfe_i32 v1, v1, 0, 15			; GFX9-NEXT: v_mul_lo_u32 v4, v4, s6
	; GFX9-NEXT: s_or_b32 s6, s0, 1			; GFX9-NEXT: s_or_b32 s6, s0, 1
	; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v6\|, \|v5\|			; GFX9-NEXT: v_cmp_ge_f32_e64 s[0:1], \|v6\|, \|v5\|
	; GFX9-NEXT: v_cvt_f32_i32_e32 v6, v1			; GFX9-NEXT: v_cvt_f32_i32_e32 v6, v1
	; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec			; GFX9-NEXT: s_and_b64 s[0:1], s[0:1], exec
	; GFX9-NEXT: s_cselect_b32 s0, s6, 0			; GFX9-NEXT: s_cselect_b32 s0, s6, 0
	; GFX9-NEXT: v_add_u32_e32 v5, s0, v7			; GFX9-NEXT: v_add_u32_e32 v5, s0, v7
	; GFX9-NEXT: v_bfe_i32 v7, v0, 0, 15			; GFX9-NEXT: v_bfe_i32 v7, v0, 0, 15
	; GFX9-NEXT: v_cvt_f32_i32_e32 v8, v7			; GFX9-NEXT: v_cvt_f32_i32_e32 v8, v7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v6			; GFX9-NEXT: v_rcp_iflag_f32_e32 v9, v6
	; GFX9-NEXT: v_xor_b32_e32 v1, v7, v1			; GFX9-NEXT: v_xor_b32_e32 v1, v7, v1
	; GFX9-NEXT: v_ashrrev_i32_e32 v1, 30, v1			; GFX9-NEXT: v_ashrrev_i32_e32 v1, 30, v1
	; GFX9-NEXT: v_or_b32_e32 v1, 1, v1			; GFX9-NEXT: v_or_b32_e32 v1, 1, v1
	; GFX9-NEXT: v_mul_f32_e32 v7, v8, v9			; GFX9-NEXT: v_mul_f32_e32 v7, v8, v9
	; GFX9-NEXT: v_trunc_f32_e32 v7, v7			; GFX9-NEXT: v_trunc_f32_e32 v7, v7
	; GFX9-NEXT: v_cvt_i32_f32_e32 v9, v7			; GFX9-NEXT: v_cvt_i32_f32_e32 v9, v7
	; GFX9-NEXT: v_mad_f32 v7, -v7, v6, v8			; GFX9-NEXT: v_mad_f32 v7, -v7, v6, v8
	; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|			; GFX9-NEXT: v_cmp_ge_f32_e64 vcc, \|v7\|, \|v6\|
	; GFX9-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, 0, v1, vcc
	; GFX9-NEXT: v_mul_lo_u32 v5, v5, s9			; GFX9-NEXT: v_mul_lo_u32 v5, v5, s3
	; GFX9-NEXT: v_add_u32_e32 v1, v9, v1			; GFX9-NEXT: v_add_u32_e32 v1, v9, v1
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, v3			; GFX9-NEXT: v_mul_lo_u32 v1, v1, v3
	; GFX9-NEXT: v_and_b32_e32 v0, s8, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0x7fff, v0
	; GFX9-NEXT: v_sub_u32_e32 v3, s2, v4			; GFX9-NEXT: v_sub_u32_e32 v3, s2, v4
	; GFX9-NEXT: v_sub_u32_e32 v4, s3, v5			; GFX9-NEXT: v_sub_u32_e32 v4, s8, v5
	; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1			; GFX9-NEXT: v_sub_u32_e32 v0, v0, v1
	; GFX9-NEXT: v_and_b32_e32 v4, s8, v4			; GFX9-NEXT: v_and_b32_e32 v4, 0x7fff, v4
	; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]			; GFX9-NEXT: v_lshlrev_b64 v[0:1], 30, v[0:1]
	; GFX9-NEXT: v_and_b32_e32 v3, s8, v3			; GFX9-NEXT: v_and_b32_e32 v3, 0x7fff, v3
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 15, v4
	; GFX9-NEXT: v_or_b32_e32 v3, v3, v4			; GFX9-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX9-NEXT: v_or_b32_e32 v0, v3, v0			; GFX9-NEXT: v_or_b32_e32 v0, v3, v0
	; GFX9-NEXT: global_store_dword v2, v0, s[4:5]			; GFX9-NEXT: global_store_dword v2, v0, s[4:5]
	; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1			; GFX9-NEXT: v_and_b32_e32 v0, 0x1fff, v1
	; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4			; GFX9-NEXT: global_store_short v2, v0, s[4:5] offset:4
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%r = srem <3 x i15> %x, %y			%r = srem <3 x i15> %x, %y
	▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP64:%.*]] = insertelement <2 x i32> [[TMP32]], i32 [[TMP63]], i64 1			; CHECK-NEXT: [[TMP64:%.*]] = insertelement <2 x i32> [[TMP32]], i32 [[TMP63]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP64]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP64]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: udiv_v2i32_pow2_shl_denom:			; GFX6-LABEL: udiv_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s0, 0x4f7ffffe
	; GFX6-NEXT: s_mov_b32 s11, 0xf000			; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: s_mov_b32 s10, -1			; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s3, 0x1000, s7			; GFX6-NEXT: s_lshl_b32 s3, 0x1000, s7
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s3
				; GFX6-NEXT: s_sub_i32 s0, 0, s2
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_f32_e32 v0, s0, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s0, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: s_sub_i32 s0, 0, s2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, s0, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s0, v0
	; GFX6-NEXT: s_sub_i32 s0, 0, s3			; GFX6-NEXT: s_sub_i32 s0, 0, s3
	; GFX6-NEXT: v_mul_lo_u32 v3, s0, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s0, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	Show All 20 Lines
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s3, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:			; GFX9-LABEL: udiv_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s6
	; GFX9-NEXT: s_lshl_b32 s7, 0x1000, s7			; GFX9-NEXT: s_lshl_b32 s7, 0x1000, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s7
				; GFX9-NEXT: s_sub_i32 s2, 0, s6
	; GFX9-NEXT: s_sub_i32 s3, 0, s7			; GFX9-NEXT: s_sub_i32 s3, 0, s7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s2, 0, s6
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s3, v1
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v3, v0, s6			; GFX9-NEXT: v_mul_lo_u32 v3, v0, s6
	; GFX9-NEXT: v_mul_lo_u32 v4, v1, s7			; GFX9-NEXT: v_mul_lo_u32 v4, v1, s7
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
	; GFX9-NEXT: v_add_u32_e32 v6, 1, v1			; GFX9-NEXT: v_add_u32_e32 v6, 1, v1
	; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s4, v3
	; GFX9-NEXT: v_sub_u32_e32 v4, s5, v4			; GFX9-NEXT: v_sub_u32_e32 v4, s5, v4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s6, v3			; GFX9-NEXT: v_subrev_u32_e32 v5, s6, v3
	; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s7, v4			; GFX9-NEXT: v_cmp_le_u32_e64 s[0:1], s7, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v1, v1, v6, s[0:1]
	; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v4			; GFX9-NEXT: v_subrev_u32_e32 v6, s7, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0			; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
				; GFX9-NEXT: v_cndmask_b32_e64 v4, v4, v6, s[0:1]
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v4, v6, s[0:1]
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v3, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s7, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = udiv <2 x i32> %x, %shl.y			%r = udiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP59:%.*]] = select i1 [[TMP57]], i32 [[TMP58]], i32 [[TMP56]]			; CHECK-NEXT: [[TMP59:%.*]] = select i1 [[TMP57]], i32 [[TMP58]], i32 [[TMP56]]
	; CHECK-NEXT: [[TMP60:%.*]] = insertelement <2 x i32> [[TMP30]], i32 [[TMP59]], i64 1			; CHECK-NEXT: [[TMP60:%.*]] = insertelement <2 x i32> [[TMP30]], i32 [[TMP59]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP60]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP60]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: urem_v2i32_pow2_shl_denom:			; GFX6-LABEL: urem_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s6, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s6, 0x1000, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7			; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7
				; GFX6-NEXT: s_sub_i32 s2, 0, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s2, 0, s6
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_sub_i32 s2, 0, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	Show All 21 Lines
	; GFX9-LABEL: urem_v2i32_pow2_shl_denom:			; GFX9-LABEL: urem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6
	; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7			; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX9-NEXT: s_mov_b32 s6, 0x4f7ffffe			; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: s_sub_i32 s7, 0, s2			; GFX9-NEXT: s_sub_i32 s7, 0, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mul_f32_e32 v0, s6, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s6, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_sub_i32 s6, 0, s3
	; GFX9-NEXT: v_mul_lo_u32 v2, s6, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s6, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s7, v1
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP82:%.*]] = insertelement <2 x i32> [[TMP41]], i32 [[TMP81]], i64 1			; CHECK-NEXT: [[TMP82:%.*]] = insertelement <2 x i32> [[TMP41]], i32 [[TMP81]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP82]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP82]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v2i32_pow2_shl_denom:			; GFX6-LABEL: sdiv_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s13, 0x4f7ffffe
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s10			; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s10
	; GFX6-NEXT: s_ashr_i32 s1, s0, 31			; GFX6-NEXT: s_ashr_i32 s1, s0, 31
	; GFX6-NEXT: s_add_i32 s0, s0, s1			; GFX6-NEXT: s_add_i32 s0, s0, s1
	; GFX6-NEXT: s_xor_b32 s2, s0, s1			; GFX6-NEXT: s_xor_b32 s2, s0, s1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s11			; GFX6-NEXT: s_lshl_b32 s0, 0x1000, s11
	; GFX6-NEXT: s_sub_i32 s11, 0, s2			; GFX6-NEXT: s_ashr_i32 s3, s0, 31
	; GFX6-NEXT: s_ashr_i32 s10, s0, 31			; GFX6-NEXT: s_add_i32 s0, s0, s3
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_add_i32 s0, s0, s10			; GFX6-NEXT: s_sub_i32 s11, 0, s2
	; GFX6-NEXT: s_ashr_i32 s3, s8, 31			; GFX6-NEXT: s_xor_b32 s10, s0, s3
	; GFX6-NEXT: s_add_i32 s8, s8, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s10
	; GFX6-NEXT: v_mul_f32_e32 v0, s13, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s12, s3, s1			; GFX6-NEXT: s_ashr_i32 s0, s8, 31
	; GFX6-NEXT: v_mul_lo_u32 v1, s11, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: s_xor_b32 s11, s0, s10			; GFX6-NEXT: s_add_i32 s8, s8, s0
	; GFX6-NEXT: v_cvt_f32_u32_e32 v2, s11			; GFX6-NEXT: v_mul_lo_u32 v2, s11, v0
	; GFX6-NEXT: s_xor_b32 s0, s8, s3			; GFX6-NEXT: s_xor_b32 s8, s8, s0
	; GFX6-NEXT: v_mul_hi_u32 v1, v0, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: s_sub_i32 s3, 0, s11
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v2, v2
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v1, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s13, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_lo_u32 v2, v0, s2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v0			; GFX6-NEXT: s_xor_b32 s11, s0, s1
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s0, v2			; GFX6-NEXT: s_sub_i32 s0, 0, s10
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v3, s[0:1]			; GFX6-NEXT: v_mul_hi_u32 v0, s8, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s2, v2			; GFX6-NEXT: v_mul_lo_u32 v2, s0, v1
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GFX6-NEXT: v_mul_lo_u32 v3, v0, s2
	; GFX6-NEXT: v_mul_lo_u32 v3, s3, v1			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0
				; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
				; GFX6-NEXT: v_sub_i32_e32 v3, vcc, s8, v3
				; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s2, v3
				; GFX6-NEXT: v_cndmask_b32_e64 v0, v0, v4, s[0:1]
				; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s2, v3
				; GFX6-NEXT: v_cndmask_b32_e64 v3, v3, v4, s[0:1]
	; GFX6-NEXT: s_ashr_i32 s0, s9, 31			; GFX6-NEXT: s_ashr_i32 s0, s9, 31
	; GFX6-NEXT: s_add_i32 s1, s9, s0			; GFX6-NEXT: s_add_i32 s1, s9, s0
	; GFX6-NEXT: s_xor_b32 s1, s1, s0			; GFX6-NEXT: s_xor_b32 s1, s1, s0
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s1, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v2			; GFX6-NEXT: v_add_i32_e32 v4, vcc, 1, v0
				; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s2, v3
				; GFX6-NEXT: v_mul_lo_u32 v2, v1, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX6-NEXT: s_xor_b32 s2, s0, s10			; GFX6-NEXT: s_xor_b32 s2, s0, s3
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, s11
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; GFX6-NEXT: v_xor_b32_e32 v0, s12, v0
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, s1, v2
	; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s11, v2			; GFX6-NEXT: v_cmp_le_u32_e64 s[0:1], s10, v2
				; GFX6-NEXT: v_xor_b32_e32 v0, s11, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v1, v1, v3, s[0:1]
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s11, v2			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s10, v2
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s12, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s11, v0
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v2, v3, s[0:1]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1			; GFX6-NEXT: v_add_i32_e32 v3, vcc, 1, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s10, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v1, s2, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s2, v1
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s2, v1			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s2, v1
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i32_pow2_shl_denom:			; GFX9-LABEL: sdiv_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s11, 0x4f7ffffe
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s0, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s0, 0x1000, s6
	; GFX9-NEXT: s_ashr_i32 s1, s0, 31			; GFX9-NEXT: s_ashr_i32 s1, s0, 31
	; GFX9-NEXT: s_add_i32 s0, s0, s1			; GFX9-NEXT: s_add_i32 s0, s0, s1
	; GFX9-NEXT: s_xor_b32 s0, s0, s1			; GFX9-NEXT: s_xor_b32 s0, s0, s1
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s0			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s0
	; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s7			; GFX9-NEXT: s_lshl_b32 s6, 0x1000, s7
	; GFX9-NEXT: s_ashr_i32 s9, s6, 31			; GFX9-NEXT: s_ashr_i32 s8, s6, 31
	; GFX9-NEXT: s_add_i32 s6, s6, s9			; GFX9-NEXT: s_add_i32 s6, s6, s8
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_xor_b32 s6, s6, s9			; GFX9-NEXT: s_xor_b32 s6, s6, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s6			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s6
	; GFX9-NEXT: s_sub_i32 s10, 0, s0			; GFX9-NEXT: s_sub_i32 s10, 0, s0
	; GFX9-NEXT: v_mul_f32_e32 v0, s11, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: s_ashr_i32 s7, s4, 31			; GFX9-NEXT: s_ashr_i32 s7, s4, 31
	; GFX9-NEXT: s_add_i32 s4, s4, s7			; GFX9-NEXT: s_add_i32 s4, s4, s7
	; GFX9-NEXT: v_mul_lo_u32 v3, s10, v0			; GFX9-NEXT: v_mul_lo_u32 v3, s10, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s11, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: s_xor_b32 s4, s4, s7
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
	; GFX9-NEXT: s_sub_i32 s10, 0, s6			; GFX9-NEXT: s_sub_i32 s10, 0, s6
	; GFX9-NEXT: s_ashr_i32 s8, s5, 31			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v3
	; GFX9-NEXT: s_add_i32 s5, s5, s8			; GFX9-NEXT: s_xor_b32 s4, s4, s7
				; GFX9-NEXT: v_mul_lo_u32 v4, s10, v1
				; GFX9-NEXT: s_ashr_i32 s9, s5, 31
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v3			; GFX9-NEXT: v_add_u32_e32 v0, v0, v3
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: v_mul_lo_u32 v3, s10, v1			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v4
	; GFX9-NEXT: s_xor_b32 s5, s5, s8			; GFX9-NEXT: s_add_i32 s5, s5, s9
	; GFX9-NEXT: s_xor_b32 s1, s7, s1			; GFX9-NEXT: s_xor_b32 s5, s5, s9
	; GFX9-NEXT: v_mul_lo_u32 v4, v0, s0			; GFX9-NEXT: v_mul_lo_u32 v4, v0, s0
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v5, 1, v0
	; GFX9-NEXT: v_sub_u32_e32 v4, s4, v4
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v4
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v5, s0, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-NEXT: v_add_u32_e32 v3, 1, v0			; GFX9-NEXT: v_add_u32_e32 v3, 1, v0
				; GFX9-NEXT: v_sub_u32_e32 v4, s4, v4
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
				; GFX9-NEXT: v_subrev_u32_e32 v3, s0, v4
				; GFX9-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
				; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s0, v3
	; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6			; GFX9-NEXT: v_mul_lo_u32 v3, v1, s6
				; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
				; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: s_xor_b32 s0, s8, s9
	; GFX9-NEXT: v_xor_b32_e32 v0, s1, v0
	; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3			; GFX9-NEXT: v_sub_u32_e32 v3, s5, v3
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3			; GFX9-NEXT: v_subrev_u32_e32 v4, s6, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX9-NEXT: v_add_u32_e32 v4, 1, v1			; GFX9-NEXT: v_add_u32_e32 v4, 1, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s6, v3
				; GFX9-NEXT: s_xor_b32 s1, s7, s1
				; GFX9-NEXT: s_xor_b32 s0, s9, s8
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
				; GFX9-NEXT: v_xor_b32_e32 v0, s1, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s0, v1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s1, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s1, v0
	; GFX9-NEXT: v_subrev_u32_e32 v1, s0, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s0, v1
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = sdiv <2 x i32> %x, %shl.y			%r = sdiv <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	▲ Show 20 Lines • Show All 310 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP76:%.*]] = insertelement <2 x i32> [[TMP38]], i32 [[TMP75]], i64 1			; CHECK-NEXT: [[TMP76:%.*]] = insertelement <2 x i32> [[TMP38]], i32 [[TMP75]], i64 1
	; CHECK-NEXT: store <2 x i32> [[TMP76]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8			; CHECK-NEXT: store <2 x i32> [[TMP76]], <2 x i32> addrspace(1)* [[OUT:%.*]], align 8
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_v2i32_pow2_shl_denom:			; GFX6-LABEL: srem_v2i32_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s9, 0x4f7ffffe
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6			; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s6
	; GFX6-NEXT: s_ashr_i32 s3, s2, 31			; GFX6-NEXT: s_ashr_i32 s3, s2, 31
	; GFX6-NEXT: s_add_i32 s2, s2, s3			; GFX6-NEXT: s_add_i32 s2, s2, s3
	; GFX6-NEXT: s_xor_b32 s6, s2, s3			; GFX6-NEXT: s_xor_b32 s6, s2, s3
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX6-NEXT: s_lshl_b32 s2, 0x1000, s7			; GFX6-NEXT: s_lshl_b32 s7, 0x1000, s7
	; GFX6-NEXT: s_ashr_i32 s7, s2, 31			; GFX6-NEXT: s_ashr_i32 s8, s7, 31
	; GFX6-NEXT: s_add_i32 s2, s2, s7			; GFX6-NEXT: s_add_i32 s7, s7, s8
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: s_xor_b32 s7, s2, s7			; GFX6-NEXT: s_xor_b32 s7, s7, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7
	; GFX6-NEXT: s_sub_i32 s2, 0, s6			; GFX6-NEXT: s_sub_i32 s9, 0, s6
	; GFX6-NEXT: v_mul_f32_e32 v0, s9, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: s_ashr_i32 s8, s4, 31			; GFX6-NEXT: s_ashr_i32 s8, s4, 31
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_add_i32 s4, s4, s8
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s9, v0
	; GFX6-NEXT: s_add_i32 s2, s4, s8			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_mul_f32_e32 v1, s9, v1			; GFX6-NEXT: s_xor_b32 s4, s4, s8
	; GFX6-NEXT: s_xor_b32 s4, s2, s8
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: s_ashr_i32 s9, s5, 31			; GFX6-NEXT: s_sub_i32 s9, 0, s7
				; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s9, v1
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_ashr_i32 s9, s5, 31
				; GFX6-NEXT: s_add_i32 s5, s5, s9
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v1, v2
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: s_add_i32 s4, s5, s9
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: s_xor_b32 s4, s4, s9			; GFX6-NEXT: s_xor_b32 s4, s5, s9
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s4, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s4, v1
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0			; GFX6-NEXT: v_xor_b32_e32 v0, s8, v0
	; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v0, vcc, s8, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s4, v1
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_xor_b32_e32 v1, s9, v1			; GFX6-NEXT: v_xor_b32_e32 v1, s9, v1
	; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v1, vcc, s9, v1
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i32_pow2_shl_denom:			; GFX9-LABEL: srem_v2i32_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX9-NEXT: s_mov_b32 s9, 0x4f7ffffe
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6			; GFX9-NEXT: s_lshl_b32 s3, 0x1000, s6
	; GFX9-NEXT: s_ashr_i32 s6, s3, 31			; GFX9-NEXT: s_ashr_i32 s6, s3, 31
	; GFX9-NEXT: s_add_i32 s3, s3, s6			; GFX9-NEXT: s_add_i32 s3, s3, s6
	; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7			; GFX9-NEXT: s_lshl_b32 s2, 0x1000, s7
	; GFX9-NEXT: s_xor_b32 s3, s3, s6			; GFX9-NEXT: s_xor_b32 s3, s3, s6
	; GFX9-NEXT: s_ashr_i32 s7, s2, 31			; GFX9-NEXT: s_ashr_i32 s7, s2, 31
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s3
	; GFX9-NEXT: s_add_i32 s2, s2, s7			; GFX9-NEXT: s_add_i32 s2, s2, s7
	; GFX9-NEXT: s_xor_b32 s2, s2, s7			; GFX9-NEXT: s_xor_b32 s2, s2, s7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s2
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX9-NEXT: s_sub_i32 s8, 0, s3			; GFX9-NEXT: s_sub_i32 s8, 0, s3
	; GFX9-NEXT: s_ashr_i32 s6, s4, 31			; GFX9-NEXT: s_ashr_i32 s6, s4, 31
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v0, s9, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: s_add_i32 s4, s4, s6			; GFX9-NEXT: s_add_i32 s4, s4, s6
	; GFX9-NEXT: v_mul_f32_e32 v1, s9, v1			; GFX9-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_lo_u32 v2, s8, v0			; GFX9-NEXT: v_mul_lo_u32 v2, s8, v0
	; GFX9-NEXT: s_sub_i32 s8, 0, s2			; GFX9-NEXT: s_sub_i32 s8, 0, s2
	; GFX9-NEXT: s_xor_b32 s4, s4, s6			; GFX9-NEXT: s_xor_b32 s4, s4, s6
	; GFX9-NEXT: v_mul_lo_u32 v3, s8, v1			; GFX9-NEXT: v_mul_lo_u32 v3, s8, v1
	; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX9-NEXT: s_ashr_i32 s7, s5, 31			; GFX9-NEXT: s_ashr_i32 s7, s5, 31
	; GFX9-NEXT: s_add_i32 s5, s5, s7			; GFX9-NEXT: s_add_i32 s5, s5, s7
	; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX9-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v2			; GFX9-NEXT: v_add_u32_e32 v0, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX9-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX9-NEXT: s_xor_b32 s5, s5, s7			; GFX9-NEXT: s_xor_b32 s5, s5, s7
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v3			; GFX9-NEXT: v_add_u32_e32 v1, v1, v3
	; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX9-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3			; GFX9-NEXT: v_mul_lo_u32 v0, v0, s3
				; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: v_mul_lo_u32 v1, v1, s2			; GFX9-NEXT: v_mul_lo_u32 v1, v1, s2
	; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s4, v0
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0			; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0			; GFX9-NEXT: v_subrev_u32_e32 v3, s3, v0
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s3, v0
	; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1			; GFX9-NEXT: v_sub_u32_e32 v1, s5, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1			; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1			; GFX9-NEXT: v_subrev_u32_e32 v3, s2, v1
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s2, v1
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX9-NEXT: v_xor_b32_e32 v1, s7, v1			; GFX9-NEXT: v_xor_b32_e32 v1, s7, v1
	; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0			; GFX9-NEXT: v_subrev_u32_e32 v0, s6, v0
	; GFX9-NEXT: v_subrev_u32_e32 v1, s7, v1			; GFX9-NEXT: v_subrev_u32_e32 v1, s7, v1
				; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]			; GFX9-NEXT: global_store_dwordx2 v2, v[0:1], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y			%shl.y = shl <2 x i32> <i32 4096, i32 4096>, %y
	%r = srem <2 x i32> %x, %shl.y			%r = srem <2 x i32> %x, %shl.y
	store <2 x i32> %r, <2 x i32> addrspace(1)* %out			store <2 x i32> %r, <2 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 1,989 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1			; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1
	; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: sdiv_v2i64_pow2_shl_denom:			; GFX6-LABEL: sdiv_v2i64_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b64 s[12:13], 0x1000			; GFX6-NEXT: s_mov_b64 s[12:13], 0x1000
	; GFX6-NEXT: s_mov_b32 s18, 0x4f800000
	; GFX6-NEXT: s_mov_b32 s19, 0x5f7ffffc
	; GFX6-NEXT: s_mov_b32 s20, 0x2f800000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_lshl_b64 s[8:9], s[12:13], s8			; GFX6-NEXT: s_lshl_b64 s[8:9], s[12:13], s8
	; GFX6-NEXT: s_lshl_b64 s[2:3], s[12:13], s10			; GFX6-NEXT: s_lshl_b64 s[2:3], s[12:13], s10
	; GFX6-NEXT: s_ashr_i32 s14, s9, 31			; GFX6-NEXT: s_ashr_i32 s14, s9, 31
	; GFX6-NEXT: s_add_u32 s8, s8, s14			; GFX6-NEXT: s_add_u32 s8, s8, s14
	; GFX6-NEXT: s_mov_b32 s15, s14			; GFX6-NEXT: s_mov_b32 s15, s14
	; GFX6-NEXT: s_addc_u32 s9, s9, s14			; GFX6-NEXT: s_addc_u32 s9, s9, s14
	; GFX6-NEXT: s_xor_b64 s[12:13], s[8:9], s[14:15]			; GFX6-NEXT: s_xor_b64 s[12:13], s[8:9], s[14:15]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s12			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s13			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s13
	; GFX6-NEXT: s_mov_b32 s21, 0xcf800000
	; GFX6-NEXT: s_sub_u32 s10, 0, s12			; GFX6-NEXT: s_sub_u32 s10, 0, s12
	; GFX6-NEXT: s_subb_u32 s11, 0, s13			; GFX6-NEXT: s_subb_u32 s11, 0, s13
	; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_ashr_i32 s16, s5, 31			; GFX6-NEXT: s_ashr_i32 s16, s5, 31
				; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
				; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GFX6-NEXT: s_add_u32 s0, s4, s16			; GFX6-NEXT: s_add_u32 s0, s4, s16
	; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0			; GFX6-NEXT: s_mov_b32 s17, s16
	; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s17, s16
	; GFX6-NEXT: s_addc_u32 s1, s5, s16			; GFX6-NEXT: s_addc_u32 s1, s5, s16
				; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s11, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s10, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s10, v0
	; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[16:17]			; GFX6-NEXT: s_xor_b64 s[14:15], s[16:17], s[14:15]
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2
				; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
				; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5
	; GFX6-NEXT: s_xor_b64 s[14:15], s[16:17], s[14:15]
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s10, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s10, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s11, v0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s2			; GFX6-NEXT: v_cvt_f32_u32_e32 v8, s2
	; GFX6-NEXT: v_cvt_f32_u32_e32 v9, s3			; GFX6-NEXT: v_cvt_f32_u32_e32 v9, s3
	; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc			; GFX6-NEXT: v_subb_u32_e32 v2, vcc, v6, v2, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s13, v2			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
	; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s12, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s12, v3
	; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2
	; GFX6-NEXT: v_mac_f32_e32 v8, s18, v9			; GFX6-NEXT: v_mac_f32_e32 v8, 0x4f800000, v9
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v6, v3, vcc
	; GFX6-NEXT: v_rcp_f32_e32 v3, v8			; GFX6-NEXT: v_rcp_f32_e32 v3, v8
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v2
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v7, v5, s[0:1]
	; GFX6-NEXT: v_mul_f32_e32 v3, s19, v3			; GFX6-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v3
	; GFX6-NEXT: v_mul_f32_e32 v4, s20, v3			; GFX6-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mac_f32_e32 v3, s21, v4			; GFX6-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_sub_u32 s0, 0, s2			; GFX6-NEXT: s_sub_u32 s0, 0, s2
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_subb_u32 s1, 0, s3			; GFX6-NEXT: s_subb_u32 s1, 0, s3
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:			; GFX9-LABEL: sdiv_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX9-NEXT: s_mov_b32 s16, 0x4f800000
	; GFX9-NEXT: s_mov_b32 s17, 0x5f7ffffc
	; GFX9-NEXT: s_mov_b32 s18, 0x2f800000
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10			; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10
	; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8			; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8
	; GFX9-NEXT: s_ashr_i32 s12, s3, 31			; GFX9-NEXT: s_ashr_i32 s12, s3, 31
	; GFX9-NEXT: s_add_u32 s2, s2, s12			; GFX9-NEXT: s_add_u32 s2, s2, s12
	; GFX9-NEXT: s_mov_b32 s13, s12			; GFX9-NEXT: s_mov_b32 s13, s12
	; GFX9-NEXT: s_addc_u32 s3, s3, s12			; GFX9-NEXT: s_addc_u32 s3, s3, s12
	; GFX9-NEXT: s_xor_b64 s[8:9], s[2:3], s[12:13]			; GFX9-NEXT: s_xor_b64 s[8:9], s[2:3], s[12:13]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX9-NEXT: s_mov_b32 s19, 0xcf800000
	; GFX9-NEXT: s_sub_u32 s2, 0, s8			; GFX9-NEXT: s_sub_u32 s2, 0, s8
	; GFX9-NEXT: s_subb_u32 s3, 0, s9			; GFX9-NEXT: s_subb_u32 s3, 0, s9
	; GFX9-NEXT: v_mac_f32_e32 v0, s16, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_ashr_i32 s14, s5, 31			; GFX9-NEXT: s_ashr_i32 s14, s5, 31
				; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
				; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s15, s14			; GFX9-NEXT: s_mov_b32 s15, s14
	; GFX9-NEXT: v_mul_f32_e32 v0, s17, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s18, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, s19, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0			; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: v_add_u32_e32 v2, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
				; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_cvt_f32_u32_e32 v9, s10			; GFX9-NEXT: v_cvt_f32_u32_e32 v9, s10
	; GFX9-NEXT: v_cvt_f32_u32_e32 v10, s11			; GFX9-NEXT: v_cvt_f32_u32_e32 v10, s11
	; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v3, vcc, v7, v3, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v7, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s8, v4
	; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s9, v3
	; GFX9-NEXT: v_mac_f32_e32 v9, s16, v10			; GFX9-NEXT: v_mac_f32_e32 v9, 0x4f800000, v10
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v7, v4, vcc
	; GFX9-NEXT: v_rcp_f32_e32 v4, v9			; GFX9-NEXT: v_rcp_f32_e32 v4, v9
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v8, v6, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v8, v6, s[0:1]
	; GFX9-NEXT: v_mul_f32_e32 v4, s17, v4			; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v4
	; GFX9-NEXT: v_mul_f32_e32 v5, s18, v4			; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, s19, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: s_sub_u32 s0, 0, s10			; GFX9-NEXT: s_sub_u32 s0, 0, s10
	; GFX9-NEXT: s_subb_u32 s1, 0, s11			; GFX9-NEXT: s_subb_u32 s1, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4			; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	▲ Show 20 Lines • Show All 757 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1			; CHECK-NEXT: [[TMP8:%.*]] = insertelement <2 x i64> [[TMP4]], i64 [[TMP7]], i64 1
	; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16			; CHECK-NEXT: store <2 x i64> [[TMP8]], <2 x i64> addrspace(1)* [[OUT:%.*]], align 16
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; GFX6-LABEL: srem_v2i64_pow2_shl_denom:			; GFX6-LABEL: srem_v2i64_pow2_shl_denom:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX6-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX6-NEXT: s_mov_b32 s18, 0x4f800000
	; GFX6-NEXT: s_mov_b32 s19, 0x5f7ffffc
	; GFX6-NEXT: s_mov_b32 s20, 0x2f800000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
				; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: s_lshl_b64 s[14:15], s[2:3], s10			; GFX6-NEXT: s_lshl_b64 s[14:15], s[2:3], s10
	; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s8			; GFX6-NEXT: s_lshl_b64 s[2:3], s[2:3], s8
	; GFX6-NEXT: s_ashr_i32 s8, s3, 31			; GFX6-NEXT: s_ashr_i32 s8, s3, 31
	; GFX6-NEXT: s_add_u32 s2, s2, s8			; GFX6-NEXT: s_add_u32 s2, s2, s8
	; GFX6-NEXT: s_mov_b32 s9, s8			; GFX6-NEXT: s_mov_b32 s9, s8
	; GFX6-NEXT: s_addc_u32 s3, s3, s8			; GFX6-NEXT: s_addc_u32 s3, s3, s8
	; GFX6-NEXT: s_xor_b64 s[16:17], s[2:3], s[8:9]			; GFX6-NEXT: s_xor_b64 s[16:17], s[2:3], s[8:9]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s16			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s16
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s17			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s17
	; GFX6-NEXT: s_mov_b32 s21, 0xcf800000
	; GFX6-NEXT: s_sub_u32 s2, 0, s16			; GFX6-NEXT: s_sub_u32 s2, 0, s16
	; GFX6-NEXT: s_subb_u32 s3, 0, s17			; GFX6-NEXT: s_subb_u32 s3, 0, s17
	; GFX6-NEXT: v_mac_f32_e32 v0, s18, v1
	; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_ashr_i32 s12, s5, 31			; GFX6-NEXT: s_ashr_i32 s12, s5, 31
				; GFX6-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
				; GFX6-NEXT: v_rcp_f32_e32 v0, v0
	; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[8:9], s[0:1], 0x9
	; GFX6-NEXT: s_add_u32 s0, s4, s12			; GFX6-NEXT: s_add_u32 s0, s4, s12
	; GFX6-NEXT: v_mul_f32_e32 v0, s19, v0			; GFX6-NEXT: s_mov_b32 s13, s12
	; GFX6-NEXT: v_mul_f32_e32 v1, s20, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
				; GFX6-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX6-NEXT: v_trunc_f32_e32 v1, v1			; GFX6-NEXT: v_trunc_f32_e32 v1, v1
	; GFX6-NEXT: v_mac_f32_e32 v0, s21, v1			; GFX6-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: s_mov_b32 s13, s12
	; GFX6-NEXT: s_addc_u32 s1, s5, s12			; GFX6-NEXT: s_addc_u32 s1, s5, s12
				; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[12:13]
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX6-NEXT: v_mul_lo_u32 v5, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s2, v0
	; GFX6-NEXT: s_xor_b64 s[4:5], s[0:1], s[12:13]			; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v4			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_mul_lo_u32 v3, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX6-NEXT: v_mul_hi_u32 v4, v0, v5			; GFX6-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v0, v2
				; GFX6-NEXT: v_mul_lo_u32 v6, v1, v4
				; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
				; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v5
				; GFX6-NEXT: v_addc_u32_e32 v5, vcc, 0, v7, vcc
	; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX6-NEXT: v_mul_hi_u32 v7, v1, v2
	; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX6-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v4, v3
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v6, vcc
	; GFX6-NEXT: v_mul_lo_u32 v6, v1, v5
	; GFX6-NEXT: v_mul_hi_u32 v5, v1, v5
	; GFX6-NEXT: s_mov_b32 s11, 0xf000
	; GFX6-NEXT: s_mov_b32 s10, -1
	; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6			; GFX6-NEXT: v_add_i32_e32 v3, vcc, v3, v6
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v4, v5, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, v5, v4, vcc
	; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc			; GFX6-NEXT: v_addc_u32_e32 v4, vcc, 0, v7, vcc
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc			; GFX6-NEXT: v_addc_u32_e32 v3, vcc, 0, v4, vcc
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc			; GFX6-NEXT: v_addc_u32_e32 v1, vcc, v1, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX6-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX6-NEXT: v_mul_lo_u32 v4, s3, v0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: v_mov_b32_e32 v5, s5			; GFX6-NEXT: v_mov_b32_e32 v5, s5
	; GFX6-NEXT: s_mov_b32 s3, s2			; GFX6-NEXT: s_mov_b32 s3, s2
	; GFX6-NEXT: s_addc_u32 s5, s15, s2			; GFX6-NEXT: s_addc_u32 s5, s15, s2
	; GFX6-NEXT: s_xor_b64 s[4:5], s[4:5], s[2:3]			; GFX6-NEXT: s_xor_b64 s[4:5], s[4:5], s[2:3]
	; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4			; GFX6-NEXT: v_cvt_f32_u32_e32 v6, s4
	; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s5			; GFX6-NEXT: v_cvt_f32_u32_e32 v7, s5
	; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc			; GFX6-NEXT: v_subb_u32_e32 v1, vcc, v5, v1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s17, v1
	; GFX6-NEXT: v_mac_f32_e32 v6, s18, v7			; GFX6-NEXT: v_mac_f32_e32 v6, 0x4f800000, v7
	; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v5, 0, -1, vcc
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s16, v0
	; GFX6-NEXT: v_rcp_f32_e32 v6, v6			; GFX6-NEXT: v_rcp_f32_e32 v6, v6
	; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc			; GFX6-NEXT: v_cndmask_b32_e64 v8, 0, -1, vcc
	; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v1			; GFX6-NEXT: v_cmp_eq_u32_e32 vcc, s17, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc
	; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_ne_u32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]			; GFX6-NEXT: v_cndmask_b32_e64 v2, v4, v3, s[0:1]
	; GFX6-NEXT: v_mul_f32_e32 v3, s19, v6			; GFX6-NEXT: v_mul_f32_e32 v3, 0x5f7ffffc, v6
	; GFX6-NEXT: v_mul_f32_e32 v4, s20, v3			; GFX6-NEXT: v_mul_f32_e32 v4, 0x2f800000, v3
	; GFX6-NEXT: v_trunc_f32_e32 v4, v4			; GFX6-NEXT: v_trunc_f32_e32 v4, v4
	; GFX6-NEXT: v_mac_f32_e32 v3, s21, v4			; GFX6-NEXT: v_mac_f32_e32 v3, 0xcf800000, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX6-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX6-NEXT: s_sub_u32 s0, 0, s4			; GFX6-NEXT: s_sub_u32 s0, 0, s4
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3			; GFX6-NEXT: v_mul_hi_u32 v2, s0, v3
	; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4			; GFX6-NEXT: v_mul_lo_u32 v5, s0, v4
	; GFX6-NEXT: s_subb_u32 s1, 0, s5			; GFX6-NEXT: s_subb_u32 s1, 0, s5
	; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3			; GFX6-NEXT: v_mul_lo_u32 v6, s1, v3
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: srem_v2i64_pow2_shl_denom:			; GFX9-LABEL: srem_v2i64_pow2_shl_denom:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000			; GFX9-NEXT: s_mov_b64 s[2:3], 0x1000
	; GFX9-NEXT: s_mov_b32 s16, 0x4f800000
	; GFX9-NEXT: s_mov_b32 s17, 0x5f7ffffc
	; GFX9-NEXT: s_mov_b32 s18, 0x2f800000
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10			; GFX9-NEXT: s_lshl_b64 s[10:11], s[2:3], s10
	; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8			; GFX9-NEXT: s_lshl_b64 s[2:3], s[2:3], s8
	; GFX9-NEXT: s_ashr_i32 s8, s3, 31			; GFX9-NEXT: s_ashr_i32 s8, s3, 31
	; GFX9-NEXT: s_add_u32 s2, s2, s8			; GFX9-NEXT: s_add_u32 s2, s2, s8
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: s_addc_u32 s3, s3, s8			; GFX9-NEXT: s_addc_u32 s3, s3, s8
	; GFX9-NEXT: s_xor_b64 s[12:13], s[2:3], s[8:9]			; GFX9-NEXT: s_xor_b64 s[12:13], s[2:3], s[8:9]
	; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12			; GFX9-NEXT: v_cvt_f32_u32_e32 v0, s12
	; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13			; GFX9-NEXT: v_cvt_f32_u32_e32 v1, s13
	; GFX9-NEXT: s_mov_b32 s19, 0xcf800000
	; GFX9-NEXT: s_sub_u32 s2, 0, s12			; GFX9-NEXT: s_sub_u32 s2, 0, s12
	; GFX9-NEXT: s_subb_u32 s3, 0, s13			; GFX9-NEXT: s_subb_u32 s3, 0, s13
	; GFX9-NEXT: v_mac_f32_e32 v0, s16, v1
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_ashr_i32 s8, s5, 31			; GFX9-NEXT: s_ashr_i32 s8, s5, 31
				; GFX9-NEXT: v_mac_f32_e32 v0, 0x4f800000, v1
				; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_mov_b32 s9, s8			; GFX9-NEXT: s_mov_b32 s9, s8
	; GFX9-NEXT: v_mul_f32_e32 v0, s17, v0			; GFX9-NEXT: v_mul_f32_e32 v0, 0x5f7ffffc, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, s18, v0			; GFX9-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; GFX9-NEXT: v_trunc_f32_e32 v1, v1			; GFX9-NEXT: v_trunc_f32_e32 v1, v1
	; GFX9-NEXT: v_mac_f32_e32 v0, s19, v1			; GFX9-NEXT: v_mac_f32_e32 v0, 0xcf800000, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0			; GFX9-NEXT: v_mul_lo_u32 v5, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s2, v0
	; GFX9-NEXT: v_add_u32_e32 v2, v3, v2			; GFX9-NEXT: v_add_u32_e32 v2, v3, v2
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v5			; GFX9-NEXT: v_add_u32_e32 v2, v2, v5
	; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4			; GFX9-NEXT: v_mul_hi_u32 v3, v0, v4
	; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2			; GFX9-NEXT: v_mul_lo_u32 v5, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v6, v0, v2			; GFX9-NEXT: v_mul_hi_u32 v7, v0, v2
	; GFX9-NEXT: v_mul_hi_u32 v7, v1, v2			; GFX9-NEXT: v_mul_hi_u32 v6, v1, v4
	; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2			; GFX9-NEXT: v_mul_lo_u32 v4, v1, v4
				; GFX9-NEXT: v_mul_hi_u32 v8, v1, v2
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v5
	; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v6, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v7, vcc
	; GFX9-NEXT: v_mul_lo_u32 v6, v1, v4			; GFX9-NEXT: v_mul_lo_u32 v2, v1, v2
	; GFX9-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
	; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v6			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v6, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v8, vcc
	; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v7, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2			; GFX9-NEXT: v_add_co_u32_e32 v2, vcc, v3, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v4, vcc
	; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2			; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v2
	; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc			; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v1, v3, vcc
	; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1			; GFX9-NEXT: v_mul_lo_u32 v2, s2, v1
	; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0			; GFX9-NEXT: v_mul_hi_u32 v3, s2, v0
	; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0			; GFX9-NEXT: v_mul_lo_u32 v4, s3, v0
	; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0			; GFX9-NEXT: v_mul_lo_u32 v5, s2, v0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[2:3]			; GFX9-NEXT: s_xor_b64 s[10:11], s[10:11], s[2:3]
	; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7			; GFX9-NEXT: v_cmp_ne_u32_e64 s[0:1], 0, v7
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s10			; GFX9-NEXT: v_cvt_f32_u32_e32 v7, s10
	; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s11			; GFX9-NEXT: v_cvt_f32_u32_e32 v8, s11
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v6, v3, s[0:1]
	; GFX9-NEXT: v_mov_b32_e32 v6, s15			; GFX9-NEXT: v_mov_b32_e32 v6, s15
	; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v6, v2, vcc			; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v6, v2, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v2			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s13, v2
	; GFX9-NEXT: v_mac_f32_e32 v7, s16, v8			; GFX9-NEXT: v_mac_f32_e32 v7, 0x4f800000, v8
	; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v6, 0, -1, vcc
	; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v1			; GFX9-NEXT: v_cmp_le_u32_e32 vcc, s12, v1
	; GFX9-NEXT: v_rcp_f32_e32 v7, v7			; GFX9-NEXT: v_rcp_f32_e32 v7, v7
	; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc			; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, vcc
	; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2			; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, s13, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc
	; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6			; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v6
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v3, vcc
	; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]			; GFX9-NEXT: v_cndmask_b32_e64 v3, v5, v4, s[0:1]
	; GFX9-NEXT: v_mul_f32_e32 v4, s17, v7			; GFX9-NEXT: v_mul_f32_e32 v4, 0x5f7ffffc, v7
	; GFX9-NEXT: v_mul_f32_e32 v5, s18, v4			; GFX9-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; GFX9-NEXT: v_trunc_f32_e32 v5, v5			; GFX9-NEXT: v_trunc_f32_e32 v5, v5
	; GFX9-NEXT: v_mac_f32_e32 v4, s19, v5			; GFX9-NEXT: v_mac_f32_e32 v4, 0xcf800000, v5
	; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4			; GFX9-NEXT: v_cvt_u32_f32_e32 v4, v4
	; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5			; GFX9-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GFX9-NEXT: s_sub_u32 s0, 0, s10			; GFX9-NEXT: s_sub_u32 s0, 0, s10
	; GFX9-NEXT: s_subb_u32 s1, 0, s11			; GFX9-NEXT: s_subb_u32 s1, 0, s11
	; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4			; GFX9-NEXT: v_mul_hi_u32 v6, s0, v4
	; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5			; GFX9-NEXT: v_mul_lo_u32 v7, s0, v5
	; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4			; GFX9-NEXT: v_mul_lo_u32 v8, s1, v4
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	▲ Show 20 Lines • Show All 113 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/amdgpu-mul24-knownbits.ll

Show All 27 Lines	entry:
store float 0.000, float addrspace(1)* %v3, align 4		store float 0.000, float addrspace(1)* %v3, align 4
ret void		ret void
}		}

define i32 @f(i32 %x, i32 %y) {		define i32 @f(i32 %x, i32 %y) {
; GCN-LABEL: f:		; GCN-LABEL: f:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0xffff80		; GCN-NEXT: v_or_b32_e32 v0, 0xffff80, v0
; GCN-NEXT: v_or_b32_e32 v0, s4, v0		; GCN-NEXT: v_or_b32_e32 v1, 0xffff80, v1
; GCN-NEXT: v_or_b32_e32 v1, s4, v1
; GCN-NEXT: v_mul_i32_i24_e32 v0, v0, v1		; GCN-NEXT: v_mul_i32_i24_e32 v0, v0, v1
; GCN-NEXT: v_lshrrev_b32_e32 v0, 14, v0		; GCN-NEXT: v_lshrrev_b32_e32 v0, 14, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%xx = or i32 %x, -128 ; 0xffffff80		%xx = or i32 %x, -128 ; 0xffffff80
%yy = or i32 %y, -128 ; 0xffffff80		%yy = or i32 %y, -128 ; 0xffffff80
%r = mul i32 %xx, %yy		%r = mul i32 %xx, %yy
%rr = lshr i32 %r, 14		%rr = lshr i32 %r, 14
ret i32 %rr		ret i32 %rr
}		}

; Function Attrs: nounwind readnone speculatable		; Function Attrs: nounwind readnone speculatable
declare i32 @llvm.amdgcn.workitem.id.x() #20		declare i32 @llvm.amdgcn.workitem.id.x() #20

!4 = !{i32 0, i32 1024}		!4 = !{i32 0, i32 1024}

llvm/test/CodeGen/AMDGPU/and.ll

Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_and_constant_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %aptr) {
%and = and i64 %a, 1231231234567		%and = and i64 %a, 1231231234567
store i64 %and, i64 addrspace(1)* %out, align 8		store i64 %and, i64 addrspace(1)* %out, align 8
ret void		ret void
}		}

; FUNC-LABEL: {{^}}v_and_multi_use_constant_i64:		; FUNC-LABEL: {{^}}v_and_multi_use_constant_i64:
; SI-DAG: buffer_load_dwordx2 v[[[LO0:[0-9]+]]:[[HI0:[0-9]+]]]		; SI-DAG: buffer_load_dwordx2 v[[[LO0:[0-9]+]]:[[HI0:[0-9]+]]]
; SI-DAG: buffer_load_dwordx2 v[[[LO1:[0-9]+]]:[[HI1:[0-9]+]]]		; SI-DAG: buffer_load_dwordx2 v[[[LO1:[0-9]+]]:[[HI1:[0-9]+]]]
; SI-DAG: s_movk_i32 [[KHI:s[0-9]+]], 0x11e{{$}}		; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, 0xab19b207, v[[LO0]]
; SI-DAG: s_mov_b32 [[KLO:s[0-9]+]], 0xab19b207{{$}}		; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, 0x11e, v[[HI0]]
; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, [[KLO]], v[[LO0]]		; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, 0xab19b207, v[[LO1]]
; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, [[KHI]], v[[HI0]]		; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, 0x11e, v[[HI1]]
; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, [[KLO]], v[[LO1]]
; SI-DAG: v_and_b32_e32 {{v[0-9]+}}, [[KHI]], v[[HI1]]
; SI: buffer_store_dwordx2		; SI: buffer_store_dwordx2
; SI: buffer_store_dwordx2		; SI: buffer_store_dwordx2
define amdgpu_kernel void @v_and_multi_use_constant_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %aptr) {		define amdgpu_kernel void @v_and_multi_use_constant_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %aptr) {
%a = load volatile i64, i64 addrspace(1)* %aptr		%a = load volatile i64, i64 addrspace(1)* %aptr
%b = load volatile i64, i64 addrspace(1)* %aptr		%b = load volatile i64, i64 addrspace(1)* %aptr
%and0 = and i64 %a, 1231231234567		%and0 = and i64 %a, 1231231234567
%and1 = and i64 %b, 1231231234567		%and1 = and i64 %b, 1231231234567
store volatile i64 %and0, i64 addrspace(1)* %out		store volatile i64 %and0, i64 addrspace(1)* %out
▲ Show 20 Lines • Show All 282 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bswap.ll

	Show First 20 Lines • Show All 512 Lines • ▼ Show 20 Lines

	define <4 x i16> @v_bswap_v4i16(<4 x i16> %src) {			define <4 x i16> @v_bswap_v4i16(<4 x i16> %src) {
	; SI-LABEL: v_bswap_v4i16:			; SI-LABEL: v_bswap_v4i16:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; SI-NEXT: v_alignbit_b32 v4, v1, v1, 8			; SI-NEXT: v_alignbit_b32 v4, v1, v1, 8
	; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24			; SI-NEXT: v_alignbit_b32 v1, v1, v1, 24
	; SI-NEXT: s_mov_b32 s4, 0xff00ff			; SI-NEXT: s_mov_b32 s4, 0xff00ff
	; SI-NEXT: s_mov_b32 s5, 0xffff0000
	; SI-NEXT: v_alignbit_b32 v5, v0, v0, 8			; SI-NEXT: v_alignbit_b32 v5, v0, v0, 8
	; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24			; SI-NEXT: v_alignbit_b32 v0, v0, v0, 24
	; SI-NEXT: v_alignbit_b32 v6, v3, v3, 8			; SI-NEXT: v_alignbit_b32 v6, v3, v3, 8
	; SI-NEXT: v_alignbit_b32 v3, v3, v3, 24			; SI-NEXT: v_alignbit_b32 v3, v3, v3, 24
	; SI-NEXT: v_alignbit_b32 v7, v2, v2, 8			; SI-NEXT: v_alignbit_b32 v7, v2, v2, 8
	; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24			; SI-NEXT: v_alignbit_b32 v2, v2, v2, 24
	; SI-NEXT: v_bfi_b32 v1, s4, v1, v4			; SI-NEXT: v_bfi_b32 v1, s4, v1, v4
	; SI-NEXT: v_bfi_b32 v0, s4, v0, v5			; SI-NEXT: v_bfi_b32 v0, s4, v0, v5
	; SI-NEXT: v_bfi_b32 v3, s4, v3, v6			; SI-NEXT: v_bfi_b32 v3, s4, v3, v6
	; SI-NEXT: v_bfi_b32 v2, s4, v2, v7			; SI-NEXT: v_bfi_b32 v2, s4, v2, v7
	; SI-NEXT: v_and_b32_e32 v4, s5, v1			; SI-NEXT: v_and_b32_e32 v4, 0xffff0000, v1
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v3, s5, v3			; SI-NEXT: v_and_b32_e32 v3, 0xffff0000, v3
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v4			; SI-NEXT: v_or_b32_e32 v0, v0, v4
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v2, v3
	; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16			; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; SI-NEXT: s_setpc_b64 s[30:31]			; SI-NEXT: s_setpc_b64 s[30:31]
	;			;
	; VI-LABEL: v_bswap_v4i16:			; VI-LABEL: v_bswap_v4i16:
	Show All 39 Lines

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

	Show First 20 Lines • Show All 244 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9			; SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s12, 0xff00
	; SI-NEXT: s_movk_i32 s13, 0xff
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_mov_b32 s10, s2			; SI-NEXT: s_mov_b32 s10, s2
				; SI-NEXT: s_mov_b32 s11, s3
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s0, s4			; SI-NEXT: s_mov_b32 s0, s4
	; SI-NEXT: s_mov_b32 s1, s5			; SI-NEXT: s_mov_b32 s1, s5
	; SI-NEXT: s_mov_b32 s11, s3
	; SI-NEXT: s_mov_b32 s8, s6			; SI-NEXT: s_mov_b32 s8, s6
	; SI-NEXT: s_mov_b32 s9, s7			; SI-NEXT: s_mov_b32 s9, s7
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; SI-NEXT: v_add_i32_e32 v3, vcc, 9, v0			; SI-NEXT: v_add_i32_e32 v3, vcc, 9, v0
	; SI-NEXT: v_and_b32_e32 v2, s12, v0			; SI-NEXT: v_and_b32_e32 v2, 0xff00, v0
	; SI-NEXT: v_and_b32_e32 v4, s12, v1			; SI-NEXT: v_and_b32_e32 v4, 0xff00, v1
	; SI-NEXT: v_and_b32_e32 v3, s13, v3			; SI-NEXT: v_and_b32_e32 v3, 0xff, v3
	; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1			; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v2, v3
	; SI-NEXT: v_and_b32_e32 v1, s13, v1			; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; SI-NEXT: v_add_i32_e32 v2, vcc, 0x900, v2			; SI-NEXT: v_add_i32_e32 v2, vcc, 0x900, v2
	; SI-NEXT: v_or_b32_e32 v1, v4, v1			; SI-NEXT: v_or_b32_e32 v1, v4, v1
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_add_i32_e32 v1, vcc, 0x9000000, v1			; SI-NEXT: v_add_i32_e32 v1, vcc, 0x9000000, v1
	; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; SI-NEXT: buffer_store_dword v1, off, s[8:11], 0			; SI-NEXT: buffer_store_dword v1, off, s[8:11], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: test_copy_v4i8_extra_use:			; VI-LABEL: test_copy_v4i8_extra_use:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_movk_i32 s12, 0xff00			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_movk_i32 s13, 0xff			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_movk_i32 s14, 0x900			; VI-NEXT: s_mov_b32 s10, s6
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_mov_b32 s10, s6
	; VI-NEXT: s_mov_b32 s11, s7			; VI-NEXT: s_mov_b32 s11, s7
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: s_mov_b32 s8, s2			; VI-NEXT: s_mov_b32 s8, s2
	; VI-NEXT: s_mov_b32 s9, s3			; VI-NEXT: s_mov_b32 s9, s3
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; VI-NEXT: v_and_b32_e32 v4, s12, v1			; VI-NEXT: v_and_b32_e32 v4, 0xffffff00, v1
	; VI-NEXT: v_add_u16_e32 v1, 9, v1			; VI-NEXT: v_add_u16_e32 v1, 9, v1
	; VI-NEXT: v_add_u16_e32 v3, 9, v0			; VI-NEXT: v_add_u16_e32 v3, 9, v0
	; VI-NEXT: v_and_b32_e32 v1, s13, v1			; VI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; VI-NEXT: v_and_b32_e32 v2, s12, v0			; VI-NEXT: v_and_b32_e32 v2, 0xffffff00, v0
	; VI-NEXT: v_and_b32_e32 v3, s13, v3			; VI-NEXT: v_and_b32_e32 v3, 0xff, v3
	; VI-NEXT: v_or_b32_e32 v1, v4, v1			; VI-NEXT: v_or_b32_e32 v1, v4, v1
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: v_add_u16_e32 v1, s14, v1			; VI-NEXT: v_add_u16_e32 v1, 0x900, v1
	; VI-NEXT: v_add_u16_e32 v2, s14, v2			; VI-NEXT: v_add_u16_e32 v2, 0x900, v2
	; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; VI-NEXT: v_or_b32_e32 v1, v2, v1			; VI-NEXT: v_or_b32_e32 v1, v2, v1
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: buffer_store_dword v1, off, s[8:11], 0			; VI-NEXT: buffer_store_dword v1, off, s[8:11], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%gep = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4			%val = load <4 x i8>, <4 x i8> addrspace(1)* %gep, align 4
	Show All 11 Lines
	; SI-NEXT: s_mov_b32 s11, 0xf000			; SI-NEXT: s_mov_b32 s11, 0xf000
	; SI-NEXT: s_mov_b32 s14, 0			; SI-NEXT: s_mov_b32 s14, 0
	; SI-NEXT: s_mov_b32 s15, s11			; SI-NEXT: s_mov_b32 s15, s11
	; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b64 s[12:13], s[6:7]			; SI-NEXT: s_mov_b64 s[12:13], s[6:7]
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64			; SI-NEXT: buffer_load_dword v0, v[0:1], s[12:15], 0 addr64
	; SI-NEXT: s_mov_b32 s16, 0xff00
	; SI-NEXT: s_movk_i32 s17, 0xff
	; SI-NEXT: s_mov_b32 s10, -1			; SI-NEXT: s_mov_b32 s10, -1
	; SI-NEXT: s_mov_b32 s14, s10			; SI-NEXT: s_mov_b32 s14, s10
	; SI-NEXT: s_mov_b32 s8, s0			; SI-NEXT: s_mov_b32 s8, s0
	; SI-NEXT: s_mov_b32 s9, s1			; SI-NEXT: s_mov_b32 s9, s1
	; SI-NEXT: s_mov_b32 s12, s2			; SI-NEXT: s_mov_b32 s12, s2
	; SI-NEXT: s_mov_b32 s13, s3			; SI-NEXT: s_mov_b32 s13, s3
	; SI-NEXT: s_mov_b32 s6, s10			; SI-NEXT: s_mov_b32 s6, s10
	; SI-NEXT: s_mov_b32 s7, s11			; SI-NEXT: s_mov_b32 s7, s11
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; SI-NEXT: v_add_i32_e32 v3, vcc, 9, v0			; SI-NEXT: v_add_i32_e32 v3, vcc, 9, v0
	; SI-NEXT: v_and_b32_e32 v2, s16, v0			; SI-NEXT: v_and_b32_e32 v2, 0xff00, v0
	; SI-NEXT: v_and_b32_e32 v4, s16, v1			; SI-NEXT: v_and_b32_e32 v4, 0xff00, v1
	; SI-NEXT: v_and_b32_e32 v3, s17, v3			; SI-NEXT: v_and_b32_e32 v3, 0xff, v3
	; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1			; SI-NEXT: v_add_i32_e32 v1, vcc, 9, v1
	; SI-NEXT: v_or_b32_e32 v2, v2, v3			; SI-NEXT: v_or_b32_e32 v2, v2, v3
	; SI-NEXT: v_and_b32_e32 v1, s17, v1			; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; SI-NEXT: v_add_i32_e32 v2, vcc, 0x900, v2			; SI-NEXT: v_add_i32_e32 v2, vcc, 0x900, v2
	; SI-NEXT: v_or_b32_e32 v1, v4, v1			; SI-NEXT: v_or_b32_e32 v1, v4, v1
	; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_add_i32_e32 v1, vcc, 0x9000000, v1			; SI-NEXT: v_add_i32_e32 v1, vcc, 0x9000000, v1
	; SI-NEXT: buffer_store_dword v0, off, s[8:11], 0			; SI-NEXT: buffer_store_dword v0, off, s[8:11], 0
	; SI-NEXT: buffer_store_dword v1, off, s[12:15], 0			; SI-NEXT: buffer_store_dword v1, off, s[12:15], 0
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: test_copy_v4i8_x2_extra_use:			; VI-LABEL: test_copy_v4i8_x2_extra_use:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; VI-NEXT: s_movk_i32 s16, 0xff00			; VI-NEXT: s_mov_b32 s11, 0xf000
	; VI-NEXT: s_movk_i32 s17, 0xff			; VI-NEXT: s_mov_b32 s10, -1
	; VI-NEXT: s_movk_i32 s18, 0x900			; VI-NEXT: s_mov_b32 s14, s10
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s7			; VI-NEXT: v_mov_b32_e32 v1, s7
	; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s6, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dword v0, v[0:1]			; VI-NEXT: flat_load_dword v0, v[0:1]
	; VI-NEXT: s_mov_b32 s11, 0xf000
	; VI-NEXT: s_mov_b32 s10, -1
	; VI-NEXT: s_mov_b32 s14, s10
	; VI-NEXT: s_mov_b32 s15, s11			; VI-NEXT: s_mov_b32 s15, s11
	; VI-NEXT: s_mov_b32 s8, s0			; VI-NEXT: s_mov_b32 s8, s0
	; VI-NEXT: s_mov_b32 s9, s1			; VI-NEXT: s_mov_b32 s9, s1
	; VI-NEXT: s_mov_b32 s12, s2			; VI-NEXT: s_mov_b32 s12, s2
	; VI-NEXT: s_mov_b32 s13, s3			; VI-NEXT: s_mov_b32 s13, s3
	; VI-NEXT: s_mov_b32 s6, s10			; VI-NEXT: s_mov_b32 s6, s10
	; VI-NEXT: s_mov_b32 s7, s11			; VI-NEXT: s_mov_b32 s7, s11
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; VI-NEXT: v_and_b32_e32 v4, s16, v1			; VI-NEXT: v_and_b32_e32 v4, 0xffffff00, v1
	; VI-NEXT: v_add_u16_e32 v1, 9, v1			; VI-NEXT: v_add_u16_e32 v1, 9, v1
	; VI-NEXT: v_add_u16_e32 v3, 9, v0			; VI-NEXT: v_add_u16_e32 v3, 9, v0
	; VI-NEXT: v_and_b32_e32 v1, s17, v1			; VI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; VI-NEXT: v_and_b32_e32 v2, s16, v0			; VI-NEXT: v_and_b32_e32 v2, 0xffffff00, v0
	; VI-NEXT: v_and_b32_e32 v3, s17, v3			; VI-NEXT: v_and_b32_e32 v3, 0xff, v3
	; VI-NEXT: v_or_b32_e32 v1, v4, v1			; VI-NEXT: v_or_b32_e32 v1, v4, v1
	; VI-NEXT: v_or_b32_e32 v2, v2, v3			; VI-NEXT: v_or_b32_e32 v2, v2, v3
	; VI-NEXT: v_add_u16_e32 v1, s18, v1			; VI-NEXT: v_add_u16_e32 v1, 0x900, v1
	; VI-NEXT: v_add_u16_e32 v2, s18, v2			; VI-NEXT: v_add_u16_e32 v2, 0x900, v2
	; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; VI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; VI-NEXT: v_or_b32_e32 v1, v2, v1			; VI-NEXT: v_or_b32_e32 v1, v2, v1
	; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0			; VI-NEXT: buffer_store_dword v0, off, s[8:11], 0
	; VI-NEXT: buffer_store_dword v1, off, s[12:15], 0			; VI-NEXT: buffer_store_dword v1, off, s[12:15], 0
	; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; VI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%in.ptr = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%in.ptr = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	▲ Show 20 Lines • Show All 244 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ctpop16.ll

	Show First 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_and_b32_e32 v2, s4, v0			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v3, s4, v1			; SI-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v0, v0, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v0, v0, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_or_b32_e32 v1, v3, v1			; SI-NEXT: v_or_b32_e32 v1, v3, v1
	; SI-NEXT: v_or_b32_e32 v0, v2, v0			; SI-NEXT: v_or_b32_e32 v0, v2, v0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_ctpop_v4i16:			; VI-LABEL: v_ctpop_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s4, 0xffff
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; VI-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; VI-NEXT: v_and_b32_e32 v1, s4, v1			; VI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; VI-NEXT: v_and_b32_e32 v0, s4, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0			; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0
	; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0			; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0
	; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0			; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0
	; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0			; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0
	; VI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; VI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; VI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; VI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; VI-NEXT: v_or_b32_e32 v1, v1, v2			; VI-NEXT: v_or_b32_e32 v1, v1, v2
	; VI-NEXT: v_or_b32_e32 v0, v0, v3			; VI-NEXT: v_or_b32_e32 v0, v0, v3
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s3, 0xf000			; SI-NEXT: s_mov_b32 s3, 0xf000
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dwordx4 v[0:3], v[0:1], s[4:7], 0 addr64
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_and_b32_e32 v4, s4, v0			; SI-NEXT: v_and_b32_e32 v4, 0xffff, v0
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v5, s4, v1			; SI-NEXT: v_and_b32_e32 v5, 0xffff, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_and_b32_e32 v6, s4, v2			; SI-NEXT: v_and_b32_e32 v6, 0xffff, v2
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_and_b32_e32 v7, s4, v3			; SI-NEXT: v_and_b32_e32 v7, 0xffff, v3
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v0, v0, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v0, v0, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0
	Show All 10 Lines
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_ctpop_v8i16:			; VI-LABEL: v_ctpop_v8i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 4, v0
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s4, 0xffff
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v4, 16, v3			; VI-NEXT: v_lshrrev_b32_e32 v4, 16, v3
	; VI-NEXT: v_lshrrev_b32_e32 v5, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v5, 16, v2
	; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v1			; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v1
	; VI-NEXT: v_lshrrev_b32_e32 v7, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v7, 16, v0
	; VI-NEXT: v_and_b32_e32 v3, s4, v3			; VI-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; VI-NEXT: v_and_b32_e32 v2, s4, v2			; VI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; VI-NEXT: v_and_b32_e32 v1, s4, v1			; VI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; VI-NEXT: v_and_b32_e32 v0, s4, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; VI-NEXT: v_bcnt_u32_b32 v4, v4, 0			; VI-NEXT: v_bcnt_u32_b32 v4, v4, 0
	; VI-NEXT: v_bcnt_u32_b32 v5, v5, 0			; VI-NEXT: v_bcnt_u32_b32 v5, v5, 0
	; VI-NEXT: v_bcnt_u32_b32 v6, v6, 0			; VI-NEXT: v_bcnt_u32_b32 v6, v6, 0
	; VI-NEXT: v_bcnt_u32_b32 v7, v7, 0			; VI-NEXT: v_bcnt_u32_b32 v7, v7, 0
	; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0			; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0
	; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0			; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0
	; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0			; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0
	; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0			; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: v_lshlrev_b32_e32 v4, 5, v0			; SI-NEXT: v_lshlrev_b32_e32 v4, 5, v0
	; SI-NEXT: v_mov_b32_e32 v5, 0			; SI-NEXT: v_mov_b32_e32 v5, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64 offset:16			; SI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64 offset:16
	; SI-NEXT: buffer_load_dwordx4 v[4:7], v[4:5], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dwordx4 v[4:7], v[4:5], s[4:7], 0 addr64
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_and_b32_e32 v8, s4, v0			; SI-NEXT: v_and_b32_e32 v8, 0xffff, v0
	; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v9, s4, v1			; SI-NEXT: v_and_b32_e32 v9, 0xffff, v1
	; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_and_b32_e32 v10, s4, v2			; SI-NEXT: v_and_b32_e32 v10, 0xffff, v2
	; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_and_b32_e32 v11, s4, v3			; SI-NEXT: v_and_b32_e32 v11, 0xffff, v3
	; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_and_b32_e32 v12, s4, v4			; SI-NEXT: v_and_b32_e32 v12, 0xffff, v4
	; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v4			; SI-NEXT: v_lshrrev_b32_e32 v4, 16, v4
	; SI-NEXT: v_and_b32_e32 v13, s4, v5			; SI-NEXT: v_and_b32_e32 v13, 0xffff, v5
	; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v5			; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v5
	; SI-NEXT: v_and_b32_e32 v14, s4, v6			; SI-NEXT: v_and_b32_e32 v14, 0xffff, v6
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v6			; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v6
	; SI-NEXT: v_and_b32_e32 v15, s4, v7			; SI-NEXT: v_and_b32_e32 v15, 0xffff, v7
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v7			; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v7
	; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v7, v7, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v6, v6, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v5, v5, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v4, v4, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v4, v4, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v3, v3, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v2, v2, 0
	; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0			; SI-NEXT: v_bcnt_u32_b32_e64 v1, v1, 0
	Show All 27 Lines
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_ctpop_v16i16:			; VI-LABEL: v_ctpop_v16i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; VI-NEXT: v_lshlrev_b32_e32 v0, 5, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 5, v0
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s4, 0xffff
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v4, vcc, s2, v0			; VI-NEXT: v_add_u32_e32 v4, vcc, s2, v0
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx4 v[0:3], v[4:5]			; VI-NEXT: flat_load_dwordx4 v[0:3], v[4:5]
	; VI-NEXT: v_add_u32_e32 v4, vcc, 16, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, 16, v4
	; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc			; VI-NEXT: v_addc_u32_e32 v5, vcc, 0, v5, vcc
	; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]			; VI-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
	; VI-NEXT: s_mov_b32 s3, 0xf000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: s_waitcnt vmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v3			; VI-NEXT: v_lshrrev_b32_e32 v8, 16, v3
	; VI-NEXT: v_lshrrev_b32_e32 v9, 16, v2			; VI-NEXT: v_lshrrev_b32_e32 v9, 16, v2
	; VI-NEXT: v_lshrrev_b32_e32 v10, 16, v1			; VI-NEXT: v_lshrrev_b32_e32 v10, 16, v1
	; VI-NEXT: v_lshrrev_b32_e32 v11, 16, v0			; VI-NEXT: v_lshrrev_b32_e32 v11, 16, v0
	; VI-NEXT: v_and_b32_e32 v3, s4, v3			; VI-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; VI-NEXT: v_and_b32_e32 v2, s4, v2			; VI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; VI-NEXT: v_and_b32_e32 v1, s4, v1			; VI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; VI-NEXT: v_and_b32_e32 v0, s4, v0			; VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshrrev_b32_e32 v12, 16, v7			; VI-NEXT: v_lshrrev_b32_e32 v12, 16, v7
	; VI-NEXT: v_lshrrev_b32_e32 v13, 16, v6			; VI-NEXT: v_lshrrev_b32_e32 v13, 16, v6
	; VI-NEXT: v_lshrrev_b32_e32 v14, 16, v5			; VI-NEXT: v_lshrrev_b32_e32 v14, 16, v5
	; VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4			; VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4
	; VI-NEXT: v_bcnt_u32_b32 v8, v8, 0			; VI-NEXT: v_bcnt_u32_b32 v8, v8, 0
	; VI-NEXT: v_bcnt_u32_b32 v9, v9, 0			; VI-NEXT: v_bcnt_u32_b32 v9, v9, 0
	; VI-NEXT: v_bcnt_u32_b32 v10, v10, 0			; VI-NEXT: v_bcnt_u32_b32 v10, v10, 0
	; VI-NEXT: v_bcnt_u32_b32 v11, v11, 0			; VI-NEXT: v_bcnt_u32_b32 v11, v11, 0
	; VI-NEXT: v_and_b32_e32 v7, s4, v7			; VI-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; VI-NEXT: v_and_b32_e32 v6, s4, v6			; VI-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; VI-NEXT: v_and_b32_e32 v5, s4, v5			; VI-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; VI-NEXT: v_and_b32_e32 v4, s4, v4			; VI-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0			; VI-NEXT: v_bcnt_u32_b32 v3, v3, 0
	; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0			; VI-NEXT: v_bcnt_u32_b32 v2, v2, 0
	; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0			; VI-NEXT: v_bcnt_u32_b32 v1, v1, 0
	; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0			; VI-NEXT: v_bcnt_u32_b32 v0, v0, 0
	; VI-NEXT: v_bcnt_u32_b32 v12, v12, 0			; VI-NEXT: v_bcnt_u32_b32 v12, v12, 0
	; VI-NEXT: v_bcnt_u32_b32 v13, v13, 0			; VI-NEXT: v_bcnt_u32_b32 v13, v13, 0
	; VI-NEXT: v_bcnt_u32_b32 v14, v14, 0			; VI-NEXT: v_bcnt_u32_b32 v14, v14, 0
	; VI-NEXT: v_bcnt_u32_b32 v15, v15, 0			; VI-NEXT: v_bcnt_u32_b32 v15, v15, 0
	▲ Show 20 Lines • Show All 813 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 1,166 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s7, s3			; SI-NEXT: s_mov_b32 s7, s3
	; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; SI-NEXT: v_mov_b32_e32 v1, 0			; SI-NEXT: v_mov_b32_e32 v1, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_load_dword v4, v[0:1], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dword v4, v[0:1], s[4:7], 0 addr64
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SI-NEXT: s_mov_b32 s2, -1			; SI-NEXT: s_mov_b32 s2, -1
	; SI-NEXT: s_movk_i32 s8, 0xff
	; SI-NEXT: s_mov_b32 s6, s2			; SI-NEXT: s_mov_b32 s6, s2
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v4			; SI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
	; SI-NEXT: v_lshrrev_b32_e32 v6, 24, v4			; SI-NEXT: v_lshrrev_b32_e32 v6, 24, v4
	; SI-NEXT: v_and_b32_e32 v7, 0xff00, v4			; SI-NEXT: v_and_b32_e32 v7, 0xff00, v4
	; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4			; SI-NEXT: v_cvt_f32_ubyte3_e32 v3, v4
	; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4			; SI-NEXT: v_cvt_f32_ubyte2_e32 v2, v4
	; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4			; SI-NEXT: v_cvt_f32_ubyte1_e32 v1, v4
	; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4			; SI-NEXT: v_cvt_f32_ubyte0_e32 v0, v4
	; SI-NEXT: v_add_i32_e32 v4, vcc, 9, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, 9, v4
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_waitcnt expcnt(0)			; SI-NEXT: s_waitcnt expcnt(0)
	; SI-NEXT: v_and_b32_e32 v0, s8, v4			; SI-NEXT: v_and_b32_e32 v0, 0xff, v4
	; SI-NEXT: v_add_i32_e32 v2, vcc, 9, v5			; SI-NEXT: v_add_i32_e32 v2, vcc, 9, v5
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v6			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v6
	; SI-NEXT: v_or_b32_e32 v0, v7, v0			; SI-NEXT: v_or_b32_e32 v0, v7, v0
	; SI-NEXT: v_and_b32_e32 v2, s8, v2			; SI-NEXT: v_and_b32_e32 v2, 0xff, v2
	; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 0x900, v0
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v1, v0
	; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0			; SI-NEXT: v_add_i32_e32 v0, vcc, 0x9000000, v0
	; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0			; SI-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_add_u16_e32 v9, 9, v4			; GFX9-NEXT: v_add_u16_e32 v9, 9, v4
	; GFX9-NEXT: v_add_u16_sdwa v4, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_add_u16_sdwa v4, v4, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v5, v[0:3], s[0:1]
	; GFX9-NEXT: s_nop 0			; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v7			; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v7
	; GFX9-NEXT: v_or_b32_sdwa v0, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or_b32_sdwa v0, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NEXT: v_add_u16_e32 v0, s4, v0			; GFX9-NEXT: v_add_u16_e32 v0, 0x900, v0
	; GFX9-NEXT: v_add_u16_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; GFX9-NEXT: v_add_u16_sdwa v1, v1, s4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v0, v0, v1			; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX9-NEXT: global_store_dword v5, v0, s[2:3]			; GFX9-NEXT: global_store_dword v5, v0, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	%tid.x = call i32 @llvm.amdgcn.workitem.id.x()			%tid.x = call i32 @llvm.amdgcn.workitem.id.x()
	%in.ptr = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x			%in.ptr = getelementptr <4 x i8>, <4 x i8> addrspace(1)* %in, i32 %tid.x
	%load = load <4 x i8>, <4 x i8> addrspace(1)* %in.ptr, align 4			%load = load <4 x i8>, <4 x i8> addrspace(1)* %in.ptr, align 4
	%cvt = uitofp <4 x i8> %load to <4 x float>			%cvt = uitofp <4 x i8> %load to <4 x float>
	▲ Show 20 Lines • Show All 1,101 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

	Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: .LBB0_3: ; %T			; GFX9-NEXT: .LBB0_3: ; %T
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB0_4: ; %exit			; GFX9-NEXT: .LBB0_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v3 op_sel_hi:[0,0]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v3 op_sel_hi:[0,0]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v3, s4, v0			; GFX9-NEXT: v_or_b32_e32 v3, 0xffff8000, v0
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v2 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v2 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v2, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v0, s4, v0			; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_and_b32_e32 v0, v4, v0
	; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX9-NEXT: v_and_b32_e32 v2, v4, v3			; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2			; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0			%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0
	br label %exit			br label %exit

	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: .LBB1_3: ; %T			; GFX9-NEXT: .LBB1_3: ; %T
	; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc			; GFX9-NEXT: global_load_dwordx4 v[2:5], v[0:1], off glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: .LBB1_4: ; %exit			; GFX9-NEXT: .LBB1_4: ; %exit
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v5 op_sel_hi:[0,1]
	; GFX9-NEXT: s_movk_i32 s4, 0x8000			; GFX9-NEXT: s_movk_i32 s4, 0x8000
	; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v1, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v2, s4, v0			; GFX9-NEXT: v_or_b32_e32 v2, 0xffff8000, v0
	; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]			; GFX9-NEXT: v_pk_ashrrev_i16 v0, 15, v4 op_sel_hi:[0,1]
	; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_or_b32_sdwa v3, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_or_b32_e32 v0, s4, v0			; GFX9-NEXT: v_or_b32_e32 v0, 0xffff8000, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_and_b32_e32 v0, v4, v0			; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-NEXT: v_and_b32_e32 v2, v4, v2
	; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2			; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v2
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	br i1 undef, label %T, label %F			br i1 undef, label %T, label %F

	T:			T:
	%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0			%t = load volatile <8 x i16>, <8 x i16> addrspace(1) * %p0
	br label %exit			br label %exit
	▲ Show 20 Lines • Show All 158 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

Show First 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_fma_value_f32(float addrspace(1)* %arg) {
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = call float @llvm.fma.f32(float %load, float 15.0, float 15.0)		%v = call float @llvm.fma.f32(float %load, float 15.0, float 15.0)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_fmad_ftz_value_f32:		; GCN-LABEL: test_fold_canonicalize_fmad_ftz_value_f32:
; GCN: v_mov_b32_e32 [[V:v[0-9]+]], 0x41700000		; GCN: v_mac_f32_e32 [[V:v[0-9]+]], 0x41700000, v{{[0-9]+$}}
; GCN: v_mac_f32_e32 [[V]], v{{[0-9]+}}, v{{[0-9]+$}}
; GCN-NOT: v_mul		; GCN-NOT: v_mul
; GCN-NOT: v_max		; GCN-NOT: v_max
; GCN: {{flat\|global}}_store_dword v{{.+}}, [[V]]		; GCN: {{flat\|global}}_store_dword v{{.+}}, [[V]]
define amdgpu_kernel void @test_fold_canonicalize_fmad_ftz_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_fmad_ftz_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = call float @llvm.amdgcn.fmad.ftz.f32(float %load, float 15.0, float 15.0)		%v = call float @llvm.amdgcn.fmad.ftz.f32(float %load, float 15.0, float 15.0)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_fmuladd_value_f32:		; GCN-LABEL: test_fold_canonicalize_fmuladd_value_f32:
; GCN-FLUSH: v_mac_f32_e32 [[V:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}}		; GCN-FLUSH: v_mac_f32_e32 [[V:v[0-9]+]], 0x41700000, v{{[0-9]+}}
; GCN-DENORM: s_mov_b32 [[SREG:s[0-9]+]], 0x41700000		; GCN-DENORM: s_mov_b32 [[SREG:s[0-9]+]], 0x41700000
; GCN-DENORM: v_fma_f32 [[V:v[0-9]+]], v{{[0-9]+}}, [[SREG]], [[SREG]]		; GCN-DENORM: v_fma_f32 [[V:v[0-9]+]], v{{[0-9]+}}, [[SREG]], [[SREG]]
; GCN-NOT: v_mul		; GCN-NOT: v_mul
; GCN-NOT: v_max		; GCN-NOT: v_max
; GCN: {{flat\|global}}_store_dword v{{.+}}, [[V]]		; GCN: {{flat\|global}}_store_dword v{{.+}}, [[V]]
; GCN-NOT: 1.0		; GCN-NOT: 1.0
define amdgpu_kernel void @test_fold_canonicalize_fmuladd_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_fmuladd_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
▲ Show 20 Lines • Show All 744 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fexp.ll

Show All 12 Lines	; GCN-NEXT: s_setpc_b64 s[30:31]
%result = call float @llvm.exp.f32(float %arg0)		%result = call float @llvm.exp.f32(float %arg0)
ret float %result		ret float %result
}		}

define <2 x float> @v_exp_v2f32(<2 x float> %arg0) {		define <2 x float> @v_exp_v2f32(<2 x float> %arg0) {
; GCN-LABEL: v_exp_v2f32:		; GCN-LABEL: v_exp_v2f32:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0x3fb8aa3b		; GCN-NEXT: v_mul_f32_e32 v0, 0x3fb8aa3b, v0
; GCN-NEXT: v_mul_f32_e32 v0, s4, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x3fb8aa3b, v1
; GCN-NEXT: v_mul_f32_e32 v1, s4, v1
; GCN-NEXT: v_exp_f32_e32 v0, v0		; GCN-NEXT: v_exp_f32_e32 v0, v0
; GCN-NEXT: v_exp_f32_e32 v1, v1		; GCN-NEXT: v_exp_f32_e32 v1, v1
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x float> @llvm.exp.v2f32(<2 x float> %arg0)		%result = call <2 x float> @llvm.exp.v2f32(<2 x float> %arg0)
ret <2 x float> %result		ret <2 x float> %result
}		}

define <3 x float> @v_exp_v3f32(<3 x float> %arg0) {		define <3 x float> @v_exp_v3f32(<3 x float> %arg0) {
; GCN-LABEL: v_exp_v3f32:		; GCN-LABEL: v_exp_v3f32:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0x3fb8aa3b		; GCN-NEXT: v_mul_f32_e32 v0, 0x3fb8aa3b, v0
; GCN-NEXT: v_mul_f32_e32 v0, s4, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x3fb8aa3b, v1
; GCN-NEXT: v_mul_f32_e32 v1, s4, v1		; GCN-NEXT: v_mul_f32_e32 v2, 0x3fb8aa3b, v2
; GCN-NEXT: v_mul_f32_e32 v2, s4, v2
; GCN-NEXT: v_exp_f32_e32 v0, v0		; GCN-NEXT: v_exp_f32_e32 v0, v0
; GCN-NEXT: v_exp_f32_e32 v1, v1		; GCN-NEXT: v_exp_f32_e32 v1, v1
; GCN-NEXT: v_exp_f32_e32 v2, v2		; GCN-NEXT: v_exp_f32_e32 v2, v2
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%result = call <3 x float> @llvm.exp.v3f32(<3 x float> %arg0)		%result = call <3 x float> @llvm.exp.v3f32(<3 x float> %arg0)
ret <3 x float> %result		ret <3 x float> %result
}		}

define <4 x float> @v_exp_v4f32(<4 x float> %arg0) {		define <4 x float> @v_exp_v4f32(<4 x float> %arg0) {
; GCN-LABEL: v_exp_v4f32:		; GCN-LABEL: v_exp_v4f32:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0x3fb8aa3b		; GCN-NEXT: v_mul_f32_e32 v0, 0x3fb8aa3b, v0
; GCN-NEXT: v_mul_f32_e32 v0, s4, v0		; GCN-NEXT: v_mul_f32_e32 v1, 0x3fb8aa3b, v1
; GCN-NEXT: v_mul_f32_e32 v1, s4, v1		; GCN-NEXT: v_mul_f32_e32 v2, 0x3fb8aa3b, v2
; GCN-NEXT: v_mul_f32_e32 v2, s4, v2		; GCN-NEXT: v_mul_f32_e32 v3, 0x3fb8aa3b, v3
; GCN-NEXT: v_mul_f32_e32 v3, s4, v3
; GCN-NEXT: v_exp_f32_e32 v0, v0		; GCN-NEXT: v_exp_f32_e32 v0, v0
; GCN-NEXT: v_exp_f32_e32 v1, v1		; GCN-NEXT: v_exp_f32_e32 v1, v1
; GCN-NEXT: v_exp_f32_e32 v2, v2		; GCN-NEXT: v_exp_f32_e32 v2, v2
; GCN-NEXT: v_exp_f32_e32 v3, v3		; GCN-NEXT: v_exp_f32_e32 v3, v3
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
%result = call <4 x float> @llvm.exp.v4f32(<4 x float> %arg0)		%result = call <4 x float> @llvm.exp.v4f32(<4 x float> %arg0)
ret <4 x float> %result		ret <4 x float> %result
}		}
Show All 26 Lines
}		}

define <2 x half> @v_exp_v2f16(<2 x half> %arg0) {		define <2 x half> @v_exp_v2f16(<2 x half> %arg0) {
; SI-LABEL: v_exp_v2f16:		; SI-LABEL: v_exp_v2f16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_cvt_f16_f32_e32 v1, v1		; SI-NEXT: v_cvt_f16_f32_e32 v1, v1
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_mov_b32 s4, 0x3fb8aa3b
; SI-NEXT: v_cvt_f32_f16_e32 v1, v1		; SI-NEXT: v_cvt_f32_f16_e32 v1, v1
; SI-NEXT: v_cvt_f32_f16_e32 v0, v0		; SI-NEXT: v_cvt_f32_f16_e32 v0, v0
; SI-NEXT: v_mul_f32_e32 v0, s4, v0		; SI-NEXT: v_mul_f32_e32 v0, 0x3fb8aa3b, v0
; SI-NEXT: v_mul_f32_e32 v1, s4, v1		; SI-NEXT: v_mul_f32_e32 v1, 0x3fb8aa3b, v1
; SI-NEXT: v_exp_f32_e32 v0, v0		; SI-NEXT: v_exp_f32_e32 v0, v0
; SI-NEXT: v_exp_f32_e32 v1, v1		; SI-NEXT: v_exp_f32_e32 v1, v1
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_exp_v2f16:		; VI-LABEL: v_exp_v2f16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_mov_b32_e32 v1, 0x3dc5		; VI-NEXT: v_mov_b32_e32 v1, 0x3dc5
Show All 25 Lines
define <4 x half> @v_exp_v4f16(<4 x half> %arg0) {		define <4 x half> @v_exp_v4f16(<4 x half> %arg0) {
; SI-LABEL: v_exp_v4f16:		; SI-LABEL: v_exp_v4f16:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_cvt_f16_f32_e32 v3, v3		; SI-NEXT: v_cvt_f16_f32_e32 v3, v3
; SI-NEXT: v_cvt_f16_f32_e32 v2, v2		; SI-NEXT: v_cvt_f16_f32_e32 v2, v2
; SI-NEXT: v_cvt_f16_f32_e32 v1, v1		; SI-NEXT: v_cvt_f16_f32_e32 v1, v1
; SI-NEXT: v_cvt_f16_f32_e32 v0, v0		; SI-NEXT: v_cvt_f16_f32_e32 v0, v0
; SI-NEXT: s_mov_b32 s4, 0x3fb8aa3b
; SI-NEXT: v_cvt_f32_f16_e32 v3, v3		; SI-NEXT: v_cvt_f32_f16_e32 v3, v3
; SI-NEXT: v_cvt_f32_f16_e32 v2, v2		; SI-NEXT: v_cvt_f32_f16_e32 v2, v2
; SI-NEXT: v_cvt_f32_f16_e32 v1, v1		; SI-NEXT: v_cvt_f32_f16_e32 v1, v1
; SI-NEXT: v_cvt_f32_f16_e32 v0, v0		; SI-NEXT: v_cvt_f32_f16_e32 v0, v0
; SI-NEXT: v_mul_f32_e32 v0, s4, v0		; SI-NEXT: v_mul_f32_e32 v0, 0x3fb8aa3b, v0
; SI-NEXT: v_mul_f32_e32 v1, s4, v1		; SI-NEXT: v_mul_f32_e32 v1, 0x3fb8aa3b, v1
; SI-NEXT: v_mul_f32_e32 v2, s4, v2		; SI-NEXT: v_mul_f32_e32 v2, 0x3fb8aa3b, v2
; SI-NEXT: v_mul_f32_e32 v3, s4, v3		; SI-NEXT: v_mul_f32_e32 v3, 0x3fb8aa3b, v3
; SI-NEXT: v_exp_f32_e32 v0, v0		; SI-NEXT: v_exp_f32_e32 v0, v0
; SI-NEXT: v_exp_f32_e32 v1, v1		; SI-NEXT: v_exp_f32_e32 v1, v1
; SI-NEXT: v_exp_f32_e32 v2, v2		; SI-NEXT: v_exp_f32_e32 v2, v2
; SI-NEXT: v_exp_f32_e32 v3, v3		; SI-NEXT: v_exp_f32_e32 v3, v3
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_exp_v4f16:		; VI-LABEL: v_exp_v4f16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_movk_i32 s4, 0x3dc5
; VI-NEXT: v_mov_b32_e32 v3, 0x3dc5		; VI-NEXT: v_mov_b32_e32 v3, 0x3dc5
; VI-NEXT: v_mul_f16_e32 v2, s4, v1		; VI-NEXT: v_mul_f16_e32 v2, 0x3dc5, v1
; VI-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-NEXT: v_mul_f16_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_mul_f16_e32 v4, s4, v0		; VI-NEXT: v_mul_f16_e32 v4, 0x3dc5, v0
; VI-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-NEXT: v_mul_f16_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-NEXT: v_exp_f16_e32 v2, v2		; VI-NEXT: v_exp_f16_e32 v2, v2
; VI-NEXT: v_exp_f16_e32 v4, v4		; VI-NEXT: v_exp_f16_e32 v4, v4
; VI-NEXT: v_exp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD		; VI-NEXT: v_exp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
; VI-NEXT: v_exp_f16_sdwa v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD		; VI-NEXT: v_exp_f16_sdwa v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
; VI-NEXT: v_or_b32_e32 v0, v4, v0		; VI-NEXT: v_or_b32_e32 v0, v4, v0
; VI-NEXT: v_or_b32_e32 v1, v2, v1		; VI-NEXT: v_or_b32_e32 v1, v2, v1
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_exp_v4f16:		; GFX9-LABEL: v_exp_v4f16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_movk_i32 s4, 0x3dc5		; GFX9-NEXT: s_movk_i32 s4, 0x3dc5
; GFX9-NEXT: v_mul_f16_e32 v2, s4, v1		; GFX9-NEXT: v_mul_f16_e32 v2, 0x3dc5, v1
; GFX9-NEXT: v_mul_f16_sdwa v1, v1, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-NEXT: v_mul_f16_sdwa v1, v1, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-NEXT: v_mul_f16_e32 v3, s4, v0		; GFX9-NEXT: v_mul_f16_e32 v3, 0x3dc5, v0
; GFX9-NEXT: v_mul_f16_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; GFX9-NEXT: v_mul_f16_sdwa v0, v0, s4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; GFX9-NEXT: v_exp_f16_e32 v2, v2		; GFX9-NEXT: v_exp_f16_e32 v2, v2
; GFX9-NEXT: v_exp_f16_e32 v3, v3		; GFX9-NEXT: v_exp_f16_e32 v3, v3
; GFX9-NEXT: v_exp_f16_e32 v0, v0		; GFX9-NEXT: v_exp_f16_e32 v0, v0
; GFX9-NEXT: v_exp_f16_e32 v1, v1		; GFX9-NEXT: v_exp_f16_e32 v1, v1
; GFX9-NEXT: v_pack_b32_f16 v0, v3, v0		; GFX9-NEXT: v_pack_b32_f16 v0, v3, v0
; GFX9-NEXT: v_pack_b32_f16 v1, v2, v1		; GFX9-NEXT: v_pack_b32_f16 v1, v2, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
Show All 14 Lines

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

Show First 20 Lines • Show All 509 Lines • ▼ Show 20 Lines	bb:
ret void		ret void
}		}

define amdgpu_kernel void @store_load_vindex_kernel() {		define amdgpu_kernel void @store_load_vindex_kernel() {
; GFX9-LABEL: store_load_vindex_kernel:		; GFX9-LABEL: store_load_vindex_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 4
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-NEXT: v_add_u32_e32 v1, 4, v0
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: scratch_store_dword v2, v3, off		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 4, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_kernel:		; GFX10-LABEL: store_load_vindex_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
Show All 10 Lines
; GFX10-NEXT: s_endpgm		; GFX10-NEXT: s_endpgm
;		;
; GFX9-PAL-LABEL: store_load_vindex_kernel:		; GFX9-PAL-LABEL: store_load_vindex_kernel:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]		; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
; GFX9-PAL-NEXT: s_mov_b32 s2, s0		; GFX9-PAL-NEXT: s_mov_b32 s2, s0
; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0		; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, 4		; GFX9-PAL-NEXT: v_add_u32_e32 v1, 4, v0
; GFX9-PAL-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-PAL-NEXT: v_mov_b32_e32 v2, 15
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15		; GFX9-PAL-NEXT: v_sub_u32_e32 v0, 4, v0
; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff		; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1		; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0		; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off		; GFX9-PAL-NEXT: scratch_store_dword v1, v2, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_sub_u32_e32 v0, v1, v0
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_endpgm		; GFX9-PAL-NEXT: s_endpgm
;		;
; GFX940-LABEL: store_load_vindex_kernel:		; GFX940-LABEL: store_load_vindex_kernel:
; GFX940: ; %bb.0: ; %bb		; GFX940: ; %bb.0: ; %bb
; GFX940-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX940-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX940-NEXT: v_mov_b32_e32 v1, 15		; GFX940-NEXT: v_mov_b32_e32 v1, 15
▲ Show 20 Lines • Show All 793 Lines • ▼ Show 20 Lines
; GFX9-LABEL: store_load_vindex_small_offset_kernel:		; GFX9-LABEL: store_load_vindex_small_offset_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0x104		; GFX9-NEXT: v_add_u32_e32 v1, 0x104, v0
; GFX9-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: scratch_store_dword v2, v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 0x104, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_small_offset_kernel:		; GFX10-LABEL: store_load_vindex_small_offset_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
Show All 13 Lines
;		;
; GFX9-PAL-LABEL: store_load_vindex_small_offset_kernel:		; GFX9-PAL-LABEL: store_load_vindex_small_offset_kernel:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]		; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
; GFX9-PAL-NEXT: s_mov_b32 s2, s0		; GFX9-PAL-NEXT: s_mov_b32 s2, s0
; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0		; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15		; GFX9-PAL-NEXT: v_mov_b32_e32 v2, 15
; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff		; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1		; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0		; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
; GFX9-PAL-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-PAL-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, 0x104		; GFX9-PAL-NEXT: v_add_u32_e32 v1, 0x104, v0
; GFX9-PAL-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-PAL-NEXT: scratch_store_dword v1, v2, off
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_sub_u32_e32 v0, v1, v0		; GFX9-PAL-NEXT: v_sub_u32_e32 v0, 0x104, v0
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_endpgm		; GFX9-PAL-NEXT: s_endpgm
;		;
; GFX940-LABEL: store_load_vindex_small_offset_kernel:		; GFX940-LABEL: store_load_vindex_small_offset_kernel:
; GFX940: ; %bb.0: ; %bb		; GFX940: ; %bb.0: ; %bb
; GFX940-NEXT: scratch_load_dword v1, off, off offset:4 sc0 sc1		; GFX940-NEXT: scratch_load_dword v1, off, off offset:4 sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0)
▲ Show 20 Lines • Show All 824 Lines • ▼ Show 20 Lines
; GFX9-LABEL: store_load_vindex_large_offset_kernel:		; GFX9-LABEL: store_load_vindex_large_offset_kernel:
; GFX9: ; %bb.0: ; %bb		; GFX9: ; %bb.0: ; %bb
; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3		; GFX9-NEXT: s_add_u32 flat_scratch_lo, s0, s3
; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0		; GFX9-NEXT: s_addc_u32 flat_scratch_hi, s1, 0
; GFX9-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: v_mov_b32_e32 v1, 0x4004		; GFX9-NEXT: v_add_u32_e32 v1, 0x4004, v0
; GFX9-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-NEXT: v_mov_b32_e32 v2, 15
; GFX9-NEXT: v_mov_b32_e32 v3, 15		; GFX9-NEXT: scratch_store_dword v1, v2, off
; GFX9-NEXT: scratch_store_dword v2, v3, off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_sub_u32_e32 v0, v1, v0		; GFX9-NEXT: v_sub_u32_e32 v0, 0x4004, v0
; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX10-LABEL: store_load_vindex_large_offset_kernel:		; GFX10-LABEL: store_load_vindex_large_offset_kernel:
; GFX10: ; %bb.0: ; %bb		; GFX10: ; %bb.0: ; %bb
; GFX10-NEXT: s_add_u32 s0, s0, s3		; GFX10-NEXT: s_add_u32 s0, s0, s3
; GFX10-NEXT: s_addc_u32 s1, s1, 0		; GFX10-NEXT: s_addc_u32 s1, s1, 0
Show All 13 Lines
;		;
; GFX9-PAL-LABEL: store_load_vindex_large_offset_kernel:		; GFX9-PAL-LABEL: store_load_vindex_large_offset_kernel:
; GFX9-PAL: ; %bb.0: ; %bb		; GFX9-PAL: ; %bb.0: ; %bb
; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]		; GFX9-PAL-NEXT: s_getpc_b64 s[2:3]
; GFX9-PAL-NEXT: s_mov_b32 s2, s0		; GFX9-PAL-NEXT: s_mov_b32 s2, s0
; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0		; GFX9-PAL-NEXT: s_load_dwordx2 s[2:3], s[2:3], 0x0
; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0		; GFX9-PAL-NEXT: s_mov_b32 vcc_hi, 0
; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-PAL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-PAL-NEXT: v_mov_b32_e32 v3, 15		; GFX9-PAL-NEXT: v_mov_b32_e32 v2, 15
; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff		; GFX9-PAL-NEXT: s_and_b32 s3, s3, 0xffff
; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1		; GFX9-PAL-NEXT: s_add_u32 flat_scratch_lo, s2, s1
; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0		; GFX9-PAL-NEXT: s_addc_u32 flat_scratch_hi, s3, 0
; GFX9-PAL-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc		; GFX9-PAL-NEXT: scratch_load_dword v1, off, vcc_hi offset:4 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_mov_b32_e32 v1, 0x4004		; GFX9-PAL-NEXT: v_add_u32_e32 v1, 0x4004, v0
; GFX9-PAL-NEXT: v_add_u32_e32 v2, v1, v0		; GFX9-PAL-NEXT: scratch_store_dword v1, v2, off
; GFX9-PAL-NEXT: scratch_store_dword v2, v3, off
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: v_sub_u32_e32 v0, v1, v0		; GFX9-PAL-NEXT: v_sub_u32_e32 v0, 0x4004, v0
; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc		; GFX9-PAL-NEXT: scratch_load_dword v0, v0, off offset:124 glc
; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)		; GFX9-PAL-NEXT: s_waitcnt vmcnt(0)
; GFX9-PAL-NEXT: s_endpgm		; GFX9-PAL-NEXT: s_endpgm
;		;
; GFX940-LABEL: store_load_vindex_large_offset_kernel:		; GFX940-LABEL: store_load_vindex_large_offset_kernel:
; GFX940: ; %bb.0: ; %bb		; GFX940: ; %bb.0: ; %bb
; GFX940-NEXT: scratch_load_dword v1, off, off offset:4 sc0 sc1		; GFX940-NEXT: scratch_load_dword v1, off, off offset:4 sc0 sc1
; GFX940-NEXT: s_waitcnt vmcnt(0)		; GFX940-NEXT: s_waitcnt vmcnt(0)
▲ Show 20 Lines • Show All 1,137 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fmax_legacy.f16.ll

	Show First 20 Lines • Show All 235 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v7, v6			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v7, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, v2, v0			; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v4f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v4f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_max_f16 v0, v0, v2
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v7			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v3, v7
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v2, v6			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v2, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v5			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v1, v5
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v4			; GFX9-SAFE-NEXT: v_cmp_nle_f16_e32 vcc, v0, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX9-SAFE-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, v4, v0			; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-SAFE-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-SAFE-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-SAFE-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX9-SAFE-NEXT: v_and_b32_e32 v3, v4, v3
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0			; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2			; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3			; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v8f16:			; GFX9-NNAN-LABEL: test_fmax_legacy_ugt_v8f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	▲ Show 20 Lines • Show All 156 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fmin_legacy.f16.ll

	Show First 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v7, v6			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v7, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v6, v6, v7, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v5, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v4, v4, v5, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v3
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v2
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX9-SAFE-NEXT: v_mov_b32_e32 v2, 0xffff			; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, v2, v0			; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, v2, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0			; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v4, 16, v0
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v4f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v4f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NNAN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2			; GFX9-NNAN-NEXT: v_pk_min_f16 v0, v0, v2
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v7			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v3, v7
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v3, v7, v3, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v2, v6			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v2, v6
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v2, v6, v2, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v5			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v1, v5
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v1, v5, v1, vcc
	; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v4			; GFX9-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, v0, v4
	; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX9-SAFE-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX9-SAFE-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-SAFE-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-SAFE-NEXT: v_and_b32_e32 v0, v4, v0			; GFX9-SAFE-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-SAFE-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-SAFE-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-SAFE-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-SAFE-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX9-SAFE-NEXT: v_and_b32_e32 v3, v4, v3
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0			; GFX9-SAFE-NEXT: v_lshl_or_b32 v0, v8, 16, v0
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1			; GFX9-SAFE-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2			; GFX9-SAFE-NEXT: v_lshl_or_b32 v2, v12, 16, v2
	; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3			; GFX9-SAFE-NEXT: v_lshl_or_b32 v3, v14, 16, v3
	; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-SAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v8f16:			; GFX9-NNAN-LABEL: test_fmin_legacy_ule_v8f16:
	; GFX9-NNAN: ; %bb.0:			; GFX9-NNAN: ; %bb.0:
	▲ Show 20 Lines • Show All 156 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

Show First 20 Lines • Show All 155 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_fneg_add_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%fneg.b = fneg float %b		%fneg.b = fneg float %b
%add = fadd float %fneg.a, %fneg.b		%add = fadd float %fneg.a, %fneg.b
%fneg = fneg float %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_store_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_add_store_use_fneg_x_f32:
; GCN-SAFE-DAG: s_brev_b32 [[SIGNBIT:s[0-9]+]], 1{{$}}
; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]

; GCN-SAFE: v_xor_b32_e32 [[NEG_A:v[0-9]+]], [[SIGNBIT]], [[A]]		; GCN-SAFE: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN-SAFE: v_sub_f32_e32 [[ADD:v[0-9]+]], [[B]], [[A]]		; GCN-SAFE: v_sub_f32_e32 [[ADD:v[0-9]+]], [[B]], [[A]]
; GCN-SAFE: v_xor_b32_e32 [[NEG_ADD:v[0-9]+]], [[SIGNBIT]], [[ADD]]		; GCN-SAFE: v_xor_b32_e32 [[NEG_ADD:v[0-9]+]], 0x80000000, [[ADD]]

; GCN-NSZ-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-NSZ-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN-NSZ-DAG: v_sub_f32_e32 [[NEG_ADD:v[0-9]+]], [[A]], [[B]]		; GCN-NSZ-DAG: v_sub_f32_e32 [[NEG_ADD:v[0-9]+]], [[A]], [[B]]
; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_ADD]]		; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_ADD]]
; GCN-NSZ-NEXT: s_waitcnt vmcnt(0)		; GCN-NSZ-NEXT: s_waitcnt vmcnt(0)
; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]		; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]
; GCN-NSZ-NEXT: s_waitcnt vmcnt(0)		; GCN-NSZ-NEXT: s_waitcnt vmcnt(0)
define amdgpu_kernel void @v_fneg_add_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
▲ Show 20 Lines • Show All 2,498 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fold-imm-f16-f32.mir

Show First 20 Lines • Show All 164 Lines • ▼ Show 20 Lines	bb.0 (%ir-block.0):
S_ENDPGM 0		S_ENDPGM 0

...		...
---		---
# Materialized f32 inline immediate should not be folded into the f16		# Materialized f32 inline immediate should not be folded into the f16
# operands		# operands

# CHECK-LABEL: name: add_f32_1.0_multi_f16_use		# CHECK-LABEL: name: add_f32_1.0_multi_f16_use
# CHECK: %13:vgpr_32 = V_MOV_B32_e32 1065353216, implicit $exec		# CHECK: %14:vgpr_32 = V_ADD_F16_e32 1065353216, killed %11, implicit $mode, implicit $exec
# CHECK: %14:vgpr_32 = V_ADD_F16_e32 killed %11, %13, implicit $mode, implicit $exec		# CHECK: %15:vgpr_32 = V_ADD_F16_e32 1065353216, killed %12, implicit $mode, implicit $exec
# CHECK: %15:vgpr_32 = V_ADD_F16_e32 killed %12, killed %13, implicit $mode, implicit $exec


name: add_f32_1.0_multi_f16_use		name: add_f32_1.0_multi_f16_use
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines

...		...
---		---

# f32 1.0 should be folded for the single f32 use as an inline		# f32 1.0 should be folded for the single f32 use as an inline
# constant, and not folded as a multi-use literal for the f16 cases		# constant, and not folded as a multi-use literal for the f16 cases

# CHECK-LABEL: name: add_f32_1.0_one_f32_use_multi_f16_use		# CHECK-LABEL: name: add_f32_1.0_one_f32_use_multi_f16_use
# CHECK: %14:vgpr_32 = V_MOV_B32_e32 1065353216, implicit $exec		# CHECK: %15:vgpr_32 = V_ADD_F16_e32 1065353216, %11, implicit $mode, implicit $exec
# CHECK: %15:vgpr_32 = V_ADD_F16_e32 %11, %14, implicit $mode, implicit $exec		# CHECK: %16:vgpr_32 = V_ADD_F16_e32 1065353216, %12, implicit $mode, implicit $exec
# CHECK: %16:vgpr_32 = V_ADD_F16_e32 %12, %14, implicit $mode, implicit $exec
# CHECK: %17:vgpr_32 = V_ADD_F32_e32 1065353216, killed %13, implicit $mode, implicit $exec		# CHECK: %17:vgpr_32 = V_ADD_F32_e32 1065353216, killed %13, implicit $mode, implicit $exec

name: add_f32_1.0_one_f32_use_multi_f16_use		name: add_f32_1.0_one_f32_use_multi_f16_use
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines

...		...
---		---

# f32 1.0 should be folded for the single f32 use as an inline		# f32 1.0 should be folded for the single f32 use as an inline
# constant, and not folded as a multi-use literal for the f16 cases		# constant, and not folded as a multi-use literal for the f16 cases

# CHECK-LABEL: name: add_f16_1.0_multi_f32_use		# CHECK-LABEL: name: add_f16_1.0_multi_f32_use
# CHECK: %13:vgpr_32 = V_MOV_B32_e32 15360, implicit $exec		# CHECK: %14:vgpr_32 = V_ADD_F32_e32 15360, %11, implicit $mode, implicit $exec
# CHECK: %14:vgpr_32 = V_ADD_F32_e32 %11, %13, implicit $mode, implicit $exec		# CHECK: %15:vgpr_32 = V_ADD_F32_e32 15360, %12, implicit $mode, implicit $exec
# CHECK: %15:vgpr_32 = V_ADD_F32_e32 %12, %13, implicit $mode, implicit $exec

name: add_f16_1.0_multi_f32_use		name: add_f16_1.0_multi_f32_use
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
tracksRegLiveness: true		tracksRegLiveness: true
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	bb.0 (%ir-block.0):
BUFFER_STORE_DWORD_OFFSET killed %14, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s32) into `float addrspace(1)* undef`)		BUFFER_STORE_DWORD_OFFSET killed %14, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s32) into `float addrspace(1)* undef`)
BUFFER_STORE_DWORD_OFFSET killed %15, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s32) into `float addrspace(1)* undef`)		BUFFER_STORE_DWORD_OFFSET killed %15, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s32) into `float addrspace(1)* undef`)
S_ENDPGM 0		S_ENDPGM 0

...		...
---		---

# The low 16-bits are an inline immediate, but the high bits are junk		# The low 16-bits are an inline immediate, but the high bits are junk
# FIXME: Should be able to fold this

# CHECK-LABEL: name: add_f16_1.0_other_high_bits_multi_f16_use		# CHECK-LABEL: name: add_f16_1.0_other_high_bits_multi_f16_use
# CHECK: %13:vgpr_32 = V_MOV_B32_e32 80886784, implicit $exec		# CHECK: %14:vgpr_32 = V_ADD_F16_e32 80886784, %11, implicit $mode, implicit $exec
# CHECK: %14:vgpr_32 = V_ADD_F16_e32 %11, %13, implicit $mode, implicit $exec		# CHECK: %15:vgpr_32 = V_ADD_F16_e32 80886784, %12, implicit $mode, implicit $exec
# CHECK: %15:vgpr_32 = V_ADD_F16_e32 %12, %13, implicit $mode, implicit $exec

name: add_f16_1.0_other_high_bits_multi_f16_use		name: add_f16_1.0_other_high_bits_multi_f16_use
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
tracksRegLiveness: true		tracksRegLiveness: true
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	bb.0 (%ir-block.0):
%15 = V_ADD_F16_e64 0, %12, 0, %13, 0, 0, implicit $mode, implicit $exec		%15 = V_ADD_F16_e64 0, %12, 0, %13, 0, 0, implicit $mode, implicit $exec
BUFFER_STORE_SHORT_OFFSET killed %14, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s16) into `half addrspace(1)* undef`)		BUFFER_STORE_SHORT_OFFSET killed %14, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s16) into `half addrspace(1)* undef`)
BUFFER_STORE_SHORT_OFFSET killed %15, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s16) into `half addrspace(1)* undef`)		BUFFER_STORE_SHORT_OFFSET killed %15, %10, 0, 0, 0, 0, 0, implicit $exec :: (volatile store (s16) into `half addrspace(1)* undef`)
S_ENDPGM 0		S_ENDPGM 0

...		...
---		---

# FIXME: Should fold inline immediate into f16 and literal use into
# f32 instruction.

# CHECK-LABEL: name: add_f16_1.0_other_high_bits_use_f16_f32		# CHECK-LABEL: name: add_f16_1.0_other_high_bits_use_f16_f32
# CHECK: %13:vgpr_32 = V_MOV_B32_e32 305413120, implicit $exec		# CHECK: %14:vgpr_32 = V_ADD_F32_e32 305413120, %11, implicit $mode, implicit $exec
# CHECK: %14:vgpr_32 = V_ADD_F32_e32 %11, %13, implicit $mode, implicit $exec		# CHECK: %15:vgpr_32 = V_ADD_F16_e32 305413120, %12, implicit $mode, implicit $exec
# CHECK: %15:vgpr_32 = V_ADD_F16_e32 %12, %13, implicit $mode, implicit $exec
name: add_f16_1.0_other_high_bits_use_f16_f32		name: add_f16_1.0_other_high_bits_use_f16_f32
alignment: 1		alignment: 1
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
tracksRegLiveness: true		tracksRegLiveness: true
registers:		registers:
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fp_to_uint.ll

	Show First 20 Lines • Show All 236 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @fp_to_uint_v2f32_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x float> %x) {			define amdgpu_kernel void @fp_to_uint_v2f32_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x float> %x) {
	; SI-LABEL: fp_to_uint_v2f32_to_v2i64:			; SI-LABEL: fp_to_uint_v2f32_to_v2i64:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_mov_b32 s2, 0x2f800000			; SI-NEXT: s_mov_b32 s2, 0xcf800000
	; SI-NEXT: s_mov_b32 s3, 0xcf800000
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_trunc_f32_e32 v0, s1			; SI-NEXT: v_trunc_f32_e32 v0, s1
	; SI-NEXT: v_trunc_f32_e32 v2, s0			; SI-NEXT: v_trunc_f32_e32 v2, s0
	; SI-NEXT: v_mul_f32_e32 v1, s2, v0			; SI-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; SI-NEXT: v_mul_f32_e32 v3, s2, v2			; SI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; SI-NEXT: v_floor_f32_e32 v4, v1			; SI-NEXT: v_floor_f32_e32 v4, v1
	; SI-NEXT: v_floor_f32_e32 v5, v3			; SI-NEXT: v_floor_f32_e32 v5, v3
	; SI-NEXT: v_cvt_u32_f32_e32 v3, v4			; SI-NEXT: v_cvt_u32_f32_e32 v3, v4
	; SI-NEXT: v_cvt_u32_f32_e32 v1, v5			; SI-NEXT: v_cvt_u32_f32_e32 v1, v5
	; SI-NEXT: v_fma_f32 v0, v4, s3, v0			; SI-NEXT: v_fma_f32 v0, v4, s2, v0
	; SI-NEXT: v_fma_f32 v4, v5, s3, v2			; SI-NEXT: v_fma_f32 v4, v5, s2, v2
	; SI-NEXT: v_cvt_u32_f32_e32 v2, v0			; SI-NEXT: v_cvt_u32_f32_e32 v2, v0
	; SI-NEXT: v_cvt_u32_f32_e32 v0, v4			; SI-NEXT: v_cvt_u32_f32_e32 v0, v4
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fp_to_uint_v2f32_to_v2i64:			; VI-LABEL: fp_to_uint_v2f32_to_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s4, 0x2f800000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_trunc_f32_e32 v0, s3			; VI-NEXT: v_trunc_f32_e32 v0, s3
	; VI-NEXT: v_trunc_f32_e32 v4, s2			; VI-NEXT: v_trunc_f32_e32 v4, s2
	; VI-NEXT: v_mul_f32_e32 v1, s4, v0			; VI-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; VI-NEXT: v_mul_f32_e32 v2, s4, v4			; VI-NEXT: v_mul_f32_e32 v2, 0x2f800000, v4
	; VI-NEXT: v_floor_f32_e32 v5, v1			; VI-NEXT: v_floor_f32_e32 v5, v1
	; VI-NEXT: s_mov_b32 s2, 0xcf800000			; VI-NEXT: s_mov_b32 s2, 0xcf800000
	; VI-NEXT: v_floor_f32_e32 v6, v2			; VI-NEXT: v_floor_f32_e32 v6, v2
	; VI-NEXT: v_fma_f32 v0, v5, s2, v0			; VI-NEXT: v_fma_f32 v0, v5, s2, v0
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v0			; VI-NEXT: v_cvt_u32_f32_e32 v2, v0
	; VI-NEXT: v_fma_f32 v0, v6, s2, v4			; VI-NEXT: v_fma_f32 v0, v6, s2, v4
	; VI-NEXT: v_cvt_u32_f32_e32 v3, v5			; VI-NEXT: v_cvt_u32_f32_e32 v3, v5
	; VI-NEXT: v_cvt_u32_f32_e32 v1, v6			; VI-NEXT: v_cvt_u32_f32_e32 v1, v6
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines

	define amdgpu_kernel void @fp_to_uint_v4f32_to_v4i64(<4 x i64> addrspace(1)* %out, <4 x float> %x) {			define amdgpu_kernel void @fp_to_uint_v4f32_to_v4i64(<4 x i64> addrspace(1)* %out, <4 x float> %x) {
	; SI-LABEL: fp_to_uint_v4f32_to_v4i64:			; SI-LABEL: fp_to_uint_v4f32_to_v4i64:
	; SI: ; %bb.0:			; SI: ; %bb.0:
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_mov_b32 s8, 0x2f800000			; SI-NEXT: s_mov_b32 s8, 0xcf800000
	; SI-NEXT: s_mov_b32 s9, 0xcf800000
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_trunc_f32_e32 v0, s1			; SI-NEXT: v_trunc_f32_e32 v0, s1
	; SI-NEXT: v_trunc_f32_e32 v2, s0			; SI-NEXT: v_trunc_f32_e32 v2, s0
	; SI-NEXT: v_trunc_f32_e32 v4, s3			; SI-NEXT: v_trunc_f32_e32 v4, s3
	; SI-NEXT: v_trunc_f32_e32 v6, s2			; SI-NEXT: v_trunc_f32_e32 v6, s2
	; SI-NEXT: v_mul_f32_e32 v1, s8, v0			; SI-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; SI-NEXT: v_mul_f32_e32 v3, s8, v2			; SI-NEXT: v_mul_f32_e32 v3, 0x2f800000, v2
	; SI-NEXT: v_mul_f32_e32 v5, s8, v4			; SI-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; SI-NEXT: v_mul_f32_e32 v7, s8, v6			; SI-NEXT: v_mul_f32_e32 v7, 0x2f800000, v6
	; SI-NEXT: v_floor_f32_e32 v8, v1			; SI-NEXT: v_floor_f32_e32 v8, v1
	; SI-NEXT: v_floor_f32_e32 v9, v3			; SI-NEXT: v_floor_f32_e32 v9, v3
	; SI-NEXT: v_floor_f32_e32 v10, v5			; SI-NEXT: v_floor_f32_e32 v10, v5
	; SI-NEXT: v_floor_f32_e32 v11, v7			; SI-NEXT: v_floor_f32_e32 v11, v7
	; SI-NEXT: v_cvt_u32_f32_e32 v3, v8			; SI-NEXT: v_cvt_u32_f32_e32 v3, v8
	; SI-NEXT: v_cvt_u32_f32_e32 v1, v9			; SI-NEXT: v_cvt_u32_f32_e32 v1, v9
	; SI-NEXT: v_fma_f32 v0, v8, s9, v0			; SI-NEXT: v_fma_f32 v0, v8, s8, v0
	; SI-NEXT: v_fma_f32 v8, v9, s9, v2			; SI-NEXT: v_fma_f32 v8, v9, s8, v2
	; SI-NEXT: v_cvt_u32_f32_e32 v7, v10			; SI-NEXT: v_cvt_u32_f32_e32 v7, v10
	; SI-NEXT: v_cvt_u32_f32_e32 v5, v11			; SI-NEXT: v_cvt_u32_f32_e32 v5, v11
	; SI-NEXT: v_fma_f32 v4, v10, s9, v4			; SI-NEXT: v_fma_f32 v4, v10, s8, v4
	; SI-NEXT: v_fma_f32 v9, v11, s9, v6			; SI-NEXT: v_fma_f32 v9, v11, s8, v6
	; SI-NEXT: v_cvt_u32_f32_e32 v2, v0			; SI-NEXT: v_cvt_u32_f32_e32 v2, v0
	; SI-NEXT: v_cvt_u32_f32_e32 v0, v8			; SI-NEXT: v_cvt_u32_f32_e32 v0, v8
	; SI-NEXT: v_cvt_u32_f32_e32 v6, v4			; SI-NEXT: v_cvt_u32_f32_e32 v6, v4
	; SI-NEXT: v_cvt_u32_f32_e32 v4, v9			; SI-NEXT: v_cvt_u32_f32_e32 v4, v9
	; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fp_to_uint_v4f32_to_v4i64:			; VI-LABEL: fp_to_uint_v4f32_to_v4i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x34
	; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; VI-NEXT: s_mov_b32 s2, 0x2f800000			; VI-NEXT: s_mov_b32 s2, 0xcf800000
	; VI-NEXT: s_mov_b32 s3, 0xcf800000			; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_trunc_f32_e32 v0, s5			; VI-NEXT: v_trunc_f32_e32 v0, s5
	; VI-NEXT: v_trunc_f32_e32 v4, s4			; VI-NEXT: v_trunc_f32_e32 v4, s4
	; VI-NEXT: v_mul_f32_e32 v1, s2, v0			; VI-NEXT: v_mul_f32_e32 v1, 0x2f800000, v0
	; VI-NEXT: v_mul_f32_e32 v2, s2, v4			; VI-NEXT: v_mul_f32_e32 v2, 0x2f800000, v4
	; VI-NEXT: v_floor_f32_e32 v5, v1			; VI-NEXT: v_floor_f32_e32 v5, v1
	; VI-NEXT: v_floor_f32_e32 v6, v2			; VI-NEXT: v_floor_f32_e32 v6, v2
	; VI-NEXT: v_fma_f32 v0, v5, s3, v0			; VI-NEXT: v_fma_f32 v0, v5, s2, v0
	; VI-NEXT: v_cvt_u32_f32_e32 v2, v0			; VI-NEXT: v_cvt_u32_f32_e32 v2, v0
	; VI-NEXT: v_fma_f32 v0, v6, s3, v4			; VI-NEXT: v_fma_f32 v0, v6, s2, v4
	; VI-NEXT: v_trunc_f32_e32 v4, s7			; VI-NEXT: v_trunc_f32_e32 v4, s7
	; VI-NEXT: v_cvt_u32_f32_e32 v3, v5			; VI-NEXT: v_cvt_u32_f32_e32 v3, v5
	; VI-NEXT: v_mul_f32_e32 v5, s2, v4			; VI-NEXT: v_mul_f32_e32 v5, 0x2f800000, v4
	; VI-NEXT: v_trunc_f32_e32 v8, s6			; VI-NEXT: v_trunc_f32_e32 v8, s6
	; VI-NEXT: v_cvt_u32_f32_e32 v1, v6			; VI-NEXT: v_cvt_u32_f32_e32 v1, v6
	; VI-NEXT: v_floor_f32_e32 v6, v5			; VI-NEXT: v_floor_f32_e32 v6, v5
	; VI-NEXT: v_mul_f32_e32 v5, s2, v8			; VI-NEXT: v_mul_f32_e32 v5, 0x2f800000, v8
	; VI-NEXT: v_floor_f32_e32 v9, v5			; VI-NEXT: v_floor_f32_e32 v9, v5
	; VI-NEXT: v_fma_f32 v4, v6, s3, v4			; VI-NEXT: v_fma_f32 v4, v6, s2, v4
	; VI-NEXT: v_cvt_u32_f32_e32 v7, v6			; VI-NEXT: v_cvt_u32_f32_e32 v7, v6
	; VI-NEXT: v_cvt_u32_f32_e32 v6, v4			; VI-NEXT: v_cvt_u32_f32_e32 v6, v4
	; VI-NEXT: v_fma_f32 v4, v9, s3, v8			; VI-NEXT: v_fma_f32 v4, v9, s2, v8
	; VI-NEXT: v_cvt_u32_f32_e32 v5, v9			; VI-NEXT: v_cvt_u32_f32_e32 v5, v9
	; VI-NEXT: v_cvt_u32_f32_e32 v4, v4			; VI-NEXT: v_cvt_u32_f32_e32 v4, v4
	; VI-NEXT: v_cvt_u32_f32_e32 v0, v0			; VI-NEXT: v_cvt_u32_f32_e32 v0, v0
	; VI-NEXT: s_mov_b32 s3, 0xf000
	; VI-NEXT: s_mov_b32 s2, -1			; VI-NEXT: s_mov_b32 s2, -1
	; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16			; VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
	; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; EG-LABEL: fp_to_uint_v4f32_to_v4i64:			; EG-LABEL: fp_to_uint_v4f32_to_v4i64:
	; EG: ; %bb.0:			; EG: ; %bb.0:
	; EG-NEXT: ALU 101, @6, KC0[CB0:0-32], KC1[]			; EG-NEXT: ALU 101, @6, KC0[CB0:0-32], KC1[]
	▲ Show 20 Lines • Show All 320 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fpow.ll

	Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX6-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: s_mov_b32 s4, 0x80008000			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s4, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX6-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-NEXT: v_or_b32_e32 v2, v2, v3			; GFX6-NEXT: v_or_b32_e32 v2, v2, v3
	; GFX6-NEXT: v_xor_b32_e32 v2, s4, v2			; GFX6-NEXT: v_xor_b32_e32 v2, 0x80008000, v2
	; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; GFX6-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2			; GFX6-NEXT: v_cvt_f32_f16_e32 v2, v2
	; GFX6-NEXT: v_log_f32_e32 v0, v0			; GFX6-NEXT: v_log_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3			; GFX6-NEXT: v_cvt_f32_f16_e32 v3, v3
	; GFX6-NEXT: v_log_f32_e32 v1, v1			; GFX6-NEXT: v_log_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v2, v0			; GFX6-NEXT: v_mul_legacy_f32_e32 v0, v2, v0
	; GFX6-NEXT: v_exp_f32_e32 v0, v0			; GFX6-NEXT: v_exp_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v3, v1			; GFX6-NEXT: v_mul_legacy_f32_e32 v1, v3, v1
	▲ Show 20 Lines • Show All 352 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/frem.ll

	Show First 20 Lines • Show All 2,613 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_bfe_u32 v10, v9, 20, 11			; SI-NEXT: v_bfe_u32 v10, v9, 20, 11
	; SI-NEXT: v_add_i32_e32 v12, vcc, 0xfffffc01, v10			; SI-NEXT: v_add_i32_e32 v12, vcc, 0xfffffc01, v10
	; SI-NEXT: s_mov_b32 s3, 0xfffff			; SI-NEXT: s_mov_b32 s3, 0xfffff
	; SI-NEXT: v_lshr_b64 v[10:11], s[2:3], v12			; SI-NEXT: v_lshr_b64 v[10:11], s[2:3], v12
	; SI-NEXT: v_not_b32_e32 v10, v10			; SI-NEXT: v_not_b32_e32 v10, v10
	; SI-NEXT: v_and_b32_e32 v10, v8, v10			; SI-NEXT: v_and_b32_e32 v10, v8, v10
	; SI-NEXT: v_not_b32_e32 v11, v11			; SI-NEXT: v_not_b32_e32 v11, v11
	; SI-NEXT: v_and_b32_e32 v11, v9, v11			; SI-NEXT: v_and_b32_e32 v11, v9, v11
	; SI-NEXT: s_brev_b32 s8, 1			; SI-NEXT: v_and_b32_e32 v13, 0x80000000, v9
	; SI-NEXT: v_and_b32_e32 v13, s8, v9
	; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v12			; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v12
	; SI-NEXT: v_cndmask_b32_e32 v11, v11, v13, vcc			; SI-NEXT: v_cndmask_b32_e32 v11, v11, v13, vcc
	; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v12			; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v12
	; SI-NEXT: v_cndmask_b32_e64 v9, v11, v9, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v9, v11, v9, s[0:1]
	; SI-NEXT: v_cndmask_b32_e64 v10, v10, 0, vcc			; SI-NEXT: v_cndmask_b32_e64 v10, v10, 0, vcc
	; SI-NEXT: v_cndmask_b32_e64 v8, v10, v8, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v8, v10, v8, s[0:1]
	; SI-NEXT: v_fma_f64 v[2:3], -v[8:9], v[6:7], v[2:3]			; SI-NEXT: v_fma_f64 v[2:3], -v[8:9], v[6:7], v[2:3]
	; SI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[0:1]			; SI-NEXT: v_div_scale_f64 v[6:7], s[0:1], v[4:5], v[4:5], v[0:1]
	Show All 13 Lines
	; SI-NEXT: v_div_fixup_f64 v[6:7], v[6:7], v[4:5], v[0:1]			; SI-NEXT: v_div_fixup_f64 v[6:7], v[6:7], v[4:5], v[0:1]
	; SI-NEXT: v_bfe_u32 v8, v7, 20, 11			; SI-NEXT: v_bfe_u32 v8, v7, 20, 11
	; SI-NEXT: v_add_i32_e32 v10, vcc, 0xfffffc01, v8			; SI-NEXT: v_add_i32_e32 v10, vcc, 0xfffffc01, v8
	; SI-NEXT: v_lshr_b64 v[8:9], s[2:3], v10			; SI-NEXT: v_lshr_b64 v[8:9], s[2:3], v10
	; SI-NEXT: v_not_b32_e32 v8, v8			; SI-NEXT: v_not_b32_e32 v8, v8
	; SI-NEXT: v_and_b32_e32 v8, v6, v8			; SI-NEXT: v_and_b32_e32 v8, v6, v8
	; SI-NEXT: v_not_b32_e32 v9, v9			; SI-NEXT: v_not_b32_e32 v9, v9
	; SI-NEXT: v_and_b32_e32 v9, v7, v9			; SI-NEXT: v_and_b32_e32 v9, v7, v9
	; SI-NEXT: v_and_b32_e32 v11, s8, v7			; SI-NEXT: v_and_b32_e32 v11, 0x80000000, v7
	; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v10			; SI-NEXT: v_cmp_gt_i32_e32 vcc, 0, v10
	; SI-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc			; SI-NEXT: v_cndmask_b32_e32 v9, v9, v11, vcc
	; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v10			; SI-NEXT: v_cmp_lt_i32_e64 s[0:1], 51, v10
	; SI-NEXT: v_cndmask_b32_e64 v7, v9, v7, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v7, v9, v7, s[0:1]
	; SI-NEXT: v_cndmask_b32_e64 v8, v8, 0, vcc			; SI-NEXT: v_cndmask_b32_e64 v8, v8, 0, vcc
	; SI-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[0:1]			; SI-NEXT: v_cndmask_b32_e64 v6, v8, v6, s[0:1]
	; SI-NEXT: v_fma_f64 v[0:1], -v[6:7], v[4:5], v[0:1]			; SI-NEXT: v_fma_f64 v[0:1], -v[6:7], v[4:5], v[0:1]
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	▲ Show 20 Lines • Show All 188 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

Show First 20 Lines • Show All 691 Lines • ▼ Show 20 Lines
; VI-NEXT: v_or_b32_e32 v0, v0, v1		; VI-NEXT: v_or_b32_e32 v0, v0, v1
; VI-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; VI-NEXT: v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v2i16:		; GFX9-LABEL: v_fshr_v2i16:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2		; GFX9-NEXT: v_xor_b32_e32 v3, -1, v2
; GFX9-NEXT: s_mov_b32 s4, 0xf000f
; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]		; GFX9-NEXT: v_pk_lshlrev_b16 v0, 1, v0 op_sel_hi:[0,1]
; GFX9-NEXT: v_and_b32_e32 v3, s4, v3		; GFX9-NEXT: v_and_b32_e32 v3, 0xf000f, v3
; GFX9-NEXT: v_and_b32_e32 v2, s4, v2		; GFX9-NEXT: v_and_b32_e32 v2, 0xf000f, v2
; GFX9-NEXT: v_pk_lshlrev_b16 v0, v3, v0		; GFX9-NEXT: v_pk_lshlrev_b16 v0, v3, v0
; GFX9-NEXT: v_pk_lshrrev_b16 v1, v2, v1		; GFX9-NEXT: v_pk_lshrrev_b16 v1, v2, v1
; GFX9-NEXT: v_or_b32_e32 v0, v0, v1		; GFX9-NEXT: v_or_b32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; R600-LABEL: v_fshr_v2i16:		; R600-LABEL: v_fshr_v2i16:
; R600: ; %bb.0:		; R600: ; %bb.0:
; R600-NEXT: CF_END		; R600-NEXT: CF_END
Show All 20 Lines
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: v_or_b32_e32 v7, 16, v7		; SI-NEXT: v_or_b32_e32 v7, 16, v7
; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; SI-NEXT: v_alignbit_b32 v1, v1, v4, v7		; SI-NEXT: v_alignbit_b32 v1, v1, v4, v7
; SI-NEXT: v_or_b32_e32 v4, 16, v6		; SI-NEXT: v_or_b32_e32 v4, 16, v6
; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; SI-NEXT: v_alignbit_b32 v0, v0, v3, v4		; SI-NEXT: v_alignbit_b32 v0, v0, v3, v4
; SI-NEXT: s_mov_b32 s4, 0xffff
; SI-NEXT: v_or_b32_e32 v3, 16, v8		; SI-NEXT: v_or_b32_e32 v3, 16, v8
; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v5		; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v5
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; SI-NEXT: v_and_b32_e32 v0, s4, v0		; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; SI-NEXT: v_alignbit_b32 v3, v2, v4, v3		; SI-NEXT: v_alignbit_b32 v3, v2, v4, v3
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_and_b32_e32 v2, s4, v3		; SI-NEXT: v_and_b32_e32 v2, 0xffff, v3
; SI-NEXT: v_alignbit_b32 v1, v3, v1, 16		; SI-NEXT: v_alignbit_b32 v1, v3, v1, 16
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_fshr_v3i16:		; VI-LABEL: v_fshr_v3i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v4		; VI-NEXT: v_lshrrev_b32_e32 v6, 16, v4
; VI-NEXT: v_mov_b32_e32 v8, 1		; VI-NEXT: v_mov_b32_e32 v8, 1
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
; SI-NEXT: v_or_b32_e32 v5, 16, v8		; SI-NEXT: v_or_b32_e32 v5, 16, v8
; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; SI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; SI-NEXT: v_alignbit_b32 v0, v0, v4, v5		; SI-NEXT: v_alignbit_b32 v0, v0, v4, v5
; SI-NEXT: v_or_b32_e32 v4, 16, v11		; SI-NEXT: v_or_b32_e32 v4, 16, v11
; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v7		; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v7
; SI-NEXT: v_alignbit_b32 v3, v3, v5, v4		; SI-NEXT: v_alignbit_b32 v3, v3, v5, v4
; SI-NEXT: v_or_b32_e32 v4, 16, v10		; SI-NEXT: v_or_b32_e32 v4, 16, v10
; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v6		; SI-NEXT: v_lshlrev_b32_e32 v5, 16, v6
; SI-NEXT: s_mov_b32 s4, 0xffff
; SI-NEXT: v_alignbit_b32 v2, v2, v5, v4		; SI-NEXT: v_alignbit_b32 v2, v2, v5, v4
; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; SI-NEXT: v_and_b32_e32 v2, s4, v2		; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; SI-NEXT: v_and_b32_e32 v0, s4, v0		; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; SI-NEXT: v_or_b32_e32 v2, v2, v3		; SI-NEXT: v_or_b32_e32 v2, v2, v3
; SI-NEXT: v_or_b32_e32 v0, v0, v1		; SI-NEXT: v_or_b32_e32 v0, v0, v1
; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16		; SI-NEXT: v_alignbit_b32 v1, v2, v1, 16
; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2		; SI-NEXT: v_lshrrev_b32_e32 v3, 16, v2
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_fshr_v4i16:		; VI-LABEL: v_fshr_v4i16:
; VI: ; %bb.0:		; VI: ; %bb.0:
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1		; GFX9-NEXT: v_lshlrev_b16_e32 v1, v8, v1
; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3		; GFX9-NEXT: v_lshrrev_b16_e32 v3, v5, v3
; GFX9-NEXT: v_or_b32_e32 v1, v1, v3		; GFX9-NEXT: v_or_b32_e32 v1, v1, v3
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 1, v0
; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4		; GFX9-NEXT: v_xor_b32_e32 v3, -1, v4
; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, v3, v0
; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2		; GFX9-NEXT: v_lshrrev_b16_e32 v2, v4, v2
; GFX9-NEXT: v_or_b32_e32 v0, v0, v2		; GFX9-NEXT: v_or_b32_e32 v0, v0, v2
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: v_or_b32_e32 v7, v7, v9		; GFX9-NEXT: v_or_b32_e32 v7, v7, v9
; GFX9-NEXT: v_and_b32_e32 v0, v2, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v1, v2, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1		; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; R600-LABEL: v_fshr_v4i16:		; R600-LABEL: v_fshr_v4i16:
; R600: ; %bb.0:		; R600: ; %bb.0:
; R600-NEXT: CF_END		; R600-NEXT: CF_END
; R600-NEXT: PAD		; R600-NEXT: PAD
▲ Show 20 Lines • Show All 233 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%ret = call i24 @llvm.fshr.i24(i24 %src0, i24 %src1, i24 %src2)		%ret = call i24 @llvm.fshr.i24(i24 %src0, i24 %src1, i24 %src2)
ret i24 %ret		ret i24 %ret
}		}

define <2 x i24> @v_fshr_v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2) {		define <2 x i24> @v_fshr_v2i24(<2 x i24> %src0, <2 x i24> %src1, <2 x i24> %src2) {
; SI-LABEL: v_fshr_v2i24:		; SI-LABEL: v_fshr_v2i24:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; SI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; SI-NEXT: s_mov_b32 s4, 0xffffff		; SI-NEXT: v_and_b32_e32 v6, 0xffffff, v4
; SI-NEXT: v_and_b32_e32 v6, s4, v4		; SI-NEXT: s_mov_b32 s4, 0xaaaaaaab
; SI-NEXT: s_mov_b32 s5, 0xaaaaaaab		; SI-NEXT: v_mul_hi_u32 v6, v6, s4
; SI-NEXT: v_mul_hi_u32 v6, v6, s5		; SI-NEXT: v_and_b32_e32 v7, 0xffffff, v5
; SI-NEXT: v_and_b32_e32 v7, s4, v5
; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; SI-NEXT: v_lshrrev_b32_e32 v6, 4, v6		; SI-NEXT: v_lshrrev_b32_e32 v6, 4, v6
; SI-NEXT: v_mul_u32_u24_e32 v6, 24, v6		; SI-NEXT: v_mul_u32_u24_e32 v6, 24, v6
; SI-NEXT: v_sub_i32_e32 v4, vcc, v4, v6		; SI-NEXT: v_sub_i32_e32 v4, vcc, v4, v6
; SI-NEXT: v_mul_hi_u32 v6, v7, s5		; SI-NEXT: v_mul_hi_u32 v6, v7, s4
; SI-NEXT: v_add_i32_e32 v4, vcc, 8, v4		; SI-NEXT: v_add_i32_e32 v4, vcc, 8, v4
; SI-NEXT: v_alignbit_b32 v0, v0, v2, v4		; SI-NEXT: v_alignbit_b32 v0, v0, v2, v4
; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v3		; SI-NEXT: v_lshlrev_b32_e32 v2, 8, v3
; SI-NEXT: v_lshrrev_b32_e32 v3, 4, v6		; SI-NEXT: v_lshrrev_b32_e32 v3, 4, v6
; SI-NEXT: v_mul_u32_u24_e32 v3, 24, v3		; SI-NEXT: v_mul_u32_u24_e32 v3, 24, v3
; SI-NEXT: v_sub_i32_e32 v3, vcc, v5, v3		; SI-NEXT: v_sub_i32_e32 v3, vcc, v5, v3
; SI-NEXT: v_add_i32_e32 v3, vcc, 8, v3		; SI-NEXT: v_add_i32_e32 v3, vcc, 8, v3
; SI-NEXT: v_alignbit_b32 v1, v1, v2, v3		; SI-NEXT: v_alignbit_b32 v1, v1, v2, v3
; SI-NEXT: s_setpc_b64 s[30:31]		; SI-NEXT: s_setpc_b64 s[30:31]
;		;
; VI-LABEL: v_fshr_v2i24:		; VI-LABEL: v_fshr_v2i24:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; VI-NEXT: s_mov_b32 s4, 0xffffff		; VI-NEXT: v_and_b32_e32 v6, 0xffffff, v4
; VI-NEXT: v_and_b32_e32 v6, s4, v4		; VI-NEXT: s_mov_b32 s4, 0xaaaaaaab
; VI-NEXT: s_mov_b32 s5, 0xaaaaaaab		; VI-NEXT: v_mul_hi_u32 v6, v6, s4
; VI-NEXT: v_mul_hi_u32 v6, v6, s5		; VI-NEXT: v_and_b32_e32 v7, 0xffffff, v5
; VI-NEXT: v_and_b32_e32 v7, s4, v5
; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; VI-NEXT: v_lshrrev_b32_e32 v6, 4, v6		; VI-NEXT: v_lshrrev_b32_e32 v6, 4, v6
; VI-NEXT: v_mul_u32_u24_e32 v6, 24, v6		; VI-NEXT: v_mul_u32_u24_e32 v6, 24, v6
; VI-NEXT: v_sub_u32_e32 v4, vcc, v4, v6		; VI-NEXT: v_sub_u32_e32 v4, vcc, v4, v6
; VI-NEXT: v_mul_hi_u32 v6, v7, s5		; VI-NEXT: v_mul_hi_u32 v6, v7, s4
; VI-NEXT: v_add_u32_e32 v4, vcc, 8, v4		; VI-NEXT: v_add_u32_e32 v4, vcc, 8, v4
; VI-NEXT: v_alignbit_b32 v0, v0, v2, v4		; VI-NEXT: v_alignbit_b32 v0, v0, v2, v4
; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v3		; VI-NEXT: v_lshlrev_b32_e32 v2, 8, v3
; VI-NEXT: v_lshrrev_b32_e32 v3, 4, v6		; VI-NEXT: v_lshrrev_b32_e32 v3, 4, v6
; VI-NEXT: v_mul_u32_u24_e32 v3, 24, v3		; VI-NEXT: v_mul_u32_u24_e32 v3, 24, v3
; VI-NEXT: v_sub_u32_e32 v3, vcc, v5, v3		; VI-NEXT: v_sub_u32_e32 v3, vcc, v5, v3
; VI-NEXT: v_add_u32_e32 v3, vcc, 8, v3		; VI-NEXT: v_add_u32_e32 v3, vcc, 8, v3
; VI-NEXT: v_alignbit_b32 v1, v1, v2, v3		; VI-NEXT: v_alignbit_b32 v1, v1, v2, v3
; VI-NEXT: s_setpc_b64 s[30:31]		; VI-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX9-LABEL: v_fshr_v2i24:		; GFX9-LABEL: v_fshr_v2i24:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: s_mov_b32 s4, 0xffffff		; GFX9-NEXT: v_and_b32_e32 v6, 0xffffff, v4
; GFX9-NEXT: v_and_b32_e32 v6, s4, v4		; GFX9-NEXT: s_mov_b32 s4, 0xaaaaaaab
; GFX9-NEXT: s_mov_b32 s5, 0xaaaaaaab		; GFX9-NEXT: v_mul_hi_u32 v6, v6, s4
; GFX9-NEXT: v_mul_hi_u32 v6, v6, s5		; GFX9-NEXT: v_and_b32_e32 v7, 0xffffff, v5
; GFX9-NEXT: v_and_b32_e32 v7, s4, v5
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v2
; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6		; GFX9-NEXT: v_lshrrev_b32_e32 v6, 4, v6
; GFX9-NEXT: v_mul_u32_u24_e32 v6, 24, v6		; GFX9-NEXT: v_mul_u32_u24_e32 v6, 24, v6
; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6		; GFX9-NEXT: v_sub_u32_e32 v4, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v6, v7, s5		; GFX9-NEXT: v_mul_hi_u32 v6, v7, s4
; GFX9-NEXT: v_add_u32_e32 v4, 8, v4		; GFX9-NEXT: v_add_u32_e32 v4, 8, v4
; GFX9-NEXT: v_alignbit_b32 v0, v0, v2, v4		; GFX9-NEXT: v_alignbit_b32 v0, v0, v2, v4
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 8, v3
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 4, v6		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 4, v6
; GFX9-NEXT: v_mul_u32_u24_e32 v3, 24, v3		; GFX9-NEXT: v_mul_u32_u24_e32 v3, 24, v3
; GFX9-NEXT: v_sub_u32_e32 v3, v5, v3		; GFX9-NEXT: v_sub_u32_e32 v3, v5, v3
; GFX9-NEXT: v_add_u32_e32 v3, 8, v3		; GFX9-NEXT: v_add_u32_e32 v3, 8, v3
; GFX9-NEXT: v_alignbit_b32 v1, v1, v2, v3		; GFX9-NEXT: v_alignbit_b32 v1, v1, v2, v3
Show All 31 Lines

llvm/test/CodeGen/AMDGPU/idot2.ll

	Show All 18 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2:			; GFX8-LABEL: udot2:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2:			; GFX9-NODL-LABEL: udot2:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v2			; GFX7-NEXT: v_mul_u32_u24_e32 v0, v0, v2
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, s5, v0			; GFX7-NEXT: v_add_i32_e32 v0, vcc, s4, v0
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_MulMul:			; GFX8-LABEL: udot2_MulMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_alt_AddOperands:			; GFX8-LABEL: udot2_alt_AddOperands:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_alt_AddOperands:			; GFX9-NODL-LABEL: udot2_alt_AddOperands:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: s_mov_b32 s0, 0xffff
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_and_b32_e32 v3, s0, v1			; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, s0, v2			; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xffff, v2
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v2, v1, s1			; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v2, v1, s0
	; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v4, v3, v1			; GFX9-NODL-NEXT: v_mad_u32_u24 v1, v4, v3, v1
	; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot2_alt_AddOperands:			; GFX9-DL-LABEL: udot2_alt_AddOperands:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	▲ Show 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]			; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]
	; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]			; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v0			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, s5			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_v4i16:			; GFX8-LABEL: udot2_v4i16:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: flat_load_dword v1, v[2:3]			; GFX8-NEXT: flat_load_dword v1, v[2:3]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, s2, v1			; GFX8-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v1, v0, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v1, v0, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v3, v2, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v3, v2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_v4i16:			; GFX9-NODL-LABEL: udot2_v4i16:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: s_mov_b32 s10, 0			; GFX7-NEXT: s_mov_b32 s10, 0
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64 offset:4			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64 offset:4
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64 offset:4			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64 offset:4
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v0			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, s5			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v1, v0
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_v4i16_Hi:			; GFX8-LABEL: udot2_v4i16_Hi:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, s4, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, s4, v0
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_add_u32_e32 v4, vcc, s6, v0			; GFX8-NEXT: v_add_u32_e32 v4, vcc, s6, v0
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v2, v[0:1]			; GFX8-NEXT: flat_load_dword v2, v[0:1]
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v4			; GFX8-NEXT: v_add_u32_e32 v0, vcc, 4, v4
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v2			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, s2, v0			; GFX8-NEXT: v_and_b32_e32 v3, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v2, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v2, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v3, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v3, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_v4i16_Hi:			; GFX9-NODL-LABEL: udot2_v4i16_Hi:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]			; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]
	; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]			; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
	; GFX7-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: notudot2_v4i16_Even:			; GFX8-LABEL: notudot2_v4i16_Even:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, s2, v3			; GFX8-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX8-NEXT: v_and_b32_e32 v0, s2, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v2			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v1, v3, v1, s3			; GFX8-NEXT: v_mad_u32_u24 v1, v3, v1, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v0, v1			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: notudot2_v4i16_Even:			; GFX9-NODL-LABEL: notudot2_v4i16_Even:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]			; GFX7-NEXT: s_mov_b64 s[4:5], s[6:7]
	; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]			; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
	; GFX7-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64			; GFX7-NEXT: buffer_load_dwordx2 v[0:1], v[0:1], s[4:7], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v1			; GFX7-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v3, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: notudot2_v4i16_Middle:			; GFX8-LABEL: notudot2_v4i16_Middle:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s7			; GFX8-NEXT: v_mov_b32_e32 v3, s7
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v2, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; GFX8-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[2:3]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v1			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v3, s2, v3			; GFX8-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v1, v3, v1, s3			; GFX8-NEXT: v_mad_u32_u24 v1, v3, v1, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v0, v1			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: notudot2_v4i16_Middle:			; GFX9-NODL-LABEL: notudot2_v4i16_Middle:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v1, s5			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v1, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v2, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v2, v0
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: notudot2_DiffIndex:			; GFX8-LABEL: notudot2_DiffIndex:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: v_and_b32_e32 v0, s2, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s2
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: notudot2_DiffIndex:			; GFX9-NODL-LABEL: notudot2_DiffIndex:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_MultipleUses_add1:			; GFX8-LABEL: udot2_MultipleUses_add1:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, s2
	; GFX8-NEXT: v_mad_u32_u24 v1, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v1, v2, v1, v0
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v1, v0			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_MultipleUses_add1:			; GFX9-NODL-LABEL: udot2_MultipleUses_add1:
	▲ Show 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v4, v0, v2, s5			; GFX7-NEXT: v_mad_u32_u24 v4, v0, v2, s4
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, v4			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, v4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_MultipleUses_mul1:			; GFX8-LABEL: udot2_MultipleUses_mul1:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v4, v2, v1, s3			; GFX8-NEXT: v_mad_u32_u24 v4, v2, v1, s2
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, v4			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, v4
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_MultipleUses_mul1:			; GFX9-NODL-LABEL: udot2_MultipleUses_mul1:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: s_mov_b32 s0, 0xffff
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_and_b32_e32 v3, s0, v1			; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, s0, v2			; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xffff, v2
	; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-NODL-NEXT: v_mul_u32_u24_e32 v2, v4, v3			; GFX9-NODL-NEXT: v_mul_u32_u24_e32 v2, v4, v3
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v4, v3, s1			; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v4, v3, s0
	; GFX9-NODL-NEXT: v_add3_u32 v1, v1, v3, v2			; GFX9-NODL-NEXT: v_add3_u32 v1, v1, v3, v2
	; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot2_MultipleUses_mul1:			; GFX9-DL-LABEL: udot2_MultipleUses_mul1:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_mov_b32 s0, 0xffff
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_and_b32_e32 v3, s0, v1			; GFX9-DL-NEXT: v_and_b32_e32 v3, 0xffff, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_and_b32_e32 v4, s0, v2			; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xffff, v2
	; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DL-NEXT: v_mul_u32_u24_e32 v2, v4, v3			; GFX9-DL-NEXT: v_mul_u32_u24_e32 v2, v4, v3
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: v_mad_u32_u24 v3, v4, v3, s1			; GFX9-DL-NEXT: v_mad_u32_u24 v3, v4, v3, s0
	; GFX9-DL-NEXT: v_add3_u32 v1, v1, v3, v2			; GFX9-DL-NEXT: v_add3_u32 v1, v1, v3, v2
	; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot2_MultipleUses_mul1:			; GFX10-DL-LABEL: udot2_MultipleUses_mul1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	▲ Show 20 Lines • Show All 213 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v4, v3, v1, s5			; GFX7-NEXT: v_mad_u32_u24 v4, v3, v1, s4
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, v4			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v1, v4
	; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v0, v2, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_MultipleUses_mul2:			; GFX8-LABEL: udot2_MultipleUses_mul2:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_mov_b32 s2, 0xffff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xffff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xffff, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v4, v0, v3, s3			; GFX8-NEXT: v_mad_u32_u24 v4, v0, v3, s2
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, v4			; GFX8-NEXT: v_mad_u32_u24 v0, v0, v3, v4
	; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v2, v1, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot2_MultipleUses_mul2:			; GFX9-NODL-LABEL: udot2_MultipleUses_mul2:
	▲ Show 20 Lines • Show All 258 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 16, v2
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 16, v0
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_acc16:			; GFX8-LABEL: udot2_acc16:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 260 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4s.ll

	Show First 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8			; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8
	; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_i32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v0, 0, 8			; GFX7-NEXT: v_bfe_i32 v6, v0, 0, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_bfe_i32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_i32 v7, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_bfe_i32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_i32 v8, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot4_acc16:			; GFX8-LABEL: idot4_acc16:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	▲ Show 20 Lines • Show All 524 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_i32 v3, v2, 8, 8
	; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8			; GFX7-NEXT: v_bfe_i32 v4, v2, 0, 8
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_i32 v6, v0, 8, 8
	; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8			; GFX7-NEXT: v_bfe_i32 v7, v0, 0, 8
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v7			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v7
	; GFX7-NEXT: v_bfe_i32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_i32 v8, v0, 16, 8
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v4			; GFX7-NEXT: v_or_b32_e32 v4, v6, v4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v8			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_i32 v5, v2, 16, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v2, 24, v2
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v8, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v7, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot4_acc16_vecMul:			; GFX8-LABEL: idot4_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 176 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot4u.ll

	Show All 15 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v0			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, s5			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, s4
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc32:			; GFX8-LABEL: udot4_acc32:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_movk_i32 s2, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8			; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
	; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8			; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8			; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s3			; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, s2
	; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1			; GFX8-NEXT: v_mad_u32_u24 v1, v4, v5, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1			; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1
	; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1			; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	Show All 15 Lines
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v2, v[0:1]			; GFX8-NEXT: flat_load_dword v2, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_load_ushort v4, v[0:1]			; GFX8-NEXT: flat_load_ushort v4, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(2)			; GFX8-NEXT: s_waitcnt vmcnt(2)
	; GFX8-NEXT: v_and_b32_e32 v6, s0, v3			; GFX8-NEXT: v_and_b32_e32 v6, 0xff, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX8-NEXT: v_and_b32_e32 v8, s0, v8			; GFX8-NEXT: v_and_b32_e32 v8, 0xff, v8
	; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v7, s0, v2			; GFX8-NEXT: v_and_b32_e32 v7, 0xff, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v2
	; GFX8-NEXT: v_and_b32_e32 v9, s0, v9			; GFX8-NEXT: v_and_b32_e32 v9, 0xff, v9
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mad_u16 v4, v6, v7, v4			; GFX8-NEXT: v_mad_u16 v4, v6, v7, v4
	; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mad_u16 v4, v8, v9, v4			; GFX8-NEXT: v_mad_u16 v4, v8, v9, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_mad_u16 v4, v10, v5, v4			; GFX8-NEXT: v_mad_u16 v4, v10, v5, v4
	; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4			; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4
	; GFX8-NEXT: flat_store_short v[0:1], v2			; GFX8-NEXT: flat_store_short v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot4_acc16:			; GFX9-NODL-LABEL: udot4_acc16:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff			; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, s0, v1			; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_and_b32_e32 v5, s0, v2			; GFX9-NODL-NEXT: v_and_b32_e32 v5, 0xff, v2
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 8, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
	; GFX9-NODL-NEXT: v_and_b32_e32 v6, s0, v6			; GFX9-NODL-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX9-NODL-NEXT: v_and_b32_e32 v7, s0, v7			; GFX9-NODL-NEXT: v_and_b32_e32 v7, 0xff, v7
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
	; GFX9-NODL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v1, v1, v2, v3
	; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot4_acc16:			; GFX9-DL-LABEL: udot4_acc16:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_movk_i32 s0, 0xff			; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_and_b32_e32 v4, s0, v1			; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_and_b32_e32 v5, s0, v2			; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xff, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v6, s0, v6			; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX9-DL-NEXT: v_and_b32_e32 v7, s0, v7			; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xff, v7
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
	; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v8, v9, v3
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	▲ Show 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v2, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v2, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v0			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot2_8:			; GFX8-LABEL: udot2_8:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v3, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v3, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v4, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	▲ Show 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v0
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v4, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v3, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v3, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v5, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v5, v1
	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v0			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v8, v1, v5, s5			; GFX7-NEXT: v_mad_u32_u24 v8, v1, v5, s4
	; GFX7-NEXT: v_mad_u32_u24 v3, v3, v6, v8			; GFX7-NEXT: v_mad_u32_u24 v3, v3, v6, v8
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_multiuse_mul1:			; GFX8-LABEL: udot4_multiuse_mul1:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_movk_i32 s2, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8			; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
	; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8			; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8			; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v8, v1, v2, s3			; GFX8-NEXT: v_mad_u32_u24 v8, v1, v2, s2
	; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, v8			; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, v8
	; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, v4			; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1			; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1
	; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1			; GFX8-NEXT: v_mad_u32_u24 v2, v3, v0, v1
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot4_multiuse_mul1:			; GFX9-NODL-LABEL: udot4_multiuse_mul1:
	; GFX9-NODL: ; %bb.0: ; %entry			; GFX9-NODL: ; %bb.0: ; %entry
	; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NODL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NODL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NODL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NODL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-NODL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_and_b32_e32 v3, s0, v1			; GFX9-NODL-NEXT: v_and_b32_e32 v3, 0xff, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, s0, v2			; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xff, v2
	; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1			; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
	; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2			; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
	; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3			; GFX9-NODL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
	; GFX9-NODL-NEXT: v_mul_u32_u24_e32 v2, v3, v4			; GFX9-NODL-NEXT: v_mul_u32_u24_e32 v2, v3, v4
	; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v3, v4, s1			; GFX9-NODL-NEXT: v_mad_u32_u24 v3, v3, v4, s0
	; GFX9-NODL-NEXT: v_add3_u32 v2, v5, v3, v2			; GFX9-NODL-NEXT: v_add3_u32 v2, v5, v3, v2
	; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1			; GFX9-NODL-NEXT: v_add3_u32 v1, v2, v6, v1
	; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot4_multiuse_mul1:			; GFX9-DL-LABEL: udot4_multiuse_mul1:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: s_movk_i32 s0, 0xff
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: s_load_dword s1, s[2:3], 0x0			; GFX9-DL-NEXT: s_load_dword s0, s[2:3], 0x0
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_and_b32_e32 v3, s0, v1			; GFX9-DL-NEXT: v_and_b32_e32 v3, 0xff, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_and_b32_e32 v4, s0, v2			; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xff, v2
	; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1			; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v5, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
	; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2			; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v6, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_2
	; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3			; GFX9-DL-NEXT: v_mul_u32_u24_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
	; GFX9-DL-NEXT: v_mul_u32_u24_e32 v2, v3, v4			; GFX9-DL-NEXT: v_mul_u32_u24_e32 v2, v3, v4
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: v_mad_u32_u24 v3, v3, v4, s1			; GFX9-DL-NEXT: v_mad_u32_u24 v3, v3, v4, s0
	; GFX9-DL-NEXT: v_add3_u32 v2, v5, v3, v2			; GFX9-DL-NEXT: v_add3_u32 v2, v5, v3, v2
	; GFX9-DL-NEXT: v_add3_u32 v1, v2, v6, v1			; GFX9-DL-NEXT: v_add3_u32 v1, v2, v6, v1
	; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_dword v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_multiuse_mul1:			; GFX10-DL-LABEL: udot4_multiuse_mul1:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v1, s4, v2			; GFX7-NEXT: v_and_b32_e32 v1, 0xff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v0			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v3, v3, v6, s5			; GFX7-NEXT: v_mad_u32_u24 v3, v3, v6, s4
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3			; GFX7-NEXT: v_mad_u32_u24 v1, v1, v5, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_add_i32_e32 v6, vcc, s5, v3			; GFX7-NEXT: v_add_i32_e32 v6, vcc, s4, v3
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v6			; GFX7-NEXT: v_add_i32_e32 v0, vcc, v0, v6
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_multiuse_add1:			; GFX8-LABEL: udot4_multiuse_add1:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_movk_i32 s2, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8			; GFX8-NEXT: v_bfe_u32 v4, v3, 8, 8
	; GFX8-NEXT: v_and_b32_e32 v1, s2, v3			; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v3
	; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8			; GFX8-NEXT: v_bfe_u32 v6, v3, 16, 8
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8			; GFX8-NEXT: v_bfe_u32 v5, v0, 8, 8
	; GFX8-NEXT: v_and_b32_e32 v2, s2, v0			; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, s3			; GFX8-NEXT: v_mad_u32_u24 v4, v4, v5, s2
	; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX8-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, v4			; GFX8-NEXT: v_mad_u32_u24 v1, v1, v2, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1			; GFX8-NEXT: v_mad_u32_u24 v1, v6, v7, v1
	; GFX8-NEXT: v_add_u32_e32 v5, vcc, s3, v4			; GFX8-NEXT: v_add_u32_e32 v5, vcc, s2, v4
	; GFX8-NEXT: v_mad_u32_u24 v0, v3, v0, v1			; GFX8-NEXT: v_mad_u32_u24 v0, v3, v0, v1
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v0, v5			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v0, v5
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-NODL-LABEL: udot4_multiuse_add1:			; GFX9-NODL-LABEL: udot4_multiuse_add1:
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8			; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 8
	; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v6, v0, 0, 8			; GFX7-NEXT: v_bfe_i32 v6, v0, 0, 8
	; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 8, 8
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v6, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1
	Show All 14 Lines
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v2, v[0:1]			; GFX8-NEXT: flat_load_dword v2, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_load_ushort v4, v[0:1]			; GFX8-NEXT: flat_load_ushort v4, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(2)			; GFX8-NEXT: s_waitcnt vmcnt(2)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 8, v3
	; GFX8-NEXT: v_and_b32_e32 v8, s0, v8			; GFX8-NEXT: v_and_b32_e32 v8, 0xff, v8
	; GFX8-NEXT: v_bfe_i32 v6, v3, 0, 8			; GFX8-NEXT: v_bfe_i32 v6, v3, 0, 8
	; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 24, v3
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v9, 8, v2
	; GFX8-NEXT: v_and_b32_e32 v9, s0, v9			; GFX8-NEXT: v_and_b32_e32 v9, 0xff, v9
	; GFX8-NEXT: v_bfe_i32 v7, v2, 0, 8			; GFX8-NEXT: v_bfe_i32 v7, v2, 0, 8
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mad_u16 v4, v8, v9, v4			; GFX8-NEXT: v_mad_u16 v4, v8, v9, v4
	; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mad_u16 v4, v6, v7, v4			; GFX8-NEXT: v_mad_u16 v4, v6, v7, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX8-NEXT: v_mad_u16 v4, v10, v5, v4			; GFX8-NEXT: v_mad_u16 v4, v10, v5, v4
	; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4			; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4
	Show All 10 Lines
	; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NODL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NODL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NODL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NODL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 8, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
	; GFX9-NODL-NEXT: v_and_b32_e32 v6, s0, v6			; GFX9-NODL-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX9-NODL-NEXT: v_and_b32_e32 v7, s0, v7			; GFX9-NODL-NEXT: v_and_b32_e32 v7, 0xff, v7
	; GFX9-NODL-NEXT: v_bfe_i32 v4, v1, 0, 8			; GFX9-NODL-NEXT: v_bfe_i32 v4, v1, 0, 8
	; GFX9-NODL-NEXT: v_bfe_i32 v5, v2, 0, 8			; GFX9-NODL-NEXT: v_bfe_i32 v5, v2, 0, 8
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
	; GFX9-NODL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3			; GFX9-NODL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	Show All 13 Lines
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v6, 8, v1
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v7, 8, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v6, s0, v6			; GFX9-DL-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX9-DL-NEXT: v_and_b32_e32 v7, s0, v7			; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xff, v7
	; GFX9-DL-NEXT: v_bfe_i32 v4, v1, 0, 8			; GFX9-DL-NEXT: v_bfe_i32 v4, v1, 0, 8
	; GFX9-DL-NEXT: v_bfe_i32 v5, v2, 0, 8			; GFX9-DL-NEXT: v_bfe_i32 v5, v2, 0, 8
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v6, v7, v3
	; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v8, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v9, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3			; GFX9-DL-NEXT: v_mad_legacy_u16 v3, v4, v5, v3
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v1, 24, v1
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b32 s11, s3			; GFX7-NEXT: s_mov_b32 s11, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_load_dword s5, s[0:1], 0x0			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v1, 24, v2
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 8
	; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v2, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v5, 24, v0
	; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v6, v0, 8, 8
	; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v7, v0, 16, 8
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, s5			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, s4
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v6, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v7, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v1, v5, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v1, v5, v0
	; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: udot4_acc32_vecMul:			; GFX8-LABEL: udot4_acc32_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x34
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 2, v0
	; GFX8-NEXT: s_movk_i32 s2, 0xff
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v1, s5			; GFX8-NEXT: v_mov_b32_e32 v1, s5
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s4, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v0, v[0:1]			; GFX8-NEXT: flat_load_dword v0, v[0:1]
	; GFX8-NEXT: s_load_dword s3, s[0:1], 0x0			; GFX8-NEXT: s_load_dword s2, s[0:1], 0x0
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v1, 24, v3
	; GFX8-NEXT: v_bfe_u32 v4, v3, 16, 8			; GFX8-NEXT: v_bfe_u32 v4, v3, 16, 8
	; GFX8-NEXT: v_lshrrev_b16_e32 v5, 8, v3			; GFX8-NEXT: v_lshrrev_b16_e32 v5, 8, v3
	; GFX8-NEXT: v_and_b32_e32 v3, s2, v3			; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 24, v0
	; GFX8-NEXT: v_bfe_u32 v6, v0, 16, 8			; GFX8-NEXT: v_bfe_u32 v6, v0, 16, 8
	; GFX8-NEXT: v_lshrrev_b16_e32 v7, 8, v0			; GFX8-NEXT: v_lshrrev_b16_e32 v7, 8, v0
	; GFX8-NEXT: v_and_b32_e32 v0, s2, v0			; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mad_u32_u24 v0, v3, v0, s3			; GFX8-NEXT: v_mad_u32_u24 v0, v3, v0, s2
	; GFX8-NEXT: v_mad_u32_u24 v0, v5, v7, v0			; GFX8-NEXT: v_mad_u32_u24 v0, v5, v7, v0
	; GFX8-NEXT: v_mad_u32_u24 v0, v4, v6, v0			; GFX8-NEXT: v_mad_u32_u24 v0, v4, v6, v0
	; GFX8-NEXT: v_mad_u32_u24 v2, v1, v2, v0			; GFX8-NEXT: v_mad_u32_u24 v2, v1, v2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xff00
	; GFX7-NEXT: s_movk_i32 s5, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v2			; GFX7-NEXT: v_and_b32_e32 v3, 0xff00, v2
	; GFX7-NEXT: v_and_b32_e32 v4, s5, v2			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v0			; GFX7-NEXT: v_and_b32_e32 v6, 0xff00, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v7, s5, v0			; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v0
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 8, v6
	; GFX7-NEXT: v_or_b32_e32 v4, v7, v4			; GFX7-NEXT: v_or_b32_e32 v4, v7, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s5, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s5, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v4, v1
	; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 16, 8
	; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v2, 24, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v0, 24, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1
	Show All 14 Lines
	; GFX8-NEXT: flat_load_dword v3, v[0:1]			; GFX8-NEXT: flat_load_dword v3, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v1, s7			; GFX8-NEXT: v_mov_b32_e32 v1, s7
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s6, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dword v2, v[0:1]			; GFX8-NEXT: flat_load_dword v2, v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_load_ushort v4, v[0:1]			; GFX8-NEXT: flat_load_ushort v4, v[0:1]
	; GFX8-NEXT: s_movk_i32 s0, 0xff
	; GFX8-NEXT: s_waitcnt vmcnt(2)			; GFX8-NEXT: s_waitcnt vmcnt(2)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 24, v3
	; GFX8-NEXT: v_lshrrev_b16_e32 v7, 8, v3			; GFX8-NEXT: v_lshrrev_b16_e32 v7, 8, v3
	; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v10, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_e32 v3, s0, v3			; GFX8-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX8-NEXT: s_waitcnt vmcnt(1)			; GFX8-NEXT: s_waitcnt vmcnt(1)
	; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX8-NEXT: v_lshrrev_b16_e32 v9, 8, v2			; GFX8-NEXT: v_lshrrev_b16_e32 v9, 8, v2
	; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_and_b32_sdwa v5, v2, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_and_b32_e32 v2, s0, v2			; GFX8-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4			; GFX8-NEXT: v_mad_u16 v2, v3, v2, v4
	; GFX8-NEXT: v_mad_u16 v2, v7, v9, v2			; GFX8-NEXT: v_mad_u16 v2, v7, v9, v2
	; GFX8-NEXT: v_mad_u16 v2, v10, v5, v2			; GFX8-NEXT: v_mad_u16 v2, v10, v5, v2
	; GFX8-NEXT: v_mad_u16 v2, v6, v8, v2			; GFX8-NEXT: v_mad_u16 v2, v6, v8, v2
	; GFX8-NEXT: flat_store_short v[0:1], v2			; GFX8-NEXT: flat_store_short v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	Show All 16 Lines
	; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v7, 8, v2			; GFX9-NODL-NEXT: v_lshrrev_b16_e32 v7, 8, v2
	; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v8, 24, v2			; GFX9-NODL-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NODL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NODL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NODL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-NODL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-NODL-NEXT: v_lshl_or_b32 v2, v7, 16, v2			; GFX9-NODL-NEXT: v_lshl_or_b32 v2, v7, 16, v2
	; GFX9-NODL-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-NODL-NEXT: v_lshl_or_b32 v1, v5, 16, v1
	; GFX9-NODL-NEXT: v_and_b32_e32 v10, v4, v10			; GFX9-NODL-NEXT: v_and_b32_e32 v4, 0xffff, v10
	; GFX9-NODL-NEXT: v_and_b32_e32 v4, v4, v9			; GFX9-NODL-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NODL-NEXT: v_lshl_or_b32 v5, v8, 16, v10			; GFX9-NODL-NEXT: v_lshl_or_b32 v4, v8, 16, v4
	; GFX9-NODL-NEXT: v_lshl_or_b32 v4, v6, 16, v4			; GFX9-NODL-NEXT: v_lshl_or_b32 v5, v6, 16, v9
	; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)			; GFX9-NODL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NODL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-NODL-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v4, v5			; GFX9-NODL-NEXT: v_pk_mul_lo_u16 v2, v5, v4
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-NODL-NEXT: v_add_u16_e32 v1, v1, v2
	; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NODL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NODL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NODL-NEXT: s_endpgm			; GFX9-NODL-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot4_acc16_vecMul:			; GFX9-DL-LABEL: udot4_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	Show All 14 Lines
	; GFX9-DL-NEXT: v_lshrrev_b16_e32 v7, 8, v2			; GFX9-DL-NEXT: v_lshrrev_b16_e32 v7, 8, v2
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v2			; GFX9-DL-NEXT: v_lshrrev_b32_e32 v8, 24, v2
	; GFX9-DL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v9, v1, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DL-NEXT: v_and_b32_sdwa v10, v2, s0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-DL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0			; GFX9-DL-NEXT: v_and_b32_sdwa v1, v4, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v7, 16, v2			; GFX9-DL-NEXT: v_lshl_or_b32 v2, v7, 16, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v5, 16, v1			; GFX9-DL-NEXT: v_lshl_or_b32 v1, v5, 16, v1
	; GFX9-DL-NEXT: v_and_b32_e32 v10, v4, v10			; GFX9-DL-NEXT: v_and_b32_e32 v4, 0xffff, v10
	; GFX9-DL-NEXT: v_and_b32_e32 v4, v4, v9			; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v5, v8, 16, v10			; GFX9-DL-NEXT: v_lshl_or_b32 v4, v8, 16, v4
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v6, 16, v4			; GFX9-DL-NEXT: v_lshl_or_b32 v5, v6, 16, v9
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v1, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v4, v5			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v5, v4
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2			; GFX9-DL-NEXT: v_add_u16_e32 v1, v1, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	; GFX10-DL-LABEL: udot4_acc16_vecMul:			; GFX10-DL-LABEL: udot4_acc16_vecMul:
	; GFX10-DL: ; %bb.0: ; %entry			; GFX10-DL: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v2			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v2
	; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v5, v2, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v0			; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v0
	; GFX7-NEXT: v_bfe_u32 v8, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v8, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v7, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 24, v2
	; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v8, v1
	▲ Show 20 Lines • Show All 164 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8s.ll

	Show First 20 Lines • Show All 338 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v10			; GFX7-NEXT: v_and_b32_e32 v10, 0xffff, v10
	; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v11
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
	; GFX7-NEXT: v_bfe_i32 v6, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v12			; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v13			; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v13
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_bfe_i32 v8, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v14			; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v14
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_bfe_i32 v9, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v9, v2, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v15, s4, v15			; GFX7-NEXT: v_and_b32_e32 v15, 0xffff, v15
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9			; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v16, s4, v16			; GFX7-NEXT: v_and_b32_e32 v16, 0xffff, v16
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16:			; GFX8-LABEL: idot8_acc16:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 514 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 0, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 4, 4
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v10, v0, 0, 4
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v11, v0, 4, 4
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v10			; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v10
	; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v11
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v3, v10, v1
	; GFX7-NEXT: v_bfe_i32 v6, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xff, v5
	; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v12			; GFX7-NEXT: v_and_b32_e32 v12, 0xff, v12
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v11, v1
	; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v13			; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v13
	; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v5, v12, v1
	; GFX7-NEXT: v_bfe_i32 v8, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v7
	; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 20, 4
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v14			; GFX7-NEXT: v_and_b32_e32 v14, 0xff, v14
	; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v6, v13, v1
	; GFX7-NEXT: v_bfe_i32 v9, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v9, v2, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v8
	; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v16, v0, 24, 4
	; GFX7-NEXT: v_and_b32_e32 v15, s4, v15			; GFX7-NEXT: v_and_b32_e32 v15, 0xff, v15
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v14, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v2, 28, v2
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9			; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v9
	; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v0, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v16, s4, v16			; GFX7-NEXT: v_and_b32_e32 v16, 0xff, v16
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v15, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v9, v16, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc8:			; GFX8-LABEL: idot8_acc8:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 1,228 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_i32 v3, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v3, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v4, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 0, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_bfe_i32 v10, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v10, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v11, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v11, v0, 16, 4
	; GFX7-NEXT: v_bfe_i32 v12, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 4, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 0, 4
	; GFX7-NEXT: v_or_b32_e32 v3, v4, v3			; GFX7-NEXT: v_or_b32_e32 v3, v4, v3
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v5			; GFX7-NEXT: v_or_b32_e32 v4, v6, v5
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v10			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v10
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v11			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v11
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v12			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 16, v12
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v13			; GFX7-NEXT: v_and_b32_e32 v11, 0xffff, v13
	; GFX7-NEXT: v_bfe_i32 v14, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v14, v0, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v16, 28, v0
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_or_b32_e32 v5, v6, v5
	; GFX7-NEXT: v_or_b32_e32 v6, v11, v10			; GFX7-NEXT: v_or_b32_e32 v6, v11, v10
	; GFX7-NEXT: v_and_b32_e32 v12, s4, v14			; GFX7-NEXT: v_and_b32_e32 v12, 0xffff, v14
	; GFX7-NEXT: v_and_b32_e32 v14, s4, v16			; GFX7-NEXT: v_and_b32_e32 v14, 0xffff, v16
	; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v4			; GFX7-NEXT: v_lshrrev_b32_e32 v16, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v6			; GFX7-NEXT: v_lshrrev_b32_e32 v11, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v6
	; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 8, 4
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v4, v6, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v4, v6, v1
	; GFX7-NEXT: v_bfe_i32 v7, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 24, 4
	; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v9, 28, v2
	; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xffff, v8
	; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 12, 4
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v15			; GFX7-NEXT: v_and_b32_e32 v13, 0xffff, v15
	; GFX7-NEXT: v_mad_u32_u24 v1, v16, v11, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v16, v11, v1
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v13, v1
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v3			; GFX7-NEXT: v_lshrrev_b32_e32 v15, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v5			; GFX7-NEXT: v_lshrrev_b32_e32 v10, 16, v5
	; GFX7-NEXT: v_and_b32_e32 v5, s4, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v5, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v5, v0
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v7			; GFX7-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX7-NEXT: v_mad_u32_u24 v0, v15, v10, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v15, v10, v0
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v9			; GFX7-NEXT: v_and_b32_e32 v9, 0xffff, v9
	; GFX7-NEXT: v_mad_u32_u24 v0, v7, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v7, v12, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v14, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v14, v0
	; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc16_vecMul:			; GFX8-LABEL: idot8_acc16_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 570 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xff
	; GFX7-NEXT: s_mov_b32 s5, 0xffff
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_ashrrev_i32_e32 v3, 28, v2			; GFX7-NEXT: v_ashrrev_i32_e32 v3, 28, v2
	; GFX7-NEXT: v_bfe_i32 v4, v2, 24, 4			; GFX7-NEXT: v_bfe_i32 v4, v2, 24, 4
	; GFX7-NEXT: v_bfe_i32 v5, v2, 20, 4			; GFX7-NEXT: v_bfe_i32 v5, v2, 20, 4
	; GFX7-NEXT: v_bfe_i32 v6, v2, 16, 4			; GFX7-NEXT: v_bfe_i32 v6, v2, 16, 4
	; GFX7-NEXT: v_bfe_i32 v7, v2, 12, 4			; GFX7-NEXT: v_bfe_i32 v7, v2, 12, 4
	; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4			; GFX7-NEXT: v_bfe_i32 v8, v2, 8, 4
	; GFX7-NEXT: v_bfe_i32 v9, v2, 4, 4			; GFX7-NEXT: v_bfe_i32 v9, v2, 4, 4
	; GFX7-NEXT: v_bfe_i32 v2, v2, 0, 4			; GFX7-NEXT: v_bfe_i32 v2, v2, 0, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v10, 8, v3
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xff, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 8, v5
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v6			; GFX7-NEXT: v_and_b32_e32 v6, 0xff, v6
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v7
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v9
	; GFX7-NEXT: v_and_b32_e32 v2, s4, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xff, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_ashrrev_i32_e32 v11, 28, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v11, 28, v0
	; GFX7-NEXT: v_bfe_i32 v12, v0, 24, 4			; GFX7-NEXT: v_bfe_i32 v12, v0, 24, 4
	; GFX7-NEXT: v_bfe_i32 v13, v0, 20, 4			; GFX7-NEXT: v_bfe_i32 v13, v0, 20, 4
	; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_i32 v14, v0, 16, 4
	; GFX7-NEXT: v_bfe_i32 v15, v0, 12, 4			; GFX7-NEXT: v_bfe_i32 v15, v0, 12, 4
	; GFX7-NEXT: v_bfe_i32 v16, v0, 8, 4			; GFX7-NEXT: v_bfe_i32 v16, v0, 8, 4
	; GFX7-NEXT: v_bfe_i32 v17, v0, 4, 4			; GFX7-NEXT: v_bfe_i32 v17, v0, 4, 4
	; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 4			; GFX7-NEXT: v_bfe_i32 v0, v0, 0, 4
	; GFX7-NEXT: v_or_b32_e32 v4, v4, v10			; GFX7-NEXT: v_or_b32_e32 v4, v4, v10
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_or_b32_e32 v5, v6, v5
	; GFX7-NEXT: v_or_b32_e32 v6, v8, v7			; GFX7-NEXT: v_or_b32_e32 v6, v8, v7
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v9			; GFX7-NEXT: v_or_b32_e32 v2, v2, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v11			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 8, v11
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v12			; GFX7-NEXT: v_and_b32_e32 v8, 0xff, v12
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v13			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 8, v13
	; GFX7-NEXT: v_and_b32_e32 v10, s4, v14			; GFX7-NEXT: v_and_b32_e32 v10, 0xff, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v15			; GFX7-NEXT: v_lshlrev_b32_e32 v12, 8, v15
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v16			; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v16
	; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v17			; GFX7-NEXT: v_lshlrev_b32_e32 v14, 8, v17
	; GFX7-NEXT: v_and_b32_e32 v0, s4, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xff, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX7-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX7-NEXT: v_and_b32_e32 v5, s5, v5			; GFX7-NEXT: v_and_b32_e32 v5, 0xffff, v5
	; GFX7-NEXT: v_or_b32_e32 v7, v8, v7			; GFX7-NEXT: v_or_b32_e32 v7, v8, v7
	; GFX7-NEXT: v_or_b32_e32 v8, v10, v9			; GFX7-NEXT: v_or_b32_e32 v8, v10, v9
	; GFX7-NEXT: v_or_b32_e32 v9, v13, v12			; GFX7-NEXT: v_or_b32_e32 v9, v13, v12
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v14			; GFX7-NEXT: v_or_b32_e32 v0, v0, v14
	; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX7-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX7-NEXT: v_and_b32_e32 v2, s5, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX7-NEXT: v_or_b32_e32 v4, v5, v4			; GFX7-NEXT: v_or_b32_e32 v4, v5, v4
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v7			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v7
	; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v9			; GFX7-NEXT: v_lshlrev_b32_e32 v7, 16, v9
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX7-NEXT: v_or_b32_e32 v2, v2, v6			; GFX7-NEXT: v_or_b32_e32 v2, v2, v6
	; GFX7-NEXT: v_or_b32_e32 v0, v0, v7			; GFX7-NEXT: v_or_b32_e32 v0, v0, v7
	; GFX7-NEXT: v_and_b32_e32 v7, s4, v2			; GFX7-NEXT: v_and_b32_e32 v7, 0xff, v2
	; GFX7-NEXT: v_and_b32_e32 v13, s4, v0			; GFX7-NEXT: v_and_b32_e32 v13, 0xff, v0
	; GFX7-NEXT: v_and_b32_e32 v6, s5, v8			; GFX7-NEXT: v_and_b32_e32 v6, 0xffff, v8
	; GFX7-NEXT: v_bfe_u32 v8, v2, 8, 8			; GFX7-NEXT: v_bfe_u32 v8, v2, 8, 8
	; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 8			; GFX7-NEXT: v_bfe_u32 v14, v0, 8, 8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v13, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v13, v1
	; GFX7-NEXT: v_or_b32_e32 v5, v6, v5			; GFX7-NEXT: v_or_b32_e32 v5, v6, v5
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 24, v2
	; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8			; GFX7-NEXT: v_bfe_u32 v2, v2, 16, 8
	; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v12, 24, v0
	; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8			; GFX7-NEXT: v_bfe_u32 v0, v0, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v1, v8, v14, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v8, v14, v1
	; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1			; GFX7-NEXT: v_mad_u32_u24 v0, v2, v0, v1
	; GFX7-NEXT: v_and_b32_e32 v9, s4, v4			; GFX7-NEXT: v_and_b32_e32 v9, 0xff, v4
	; GFX7-NEXT: v_and_b32_e32 v15, s4, v5			; GFX7-NEXT: v_and_b32_e32 v15, 0xff, v5
	; GFX7-NEXT: v_mad_u32_u24 v0, v6, v12, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v6, v12, v0
	; GFX7-NEXT: v_bfe_u32 v10, v4, 8, 8			; GFX7-NEXT: v_bfe_u32 v10, v4, 8, 8
	; GFX7-NEXT: v_bfe_u32 v16, v5, 8, 8			; GFX7-NEXT: v_bfe_u32 v16, v5, 8, 8
	; GFX7-NEXT: v_mad_u32_u24 v0, v9, v15, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v9, v15, v0
	; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8			; GFX7-NEXT: v_bfe_u32 v4, v4, 16, 8
	; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8			; GFX7-NEXT: v_bfe_u32 v5, v5, 16, 8
	; GFX7-NEXT: v_mad_u32_u24 v0, v10, v16, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v10, v16, v0
	; GFX7-NEXT: v_and_b32_e32 v3, s4, v3			; GFX7-NEXT: v_and_b32_e32 v3, 0xff, v3
	; GFX7-NEXT: v_and_b32_e32 v11, s4, v11			; GFX7-NEXT: v_and_b32_e32 v11, 0xff, v11
	; GFX7-NEXT: v_mad_u32_u24 v0, v4, v5, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v4, v5, v0
	; GFX7-NEXT: v_mad_u32_u24 v0, v3, v11, v0			; GFX7-NEXT: v_mad_u32_u24 v0, v3, v11, v0
	; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0			; GFX7-NEXT: buffer_store_byte v0, off, s[0:3], 0
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: idot8_acc8_vecMul:			; GFX8-LABEL: idot8_acc8_vecMul:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 617 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/idot8u.ll

	Show First 20 Lines • Show All 2,113 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
	; GFX7-NEXT: s_mov_b32 s4, 0xf0000
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_bfe_u32 v8, v2, 20, 4			; GFX7-NEXT: v_bfe_u32 v8, v2, 20, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v3, 28, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v3, 28, v2
	; GFX7-NEXT: v_bfe_u32 v4, v2, 24, 4			; GFX7-NEXT: v_bfe_u32 v4, v2, 24, 4
	; GFX7-NEXT: v_bfe_u32 v5, v2, 12, 4			; GFX7-NEXT: v_bfe_u32 v5, v2, 12, 4
	; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v6, v2, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v7, 15, v2			; GFX7-NEXT: v_and_b32_e32 v7, 15, v2
	; GFX7-NEXT: v_alignbit_b32 v2, v8, v2, 16			; GFX7-NEXT: v_alignbit_b32 v2, v8, v2, 16
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v9			; GFX7-NEXT: v_and_b32_e32 v8, 0xf0000, v9
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 12, v0
	; GFX7-NEXT: v_and_b32_e32 v14, 15, v0			; GFX7-NEXT: v_and_b32_e32 v14, 15, v0
	; GFX7-NEXT: v_or_b32_e32 v7, v7, v8			; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v9			; GFX7-NEXT: v_and_b32_e32 v8, 0xf0000, v9
	; GFX7-NEXT: v_or_b32_e32 v8, v14, v8			; GFX7-NEXT: v_or_b32_e32 v8, v14, v8
	; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v7			; GFX7-NEXT: v_lshrrev_b32_e32 v9, 16, v7
	; GFX7-NEXT: v_and_b32_e32 v7, 15, v7			; GFX7-NEXT: v_and_b32_e32 v7, 15, v7
	; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v8			; GFX7-NEXT: v_lshrrev_b32_e32 v14, 16, v8
	; GFX7-NEXT: v_and_b32_e32 v8, 15, v8			; GFX7-NEXT: v_and_b32_e32 v8, 15, v8
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: v_mad_u32_u24 v1, v7, v8, v1			; GFX7-NEXT: v_mad_u32_u24 v1, v7, v8, v1
	; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 4			; GFX7-NEXT: v_bfe_u32 v13, v0, 8, 4
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	; GFX9-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-NEXT: s_add_u32 s8, s8, s3			; GFX9-NEXT: s_add_u32 s8, s8, s3
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_bfe_u32 v5, v1, 4, 4			; GFX9-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-NEXT: v_and_b32_e32 v6, 15, v1			; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX9-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-NEXT: v_bfe_u32 v8, v1, 8, 4
	; GFX9-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v10, v1, 16, 4
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_bfe_u32 v12, v2, 4, 4			; GFX9-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-NEXT: v_and_b32_e32 v13, 15, v2			; GFX9-NEXT: v_bfe_u32 v4, v1, 4, 4
	; GFX9-NEXT: v_bfe_u32 v14, v2, 12, 4			; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-NEXT: v_bfe_u32 v15, v2, 8, 4			; GFX9-NEXT: v_bfe_u32 v11, v2, 4, 4
	; GFX9-NEXT: v_bfe_u32 v16, v2, 20, 4			; GFX9-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX9-NEXT: v_bfe_u32 v17, v2, 16, 4			; GFX9-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX9-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-NEXT: v_and_b32_e32 v5, 0xffff, v5
				; GFX9-NEXT: v_bfe_u32 v9, v1, 16, 4
				; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-NEXT: v_lshl_or_b32 v6, v6, 16, v7
				; GFX9-NEXT: v_lshl_or_b32 v7, v11, 16, v12
				; GFX9-NEXT: v_lshl_or_b32 v4, v4, 16, v5
				; GFX9-NEXT: v_bfe_u32 v8, v1, 20, 4
				; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4
				; GFX9-NEXT: v_and_b32_e32 v9, 0xffff, v9
				; GFX9-NEXT: v_and_b32_e32 v14, 0xffff, v14
				; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 28, v1
				; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4
				; GFX9-NEXT: v_bfe_u32 v15, v2, 20, 4
				; GFX9-NEXT: v_bfe_u32 v16, v2, 16, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4			; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-NEXT: v_and_b32_e32 v17, v4, v17
	; GFX9-NEXT: v_and_b32_e32 v10, v4, v10
	; GFX9-NEXT: v_and_b32_e32 v15, v4, v15
	; GFX9-NEXT: v_and_b32_e32 v8, v4, v8
	; GFX9-NEXT: v_and_b32_e32 v13, v4, v13
	; GFX9-NEXT: v_and_b32_e32 v4, v4, v6
	; GFX9-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX9-NEXT: v_lshl_or_b32 v8, v12, 16, v13
	; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v8
	; GFX9-NEXT: v_lshl_or_b32 v9, v9, 16, v10
	; GFX9-NEXT: v_lshl_or_b32 v10, v14, 16, v15
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-NEXT: v_pk_mul_lo_u16 v5, v7, v10			; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
				; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX9-NEXT: v_and_b32_e32 v16, 0xffff, v16
				; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v2, v18, 16, v2			; GFX9-NEXT: v_lshl_or_b32 v2, v17, 16, v2
	; GFX9-NEXT: v_lshl_or_b32 v1, v11, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-NEXT: v_lshl_or_b32 v6, v16, 16, v17			; GFX9-NEXT: v_lshl_or_b32 v10, v15, 16, v16
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v2, v9, v6			; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot8_acc16_vecMul:			; GFX9-DL-LABEL: udot8_acc16_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ushort v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_bfe_u32 v5, v1, 4, 4			; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-DL-NEXT: v_and_b32_e32 v6, 15, v1			; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 16, 4
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_bfe_u32 v12, v2, 4, 4			; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v13, 15, v2			; GFX9-DL-NEXT: v_bfe_u32 v4, v1, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 12, 4			; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v11, v2, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 20, 4			; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 16, 4			; GFX9-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5
				; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 16, 4
				; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7
				; GFX9-DL-NEXT: v_lshl_or_b32 v7, v11, 16, v12
				; GFX9-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5
				; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4
				; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9
				; GFX9-DL-NEXT: v_and_b32_e32 v14, 0xffff, v14
				; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 28, v1
				; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4
				; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 16, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4			; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-DL-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-DL-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-DL-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-DL-NEXT: v_and_b32_e32 v17, v4, v17
	; GFX9-DL-NEXT: v_and_b32_e32 v10, v4, v10
	; GFX9-DL-NEXT: v_and_b32_e32 v15, v4, v15
	; GFX9-DL-NEXT: v_and_b32_e32 v8, v4, v8
	; GFX9-DL-NEXT: v_and_b32_e32 v13, v4, v13
	; GFX9-DL-NEXT: v_and_b32_e32 v4, v4, v6
	; GFX9-DL-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX9-DL-NEXT: v_lshl_or_b32 v8, v12, 16, v13
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v8
	; GFX9-DL-NEXT: v_lshl_or_b32 v9, v9, 16, v10
	; GFX9-DL-NEXT: v_lshl_or_b32 v10, v14, 16, v15
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v7, v10			; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2
				; GFX9-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX9-DL-NEXT: v_and_b32_e32 v16, 0xffff, v16
				; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v18, 16, v2			; GFX9-DL-NEXT: v_lshl_or_b32 v2, v17, 16, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v11, 16, v1			; GFX9-DL-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-DL-NEXT: v_lshl_or_b32 v6, v16, 16, v17			; GFX9-DL-NEXT: v_lshl_or_b32 v10, v15, 16, v16
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v9, v6			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_short v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	;			;
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]			; GFX7-NEXT: s_mov_b64 s[8:9], s[4:5]
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX7-NEXT: v_mov_b32_e32 v1, 0			; GFX7-NEXT: v_mov_b32_e32 v1, 0
	; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v2, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]			; GFX7-NEXT: s_mov_b64 s[8:9], s[6:7]
	; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64			; GFX7-NEXT: buffer_load_dword v0, v[0:1], s[8:11], 0 addr64
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0			; GFX7-NEXT: buffer_load_ubyte v1, off, s[0:3], 0
	; GFX7-NEXT: s_movk_i32 s4, 0xf00
	; GFX7-NEXT: s_movk_i32 s5, 0xf0f
	; GFX7-NEXT: s_addc_u32 s13, s13, 0			; GFX7-NEXT: s_addc_u32 s13, s13, 0
	; GFX7-NEXT: s_waitcnt vmcnt(2)			; GFX7-NEXT: s_waitcnt vmcnt(2)
	; GFX7-NEXT: v_lshrrev_b32_e32 v4, 4, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v4, 4, v2
	; GFX7-NEXT: v_lshrrev_b32_e32 v8, 12, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v8, 12, v2
	; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 4			; GFX7-NEXT: v_bfe_u32 v3, v2, 8, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v6, 28, v2			; GFX7-NEXT: v_lshrrev_b32_e32 v6, 28, v2
	; GFX7-NEXT: v_bfe_u32 v7, v2, 16, 4			; GFX7-NEXT: v_bfe_u32 v7, v2, 16, 4
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v2
	; GFX7-NEXT: s_waitcnt vmcnt(1)			; GFX7-NEXT: s_waitcnt vmcnt(1)
	; GFX7-NEXT: v_lshrrev_b32_e32 v11, 4, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v11, 4, v0
	; GFX7-NEXT: v_lshrrev_b32_e32 v13, 28, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v13, 28, v0
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v8			; GFX7-NEXT: v_and_b32_e32 v8, 0xf00, v8
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v4			; GFX7-NEXT: v_and_b32_e32 v4, 0xf00, v4
	; GFX7-NEXT: v_and_b32_e32 v5, 15, v2			; GFX7-NEXT: v_and_b32_e32 v5, 15, v2
	; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 4			; GFX7-NEXT: v_bfe_u32 v10, v0, 8, 4
	; GFX7-NEXT: v_and_b32_e32 v12, 15, v0			; GFX7-NEXT: v_and_b32_e32 v12, 15, v0
	; GFX7-NEXT: v_bfe_u32 v14, v0, 16, 4			; GFX7-NEXT: v_bfe_u32 v14, v0, 16, 4
	; GFX7-NEXT: v_lshrrev_b32_e32 v15, 12, v0			; GFX7-NEXT: v_lshrrev_b32_e32 v15, 12, v0
	; GFX7-NEXT: v_alignbit_b32 v2, v6, v2, 24			; GFX7-NEXT: v_alignbit_b32 v2, v6, v2, 24
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v9			; GFX7-NEXT: v_and_b32_e32 v6, 0xf00, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v9, 4, v0
	; GFX7-NEXT: v_or_b32_e32 v7, v7, v8			; GFX7-NEXT: v_or_b32_e32 v7, v7, v8
	; GFX7-NEXT: v_or_b32_e32 v3, v3, v4			; GFX7-NEXT: v_or_b32_e32 v3, v3, v4
	; GFX7-NEXT: v_alignbit_b32 v0, v13, v0, 24			; GFX7-NEXT: v_alignbit_b32 v0, v13, v0, 24
	; GFX7-NEXT: v_and_b32_e32 v8, s4, v11			; GFX7-NEXT: v_and_b32_e32 v8, 0xf00, v11
	; GFX7-NEXT: v_or_b32_e32 v5, v5, v6			; GFX7-NEXT: v_or_b32_e32 v5, v5, v6
	; GFX7-NEXT: v_and_b32_e32 v4, s4, v15			; GFX7-NEXT: v_and_b32_e32 v4, 0xf00, v15
	; GFX7-NEXT: v_and_b32_e32 v6, s4, v9			; GFX7-NEXT: v_and_b32_e32 v6, 0xf00, v9
	; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX7-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX7-NEXT: v_and_b32_e32 v0, s5, v0			; GFX7-NEXT: v_and_b32_e32 v0, 0xf0f, v0
	; GFX7-NEXT: v_or_b32_e32 v8, v10, v8			; GFX7-NEXT: v_or_b32_e32 v8, v10, v8
	; GFX7-NEXT: v_and_b32_e32 v2, s5, v2			; GFX7-NEXT: v_and_b32_e32 v2, 0xf0f, v2
	; GFX7-NEXT: v_or_b32_e32 v4, v14, v4			; GFX7-NEXT: v_or_b32_e32 v4, v14, v4
	; GFX7-NEXT: v_or_b32_e32 v6, v12, v6			; GFX7-NEXT: v_or_b32_e32 v6, v12, v6
	; GFX7-NEXT: v_or_b32_e32 v3, v5, v3			; GFX7-NEXT: v_or_b32_e32 v3, v5, v3
	; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX7-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v8			; GFX7-NEXT: v_lshlrev_b32_e32 v5, 16, v8
	; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX7-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX7-NEXT: v_or_b32_e32 v0, v4, v0			; GFX7-NEXT: v_or_b32_e32 v0, v4, v0
	; GFX7-NEXT: v_or_b32_e32 v4, v6, v5			; GFX7-NEXT: v_or_b32_e32 v4, v6, v5
	▲ Show 20 Lines • Show All 451 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	; GFX9-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-NEXT: s_add_u32 s8, s8, s3			; GFX9-NEXT: s_add_u32 s8, s8, s3
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-NEXT: global_load_ubyte v3, v0, s[2:3]
	; GFX9-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-NEXT: s_waitcnt vmcnt(2)			; GFX9-NEXT: s_waitcnt vmcnt(2)
	; GFX9-NEXT: v_bfe_u32 v5, v1, 4, 4			; GFX9-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-NEXT: v_and_b32_e32 v6, 15, v1			; GFX9-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX9-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-NEXT: v_bfe_u32 v8, v1, 8, 4
	; GFX9-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-NEXT: v_bfe_u32 v10, v1, 16, 4
	; GFX9-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_bfe_u32 v12, v2, 4, 4			; GFX9-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-NEXT: v_and_b32_e32 v13, 15, v2			; GFX9-NEXT: v_bfe_u32 v4, v1, 4, 4
	; GFX9-NEXT: v_bfe_u32 v14, v2, 12, 4			; GFX9-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-NEXT: v_bfe_u32 v15, v2, 8, 4			; GFX9-NEXT: v_bfe_u32 v11, v2, 4, 4
	; GFX9-NEXT: v_bfe_u32 v16, v2, 20, 4			; GFX9-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX9-NEXT: v_bfe_u32 v17, v2, 16, 4			; GFX9-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX9-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-NEXT: v_and_b32_e32 v5, 0xffff, v5
				; GFX9-NEXT: v_bfe_u32 v9, v1, 16, 4
				; GFX9-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-NEXT: v_lshl_or_b32 v6, v6, 16, v7
				; GFX9-NEXT: v_lshl_or_b32 v7, v11, 16, v12
				; GFX9-NEXT: v_lshl_or_b32 v4, v4, 16, v5
				; GFX9-NEXT: v_bfe_u32 v8, v1, 20, 4
				; GFX9-NEXT: v_bfe_u32 v13, v2, 12, 4
				; GFX9-NEXT: v_and_b32_e32 v9, 0xffff, v9
				; GFX9-NEXT: v_and_b32_e32 v14, 0xffff, v14
				; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v7
				; GFX9-NEXT: v_lshrrev_b32_e32 v10, 28, v1
				; GFX9-NEXT: v_bfe_u32 v1, v1, 24, 4
				; GFX9-NEXT: v_bfe_u32 v15, v2, 20, 4
				; GFX9-NEXT: v_bfe_u32 v16, v2, 16, 4
				; GFX9-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4			; GFX9-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-NEXT: v_and_b32_e32 v17, v4, v17
	; GFX9-NEXT: v_and_b32_e32 v10, v4, v10
	; GFX9-NEXT: v_and_b32_e32 v15, v4, v15
	; GFX9-NEXT: v_and_b32_e32 v8, v4, v8
	; GFX9-NEXT: v_and_b32_e32 v13, v4, v13
	; GFX9-NEXT: v_and_b32_e32 v4, v4, v6
	; GFX9-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX9-NEXT: v_lshl_or_b32 v8, v12, 16, v13
	; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX9-NEXT: v_pk_mul_lo_u16 v4, v4, v8
	; GFX9-NEXT: v_lshl_or_b32 v9, v9, 16, v10
	; GFX9-NEXT: v_lshl_or_b32 v10, v14, 16, v15
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-NEXT: v_pk_mul_lo_u16 v5, v7, v10			; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
				; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX9-NEXT: v_and_b32_e32 v16, 0xffff, v16
				; GFX9-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v2, v18, 16, v2			; GFX9-NEXT: v_lshl_or_b32 v2, v17, 16, v2
	; GFX9-NEXT: v_lshl_or_b32 v1, v11, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-NEXT: v_lshl_or_b32 v6, v16, 16, v17			; GFX9-NEXT: v_lshl_or_b32 v10, v15, 16, v16
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-NEXT: v_pk_mul_lo_u16 v2, v9, v6			; GFX9-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_and_b32_e32 v1, 15, v1			; GFX9-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX9-NEXT: global_store_byte v0, v1, s[2:3]			; GFX9-NEXT: global_store_byte v0, v1, s[2:3]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX9-DL-LABEL: udot8_acc4_vecMul:			; GFX9-DL-LABEL: udot8_acc4_vecMul:
	; GFX9-DL: ; %bb.0: ; %entry			; GFX9-DL: ; %bb.0: ; %entry
	; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GFX9-DL-NEXT: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GFX9-DL-NEXT: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GFX9-DL-NEXT: s_mov_b32 s10, -1			; GFX9-DL-NEXT: s_mov_b32 s10, -1
	; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000			; GFX9-DL-NEXT: s_mov_b32 s11, 0xe00000
	; GFX9-DL-NEXT: s_add_u32 s8, s8, s3			; GFX9-DL-NEXT: s_add_u32 s8, s8, s3
	; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-DL-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-DL-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-DL-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-DL-NEXT: v_mov_b32_e32 v4, 0xffff			; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-DL-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]			; GFX9-DL-NEXT: global_load_dword v1, v0, s[4:5]
	; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]			; GFX9-DL-NEXT: global_load_dword v2, v0, s[6:7]
	; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0			; GFX9-DL-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]			; GFX9-DL-NEXT: global_load_ubyte v3, v0, s[2:3]
	; GFX9-DL-NEXT: s_addc_u32 s9, s9, 0
	; GFX9-DL-NEXT: s_waitcnt vmcnt(2)			; GFX9-DL-NEXT: s_waitcnt vmcnt(2)
	; GFX9-DL-NEXT: v_bfe_u32 v5, v1, 4, 4			; GFX9-DL-NEXT: v_and_b32_e32 v5, 15, v1
	; GFX9-DL-NEXT: v_and_b32_e32 v6, 15, v1			; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v7, v1, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 8, 4
	; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 20, 4
	; GFX9-DL-NEXT: v_bfe_u32 v10, v1, 16, 4
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v11, 28, v1
	; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4
	; GFX9-DL-NEXT: s_waitcnt vmcnt(1)			; GFX9-DL-NEXT: s_waitcnt vmcnt(1)
	; GFX9-DL-NEXT: v_bfe_u32 v12, v2, 4, 4			; GFX9-DL-NEXT: v_and_b32_e32 v12, 15, v2
	; GFX9-DL-NEXT: v_and_b32_e32 v13, 15, v2			; GFX9-DL-NEXT: v_bfe_u32 v4, v1, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 12, 4			; GFX9-DL-NEXT: v_bfe_u32 v6, v1, 12, 4
	; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 8, 4			; GFX9-DL-NEXT: v_bfe_u32 v11, v2, 4, 4
	; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 20, 4			; GFX9-DL-NEXT: v_and_b32_e32 v7, 0xffff, v7
	; GFX9-DL-NEXT: v_bfe_u32 v17, v2, 16, 4			; GFX9-DL-NEXT: v_and_b32_e32 v12, 0xffff, v12
	; GFX9-DL-NEXT: v_lshrrev_b32_e32 v18, 28, v2			; GFX9-DL-NEXT: v_and_b32_e32 v5, 0xffff, v5
				; GFX9-DL-NEXT: v_bfe_u32 v9, v1, 16, 4
				; GFX9-DL-NEXT: v_bfe_u32 v14, v2, 8, 4
				; GFX9-DL-NEXT: v_lshl_or_b32 v6, v6, 16, v7
				; GFX9-DL-NEXT: v_lshl_or_b32 v7, v11, 16, v12
				; GFX9-DL-NEXT: v_lshl_or_b32 v4, v4, 16, v5
				; GFX9-DL-NEXT: v_bfe_u32 v8, v1, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v13, v2, 12, 4
				; GFX9-DL-NEXT: v_and_b32_e32 v9, 0xffff, v9
				; GFX9-DL-NEXT: v_and_b32_e32 v14, 0xffff, v14
				; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v7
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v10, 28, v1
				; GFX9-DL-NEXT: v_bfe_u32 v1, v1, 24, 4
				; GFX9-DL-NEXT: v_bfe_u32 v15, v2, 20, 4
				; GFX9-DL-NEXT: v_bfe_u32 v16, v2, 16, 4
				; GFX9-DL-NEXT: v_lshrrev_b32_e32 v17, 28, v2
	; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4			; GFX9-DL-NEXT: v_bfe_u32 v2, v2, 24, 4
	; GFX9-DL-NEXT: v_and_b32_e32 v2, v4, v2			; GFX9-DL-NEXT: v_lshl_or_b32 v8, v8, 16, v9
	; GFX9-DL-NEXT: v_and_b32_e32 v1, v4, v1			; GFX9-DL-NEXT: v_lshl_or_b32 v9, v13, 16, v14
	; GFX9-DL-NEXT: v_and_b32_e32 v17, v4, v17
	; GFX9-DL-NEXT: v_and_b32_e32 v10, v4, v10
	; GFX9-DL-NEXT: v_and_b32_e32 v15, v4, v15
	; GFX9-DL-NEXT: v_and_b32_e32 v8, v4, v8
	; GFX9-DL-NEXT: v_and_b32_e32 v13, v4, v13
	; GFX9-DL-NEXT: v_and_b32_e32 v4, v4, v6
	; GFX9-DL-NEXT: v_lshl_or_b32 v7, v7, 16, v8
	; GFX9-DL-NEXT: v_lshl_or_b32 v8, v12, 16, v13
	; GFX9-DL-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v4, v4, v8
	; GFX9-DL-NEXT: v_lshl_or_b32 v9, v9, 16, v10
	; GFX9-DL-NEXT: v_lshl_or_b32 v10, v14, 16, v15
	; GFX9-DL-NEXT: s_waitcnt vmcnt(0)			; GFX9-DL-NEXT: s_waitcnt vmcnt(0)
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3			; GFX9-DL-NEXT: v_add_u16_e32 v3, v4, v3
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v7, v10			; GFX9-DL-NEXT: v_and_b32_e32 v2, 0xffff, v2
				; GFX9-DL-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX9-DL-NEXT: v_and_b32_e32 v16, 0xffff, v16
				; GFX9-DL-NEXT: v_pk_mul_lo_u16 v5, v6, v9
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_lshl_or_b32 v2, v18, 16, v2			; GFX9-DL-NEXT: v_lshl_or_b32 v2, v17, 16, v2
	; GFX9-DL-NEXT: v_lshl_or_b32 v1, v11, 16, v1			; GFX9-DL-NEXT: v_lshl_or_b32 v1, v10, 16, v1
	; GFX9-DL-NEXT: v_lshl_or_b32 v6, v16, 16, v17			; GFX9-DL-NEXT: v_lshl_or_b32 v10, v15, 16, v16
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v5
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v1, v1, v2
	; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v9, v6			; GFX9-DL-NEXT: v_pk_mul_lo_u16 v2, v8, v10
	; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v3, v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2			; GFX9-DL-NEXT: v_add_u16_e32 v3, v3, v2
	; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v2, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1			; GFX9-DL-NEXT: v_add_u16_e32 v2, v2, v1
	; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-DL-NEXT: v_add_u16_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-DL-NEXT: v_and_b32_e32 v1, 15, v1			; GFX9-DL-NEXT: v_and_b32_e32 v1, 15, v1
	; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]			; GFX9-DL-NEXT: global_store_byte v0, v1, s[2:3]
	; GFX9-DL-NEXT: s_endpgm			; GFX9-DL-NEXT: s_endpgm
	▲ Show 20 Lines • Show All 339 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 1,298 Lines • ▼ Show 20 Lines
	; SI-NEXT: v_mov_b32_e32 v0, s4			; SI-NEXT: v_mov_b32_e32 v0, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_lshr_b32 s4, s11, 16			; SI-NEXT: s_lshr_b32 s4, s11, 16
	; SI-NEXT: s_cmp_lg_u32 s6, 14			; SI-NEXT: s_cmp_lg_u32 s6, 14
	; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc
	; SI-NEXT: v_mov_b32_e32 v1, s4			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: s_movk_i32 s4, 0xff			; SI-NEXT: s_lshr_b32 s4, s11, 8
	; SI-NEXT: s_lshr_b32 s5, s11, 8
	; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; SI-NEXT: v_and_b32_e32 v1, s4, v1			; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 13			; SI-NEXT: s_cmp_lg_u32 s6, 13
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v1, v0
	; SI-NEXT: v_mov_b32_e32 v1, s5			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_cmp_lg_u32 s6, 12			; SI-NEXT: s_cmp_lg_u32 s6, 12
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: v_mov_b32_e32 v2, s11			; SI-NEXT: v_mov_b32_e32 v2, s11
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc			; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; SI-NEXT: v_and_b32_e32 v2, s4, v2			; SI-NEXT: v_and_b32_e32 v2, 0xff, v2
	; SI-NEXT: v_or_b32_e32 v1, v2, v1			; SI-NEXT: v_or_b32_e32 v1, v2, v1
	; SI-NEXT: s_mov_b32 s5, 0xffff			; SI-NEXT: s_lshr_b32 s4, s10, 24
	; SI-NEXT: s_lshr_b32 s7, s10, 24
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v1, s5, v1			; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 11			; SI-NEXT: s_cmp_lg_u32 s6, 11
	; SI-NEXT: v_or_b32_e32 v3, v1, v0			; SI-NEXT: v_or_b32_e32 v3, v1, v0
	; SI-NEXT: v_mov_b32_e32 v0, s7			; SI-NEXT: v_mov_b32_e32 v0, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_lshr_b32 s7, s10, 16			; SI-NEXT: s_lshr_b32 s4, s10, 16
	; SI-NEXT: s_cmp_lg_u32 s6, 10			; SI-NEXT: s_cmp_lg_u32 s6, 10
	; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc
	; SI-NEXT: v_mov_b32_e32 v1, s7			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: s_lshr_b32 s7, s10, 8			; SI-NEXT: s_lshr_b32 s4, s10, 8
	; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; SI-NEXT: v_and_b32_e32 v1, s4, v1			; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 9			; SI-NEXT: s_cmp_lg_u32 s6, 9
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v1, v0
	; SI-NEXT: v_mov_b32_e32 v1, s7			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_cmp_lg_u32 s6, 8			; SI-NEXT: s_cmp_lg_u32 s6, 8
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: v_mov_b32_e32 v2, s10			; SI-NEXT: v_mov_b32_e32 v2, s10
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc			; SI-NEXT: v_cndmask_b32_e32 v2, 5, v2, vcc
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; SI-NEXT: v_and_b32_e32 v2, s4, v2			; SI-NEXT: v_and_b32_e32 v2, 0xff, v2
	; SI-NEXT: v_or_b32_e32 v1, v2, v1			; SI-NEXT: v_or_b32_e32 v1, v2, v1
	; SI-NEXT: s_lshr_b32 s7, s9, 24			; SI-NEXT: s_lshr_b32 s4, s9, 24
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v1, s5, v1			; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 7			; SI-NEXT: s_cmp_lg_u32 s6, 7
	; SI-NEXT: v_or_b32_e32 v2, v1, v0			; SI-NEXT: v_or_b32_e32 v2, v1, v0
	; SI-NEXT: v_mov_b32_e32 v0, s7			; SI-NEXT: v_mov_b32_e32 v0, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_lshr_b32 s7, s9, 16			; SI-NEXT: s_lshr_b32 s4, s9, 16
	; SI-NEXT: s_cmp_lg_u32 s6, 6			; SI-NEXT: s_cmp_lg_u32 s6, 6
	; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc
	; SI-NEXT: v_mov_b32_e32 v1, s7			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: s_lshr_b32 s7, s9, 8			; SI-NEXT: s_lshr_b32 s4, s9, 8
	; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; SI-NEXT: v_and_b32_e32 v1, s4, v1			; SI-NEXT: v_and_b32_e32 v1, 0xff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 5			; SI-NEXT: s_cmp_lg_u32 s6, 5
	; SI-NEXT: v_or_b32_e32 v0, v1, v0			; SI-NEXT: v_or_b32_e32 v0, v1, v0
	; SI-NEXT: v_mov_b32_e32 v1, s7			; SI-NEXT: v_mov_b32_e32 v1, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_cmp_lg_u32 s6, 4			; SI-NEXT: s_cmp_lg_u32 s6, 4
	; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc			; SI-NEXT: v_cndmask_b32_e32 v1, 5, v1, vcc
	; SI-NEXT: v_mov_b32_e32 v4, s9			; SI-NEXT: v_mov_b32_e32 v4, s9
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc			; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc
	; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 8, v1
	; SI-NEXT: v_and_b32_e32 v4, s4, v4			; SI-NEXT: v_and_b32_e32 v4, 0xff, v4
	; SI-NEXT: v_or_b32_e32 v1, v4, v1			; SI-NEXT: v_or_b32_e32 v1, v4, v1
	; SI-NEXT: s_lshr_b32 s7, s8, 24			; SI-NEXT: s_lshr_b32 s4, s8, 24
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v1, s5, v1			; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; SI-NEXT: s_cmp_lg_u32 s6, 3			; SI-NEXT: s_cmp_lg_u32 s6, 3
	; SI-NEXT: v_or_b32_e32 v1, v1, v0			; SI-NEXT: v_or_b32_e32 v1, v1, v0
	; SI-NEXT: v_mov_b32_e32 v0, s7			; SI-NEXT: v_mov_b32_e32 v0, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_lshr_b32 s7, s8, 16			; SI-NEXT: s_lshr_b32 s4, s8, 16
	; SI-NEXT: s_cmp_lg_u32 s6, 2			; SI-NEXT: s_cmp_lg_u32 s6, 2
	; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc			; SI-NEXT: v_cndmask_b32_e32 v0, 5, v0, vcc
	; SI-NEXT: v_mov_b32_e32 v4, s7			; SI-NEXT: v_mov_b32_e32 v4, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc			; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc
	; SI-NEXT: s_lshr_b32 s7, s8, 8			; SI-NEXT: s_lshr_b32 s4, s8, 8
	; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; SI-NEXT: v_and_b32_e32 v4, s4, v4			; SI-NEXT: v_and_b32_e32 v4, 0xff, v4
	; SI-NEXT: s_cmp_lg_u32 s6, 1			; SI-NEXT: s_cmp_lg_u32 s6, 1
	; SI-NEXT: v_or_b32_e32 v0, v4, v0			; SI-NEXT: v_or_b32_e32 v0, v4, v0
	; SI-NEXT: v_mov_b32_e32 v4, s7			; SI-NEXT: v_mov_b32_e32 v4, s4
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: s_cmp_lg_u32 s6, 0			; SI-NEXT: s_cmp_lg_u32 s6, 0
	; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc			; SI-NEXT: v_cndmask_b32_e32 v4, 5, v4, vcc
	; SI-NEXT: v_mov_b32_e32 v5, s8			; SI-NEXT: v_mov_b32_e32 v5, s8
	; SI-NEXT: s_cselect_b64 vcc, -1, 0			; SI-NEXT: s_cselect_b64 vcc, -1, 0
	; SI-NEXT: v_cndmask_b32_e32 v5, 5, v5, vcc			; SI-NEXT: v_cndmask_b32_e32 v5, 5, v5, vcc
	; SI-NEXT: v_lshlrev_b32_e32 v4, 8, v4			; SI-NEXT: v_lshlrev_b32_e32 v4, 8, v4
	; SI-NEXT: v_and_b32_e32 v5, s4, v5			; SI-NEXT: v_and_b32_e32 v5, 0xff, v5
	; SI-NEXT: v_or_b32_e32 v4, v5, v4			; SI-NEXT: v_or_b32_e32 v4, v5, v4
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v4, s5, v4			; SI-NEXT: v_and_b32_e32 v4, 0xffff, v4
	; SI-NEXT: v_or_b32_e32 v0, v4, v0			; SI-NEXT: v_or_b32_e32 v0, v4, v0
	; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: dynamic_insertelement_v16i8:			; VI-LABEL: dynamic_insertelement_v16i8:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x10			; VI-NEXT: s_load_dwordx4 s[8:11], s[4:5], 0x10
	; VI-NEXT: s_load_dword s6, s[4:5], 0x20			; VI-NEXT: s_load_dword s6, s[4:5], 0x20
	▲ Show 20 Lines • Show All 511 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

	Show First 20 Lines • Show All 1,875 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_kernel void @v_insertelement_v8f16_dynamic(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val, i32 %n) {			define amdgpu_kernel void @v_insertelement_v8f16_dynamic(<8 x half> addrspace(1)* %out, <8 x half> addrspace(1)* %in, i32 %val, i32 %n) {
	; GFX9-LABEL: v_insertelement_v8f16_dynamic:			; GFX9-LABEL: v_insertelement_v8f16_dynamic:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10			; GFX9-NEXT: s_load_dwordx2 s[6:7], s[4:5], 0x10
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v4, 4, v0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]			; GFX9-NEXT: global_load_dwordx4 v[0:3], v4, s[2:3]
	; GFX9-NEXT: s_cmp_eq_u32 s7, 7			; GFX9-NEXT: s_cmp_eq_u32 s7, 7
	; GFX9-NEXT: v_mov_b32_e32 v6, s6			; GFX9-NEXT: v_mov_b32_e32 v5, s6
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 6			; GFX9-NEXT: s_cmp_eq_u32 s7, 6
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v6, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 5			; GFX9-NEXT: s_cmp_eq_u32 s7, 5
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 4			; GFX9-NEXT: s_cmp_eq_u32 s7, 4
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v8, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v7, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 3			; GFX9-NEXT: s_cmp_eq_u32 s7, 3
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX9-NEXT: v_and_b32_e32 v3, v5, v3			; GFX9-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 2			; GFX9-NEXT: s_cmp_eq_u32 s7, 2
	; GFX9-NEXT: v_lshl_or_b32 v3, v7, 16, v3			; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v3
	; GFX9-NEXT: v_cndmask_b32_e32 v7, v9, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v6, v8, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 1			; GFX9-NEXT: s_cmp_eq_u32 s7, 1
	; GFX9-NEXT: v_lshrrev_b32_e32 v10, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0
	; GFX9-NEXT: v_and_b32_e32 v2, v5, v2			; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: s_cmp_eq_u32 s7, 0			; GFX9-NEXT: s_cmp_eq_u32 s7, 0
	; GFX9-NEXT: v_lshl_or_b32 v2, v8, 16, v2			; GFX9-NEXT: v_lshl_or_b32 v2, v7, 16, v2
	; GFX9-NEXT: v_cndmask_b32_e32 v8, v10, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v7, v9, v5, vcc
	; GFX9-NEXT: s_cselect_b64 vcc, -1, 0			; GFX9-NEXT: s_cselect_b64 vcc, -1, 0
	; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v6, vcc			; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v5, vcc
	; GFX9-NEXT: v_and_b32_e32 v1, v5, v1			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_and_b32_e32 v0, v5, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v7, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v8, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0
	; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]			; GFX9-NEXT: global_store_dwordx4 v4, v[0:3], s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_insertelement_v8f16_dynamic:			; VI-LABEL: v_insertelement_v8f16_dynamic:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; VI-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x10			; VI-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x10
	; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0			; VI-NEXT: v_lshlrev_b32_e32 v4, 4, v0
	▲ Show 20 Lines • Show All 134 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

Show First 20 Lines • Show All 547 Lines • ▼ Show 20 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_d_2d:		; GFX9-LABEL: sample_d_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff		; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX9-NEXT: v_and_b32_e32 v4, v6, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_and_b32_e32 v2, v6, v2		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v0, v6, v0
; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4		; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX9-NEXT: image_sample_d v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_2d:		; GFX10-LABEL: sample_d_2d:
Show All 12 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r) {		define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, half %s, half %t, half %r) {
; GFX9-LABEL: sample_d_3d:		; GFX9-LABEL: sample_d_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v12, v8		; GFX9-NEXT: v_mov_b32_e32 v12, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v6
		; GFX9-NEXT: v_lshl_or_b32 v11, v7, 16, v2
		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v3
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_mov_b32_e32 v10, v5		; GFX9-NEXT: v_mov_b32_e32 v10, v5
; GFX9-NEXT: v_and_b32_e32 v5, v2, v6		; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v2
; GFX9-NEXT: v_and_b32_e32 v3, v2, v3
; GFX9-NEXT: v_and_b32_e32 v0, v2, v0
; GFX9-NEXT: v_lshl_or_b32 v11, v7, 16, v5
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v3
; GFX9-NEXT: v_lshl_or_b32 v7, v1, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v7, v1, 16, v0
; GFX9-NEXT: image_sample_d v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d v[0:3], v[7:12], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_3d:		; GFX10-LABEL: sample_d_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v12, v8		; GFX10-NEXT: v_mov_b32_e32 v12, v8
Show All 28 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_c_d_2d:		; GFX9-LABEL: sample_c_d_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-NEXT: v_mov_b32_e32 v7, v3		; GFX9-NEXT: v_mov_b32_e32 v7, v3
; GFX9-NEXT: v_mov_b32_e32 v8, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_and_b32_e32 v2, v9, v5		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2
; GFX9-NEXT: v_and_b32_e32 v2, v9, v7		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v7
; GFX9-NEXT: v_and_b32_e32 v1, v9, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1		; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1
; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_2d:		; GFX10-LABEL: sample_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
Show All 30 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_d_cl_2d:		; GFX9-LABEL: sample_d_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX9-NEXT: v_and_b32_e32 v4, v7, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_and_b32_e32 v2, v7, v2		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v0, v7, v0
; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4		; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4
; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0
; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
Show All 33 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_d_cl_2d:		; GFX9-LABEL: sample_c_d_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v11, v7		; GFX9-NEXT: v_mov_b32_e32 v11, v7
; GFX9-NEXT: v_mov_b32_e32 v7, v0		; GFX9-NEXT: v_mov_b32_e32 v7, v0
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v5
; GFX9-NEXT: v_and_b32_e32 v5, v0, v5		; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v0
; GFX9-NEXT: v_and_b32_e32 v3, v0, v3		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GFX9-NEXT: v_and_b32_e32 v0, v0, v1		; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v0
; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v5		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v3
; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0
; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_d_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_cl_2d:		; GFX10-LABEL: sample_c_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5
Show All 25 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_cd_2d:		; GFX9-LABEL: sample_cd_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v6, 0xffff		; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX9-NEXT: v_and_b32_e32 v4, v6, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_and_b32_e32 v2, v6, v2		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v0, v6, v0
; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4		; GFX9-NEXT: v_lshl_or_b32 v4, v5, 16, v4
; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v3, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v2, v1, 16, v0
; GFX9-NEXT: image_sample_cd v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cd v[0:3], v[2:4], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cd_2d:		; GFX10-LABEL: sample_cd_2d:
Show All 27 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {		define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t) {
; GFX9-LABEL: sample_c_cd_2d:		; GFX9-LABEL: sample_c_cd_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
; GFX9-NEXT: v_mov_b32_e32 v7, v3		; GFX9-NEXT: v_mov_b32_e32 v7, v3
; GFX9-NEXT: v_mov_b32_e32 v8, v2		; GFX9-NEXT: v_mov_b32_e32 v8, v2
; GFX9-NEXT: v_and_b32_e32 v2, v9, v5		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v3, v6, 16, v2
; GFX9-NEXT: v_and_b32_e32 v2, v9, v7		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v7
; GFX9-NEXT: v_and_b32_e32 v1, v9, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v2, v4, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1		; GFX9-NEXT: v_lshl_or_b32 v1, v8, 16, v1
; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cd_2d:		; GFX10-LABEL: sample_c_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
Show All 30 Lines
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f16(i32 15, half %dsdh, half %dsdv, half %s, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_cd_cl_2d:		; GFX9-LABEL: sample_cd_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX9-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX9-NEXT: v_and_b32_e32 v4, v7, v4		; GFX9-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX9-NEXT: v_and_b32_e32 v2, v7, v2		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX9-NEXT: v_and_b32_e32 v0, v7, v0
; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4		; GFX9-NEXT: v_lshl_or_b32 v5, v5, 16, v4
; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v4, v3, 16, v2
; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v3, v1, 16, v0
; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
Show All 33 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp) {
; GFX9-LABEL: sample_c_cd_cl_2d:		; GFX9-LABEL: sample_c_cd_cl_2d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v11, v7		; GFX9-NEXT: v_mov_b32_e32 v11, v7
; GFX9-NEXT: v_mov_b32_e32 v7, v0		; GFX9-NEXT: v_mov_b32_e32 v7, v0
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v5
; GFX9-NEXT: v_and_b32_e32 v5, v0, v5		; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v0
; GFX9-NEXT: v_and_b32_e32 v3, v0, v3		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GFX9-NEXT: v_and_b32_e32 v0, v0, v1		; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v0
; GFX9-NEXT: v_lshl_or_b32 v10, v6, 16, v5		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GFX9-NEXT: v_lshl_or_b32 v9, v4, 16, v3
; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v8, v2, 16, v0
; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_cd_cl v[0:3], v[7:11], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_cd_cl_2d:		; GFX10-LABEL: sample_c_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5		; GFX10-NEXT: v_and_b32_e32 v5, 0xffff, v5
▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps float @sample_c_d_o_2darray_V1(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
; GFX9-LABEL: sample_c_d_o_2darray_V1:		; GFX9-LABEL: sample_c_d_o_2darray_V1:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v13, v8		; GFX9-NEXT: v_mov_b32_e32 v13, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v0		; GFX9-NEXT: v_mov_b32_e32 v8, v0
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v6
		; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v0
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
		; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v0
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_mov_b32_e32 v9, v1		; GFX9-NEXT: v_mov_b32_e32 v9, v1
; GFX9-NEXT: v_and_b32_e32 v1, v0, v6
; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v1
; GFX9-NEXT: v_and_b32_e32 v1, v0, v4
; GFX9-NEXT: v_and_b32_e32 v0, v0, v2
; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0
; GFX9-NEXT: image_sample_c_d_o v0, v[8:13], s[0:7], s[8:11] dmask:0x4 a16 da		; GFX9-NEXT: image_sample_c_d_o v0, v[8:13], s[0:7], s[8:11] dmask:0x4 a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_o_2darray_V1:		; GFX10-LABEL: sample_c_d_o_2darray_V1:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v8		; GFX10-NEXT: v_mov_b32_e32 v13, v8
Show All 13 Lines	main_body:
ret float %v		ret float %v
}		}

define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {		define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
; GFX9-LABEL: sample_c_d_o_2darray_V2:		; GFX9-LABEL: sample_c_d_o_2darray_V2:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: v_mov_b32_e32 v13, v8		; GFX9-NEXT: v_mov_b32_e32 v13, v8
; GFX9-NEXT: v_mov_b32_e32 v8, v0		; GFX9-NEXT: v_mov_b32_e32 v8, v0
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v6
		; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v0
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v4
		; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v0
		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_mov_b32_e32 v9, v1		; GFX9-NEXT: v_mov_b32_e32 v9, v1
; GFX9-NEXT: v_and_b32_e32 v1, v0, v6
; GFX9-NEXT: v_lshl_or_b32 v12, v7, 16, v1
; GFX9-NEXT: v_and_b32_e32 v1, v0, v4
; GFX9-NEXT: v_and_b32_e32 v0, v0, v2
; GFX9-NEXT: v_lshl_or_b32 v11, v5, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v10, v3, 16, v0
; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 a16 da		; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:13], s[0:7], s[8:11] dmask:0x6 a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_d_o_2darray_V2:		; GFX10-LABEL: sample_c_d_o_2darray_V2:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v13, v8		; GFX10-NEXT: v_mov_b32_e32 v13, v8
▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.cos.f16.ll

	Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_mov_b32 s10, s6			; GFX6-NEXT: s_mov_b32 s10, s6
	; GFX6-NEXT: s_mov_b32 s11, s7			; GFX6-NEXT: s_mov_b32 s11, s7
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s8, s2			; GFX6-NEXT: s_mov_b32 s8, s2
	; GFX6-NEXT: s_mov_b32 s9, s3			; GFX6-NEXT: s_mov_b32 s9, s3
	; GFX6-NEXT: buffer_load_dword v0, off, s[8:11], 0			; GFX6-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; GFX6-NEXT: s_mov_b32 s2, 0x3e22f983
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_waitcnt vmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x3e22f983, v1
	; GFX6-NEXT: v_fract_f32_e32 v1, v1			; GFX6-NEXT: v_fract_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x3e22f983, v0
	; GFX6-NEXT: v_fract_f32_e32 v0, v0			; GFX6-NEXT: v_fract_f32_e32 v0, v0
	; GFX6-NEXT: v_cos_f32_e32 v0, v0			; GFX6-NEXT: v_cos_f32_e32 v0, v0
	; GFX6-NEXT: v_cos_f32_e32 v1, v1			; GFX6-NEXT: v_cos_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v1, v0			; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.log.f16.ll

Show All 26 Lines	entry:
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; FUNC-LABEL: {{^}}log_v2f16		; FUNC-LABEL: {{^}}log_v2f16
; SI: buffer_load_dword v[[A_F16_0:[0-9]+]]		; SI: buffer_load_dword v[[A_F16_0:[0-9]+]]
; VI: flat_load_dword v[[A_F16_0:[0-9]+]]		; VI: flat_load_dword v[[A_F16_0:[0-9]+]]
; GFX9: global_load_dword v[[A_F16_0:[0-9]+]]		; GFX9: global_load_dword v[[A_F16_0:[0-9]+]]
; SI: s_mov_b32 [[A_F32_2:s[0-9]+]], 0x3f317218
; GFX9: s_movk_i32 [[A_F32_2:s[0-9]+]], 0x398c
; VI: v_mov_b32_e32 [[A_F32_2_V:v[0-9]+]], 0x398c		; VI: v_mov_b32_e32 [[A_F32_2_V:v[0-9]+]], 0x398c
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_0]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_0]]
; SI: v_log_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI: v_log_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_log_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI: v_log_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_mul_f32_e32 v[[R_F32_5:[0-9]+]], [[A_F32_2]], v[[R_F32_0]]		; SI: v_mul_f32_e32 v[[R_F32_5:[0-9]+]], 0x3f317218, v[[R_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_5]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_5]]
; SI: v_mul_f32_e32 v[[R_F32_6:[0-9]+]], [[A_F32_2]], v[[R_F32_1]]		; SI: v_mul_f32_e32 v[[R_F32_6:[0-9]+]], 0x3f317218, v[[R_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_6]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_6]]
; GFX9: v_log_f16_e32 v[[R_F16_2:[0-9]+]], v[[A_F16_0]]		; GFX9: v_log_f16_e32 v[[R_F16_2:[0-9]+]], v[[A_F16_0]]
; VIGFX9: v_log_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; VIGFX9: v_log_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI: v_log_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_F16_0]]		; VI: v_log_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_F16_0]]
; VI: v_mul_f16_sdwa v[[R_F16_2:[0-9]+]], v[[R_F16_1]], [[A_F32_2_V]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_mul_f16_sdwa v[[R_F16_2:[0-9]+]], v[[R_F16_1]], [[A_F32_2_V]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; GFX9: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], [[A_F32_2]], v[[R_F16_2]]		; GFX9: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], 0x398c, v[[R_F16_2]]
; VI: v_mul_f16_e32 v[[R_F32_2:[0-9]+]], 0x398c, v[[R_F16_0]]		; VIGFX9: v_mul_f16_e32 v[[R_F32_2:[0-9]+]], 0x398c, v[[R_F16_0]]
; GFX9: v_mul_f16_e32 v[[R_F32_2:[0-9]+]], [[A_F32_2]], v[[R_F16_0]]
; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_0]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_0]]
; SI-NOT: v_and_b32_e32		; SI-NOT: v_and_b32_e32
; SI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]
; VI-NOT: v_and_b32_e32		; VI-NOT: v_and_b32_e32
; VI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_0]], v[[R_F16_2]]		; VI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_0]], v[[R_F16_2]]
; GFX9: v_pack_b32_f16 v[[R_F32_5:[0-9]+]], v[[R_F32_3]], v[[R_F32_2]]		; GFX9: v_pack_b32_f16 v[[R_F32_5:[0-9]+]], v[[R_F32_3]], v[[R_F32_2]]
; SI: buffer_store_dword v[[R_F32_5]]		; SI: buffer_store_dword v[[R_F32_5]]
; VI: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, v[[R_F32_5]]		; VI: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, v[[R_F32_5]]
Show All 10 Lines

llvm/test/CodeGen/AMDGPU/llvm.log.ll

	Show All 26 Lines
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: s_mov_b32 [[R_F32_LOG_CONST:s[0-9]+]], 0x3f317218
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {			define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {
	entry:			entry:
	%res = call <2 x float> @llvm.log.v2f32(<2 x float> %in)			%res = call <2 x float> @llvm.log.v2f32(<2 x float> %in)
	store <2 x float> %res, <2 x float> addrspace(1)* %out			store <2 x float> %res, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}testv4:			; FUNC-LABEL: {{^}}testv4:
	Show All 15 Lines
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: s_mov_b32 [[R_F32_LOG_CONST:s[0-9]+]], 0x3f317218
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3f317218, v{{[0-9]+}}
	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {			define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {
	entry:			entry:
	%res = call <4 x float> @llvm.log.v4f32(<4 x float> %in)			%res = call <4 x float> @llvm.log.v4f32(<4 x float> %in)
	store <4 x float> %res, <4 x float> addrspace(1)* %out			store <4 x float> %res, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	declare float @llvm.log.f32(float) readnone			declare float @llvm.log.f32(float) readnone
	declare <2 x float> @llvm.log.v2f32(<2 x float>) readnone			declare <2 x float> @llvm.log.v2f32(<2 x float>) readnone
	declare <4 x float> @llvm.log.v4f32(<4 x float>) readnone			declare <4 x float> @llvm.log.v4f32(<4 x float>) readnone

llvm/test/CodeGen/AMDGPU/llvm.log10.f16.ll

Show All 26 Lines	entry:
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}log10_v2f16		; GCN-LABEL: {{^}}log10_v2f16
; SI: buffer_load_dword v[[A_F16_0:[0-9]+]]		; SI: buffer_load_dword v[[A_F16_0:[0-9]+]]
; VI: flat_load_dword v[[A_F16_0:[0-9]+]]		; VI: flat_load_dword v[[A_F16_0:[0-9]+]]
; GFX9: global_load_dword v[[A_F16_0:[0-9]+]]		; GFX9: global_load_dword v[[A_F16_0:[0-9]+]]
; SI: s_mov_b32 [[A_F32_2:s[0-9]+]], 0x3e9a209a
; GFX9: s_movk_i32 [[A_F32_2:s[0-9]+]], 0x34d1
; VI: v_mov_b32_e32 [[A_F32_2_V:v[0-9]+]], 0x34d1		; VI: v_mov_b32_e32 [[A_F32_2_V:v[0-9]+]], 0x34d1
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_F16_0]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_0]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_0]]
; SI: v_log_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]		; SI: v_log_f32_e32 v[[R_F32_0:[0-9]+]], v[[A_F32_0]]
; SI: v_log_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]		; SI: v_log_f32_e32 v[[R_F32_1:[0-9]+]], v[[A_F32_1]]
; SI: v_mul_f32_e32 v[[R_F32_5:[0-9]+]], [[A_F32_2]], v[[R_F32_0]]		; SI: v_mul_f32_e32 v[[R_F32_5:[0-9]+]], 0x3e9a209a, v[[R_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_5]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_5]]
; SI: v_mul_f32_e32 v[[R_F32_6:[0-9]+]], [[A_F32_2]], v[[R_F32_1]]		; SI: v_mul_f32_e32 v[[R_F32_6:[0-9]+]], 0x3e9a209a, v[[R_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_6]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_6]]
; GFX9: v_log_f16_e32 v[[R_F16_2:[0-9]+]], v[[A_F16_0]]		; GFX9: v_log_f16_e32 v[[R_F16_2:[0-9]+]], v[[A_F16_0]]
; VIGFX9: v_log_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1		; VIGFX9: v_log_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_F16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
; VI: v_log_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_F16_0]]		; VI: v_log_f16_e32 v[[R_F16_0:[0-9]+]], v[[A_F16_0]]
; VI: v_mul_f16_sdwa v[[R_F16_2:[0-9]+]], v[[R_F16_1]], [[A_F32_2_V]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_mul_f16_sdwa v[[R_F16_2:[0-9]+]], v[[R_F16_1]], [[A_F32_2_V]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], 0x34d1, v[[R_F16_0]]		; VI: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], 0x34d1, v[[R_F16_0]]
; GFX9: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], [[A_F32_2]], v[[R_F16_2]]		; GFX9: v_mul_f16_e32 v[[R_F32_3:[0-9]+]], 0x34d1, v[[R_F16_2]]
; GFX9: v_mul_f16_e32 v[[R_F32_2:[0-9]+]], [[A_F32_2]], v[[R_F16_0]]		; GFX9: v_mul_f16_e32 v[[R_F32_2:[0-9]+]], 0x34d1, v[[R_F16_0]]
; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_0]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_0]]
; SI-NOT: v_and_b32_e32		; SI-NOT: v_and_b32_e32
; SI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]
; VI-NOT: v_and_b32_e32		; VI-NOT: v_and_b32_e32
; VI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_0]], v[[R_F16_2]]		; VI: v_or_b32_e32 v[[R_F32_5:[0-9]+]], v[[R_F16_0]], v[[R_F16_2]]
; GFX9: v_pack_b32_f16 v[[R_F32_5:[0-9]+]], v[[R_F32_3]], v[[R_F32_2]]		; GFX9: v_pack_b32_f16 v[[R_F32_5:[0-9]+]], v[[R_F32_3]], v[[R_F32_2]]
; SI: buffer_store_dword v[[R_F32_5]]		; SI: buffer_store_dword v[[R_F32_5]]
; VI: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, v[[R_F32_5]]		; VI: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, v[[R_F32_5]]
Show All 10 Lines

llvm/test/CodeGen/AMDGPU/llvm.log10.ll

	Show All 26 Lines
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: s_mov_b32 [[R_F32_LOG_CONST:s[0-9]+]], 0x3e9a209a
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {			define void @testv2(<2 x float> addrspace(1)* %out, <2 x float> %in) {
	entry:			entry:
	%res = call <2 x float> @llvm.log10.v2f32(<2 x float> %in)			%res = call <2 x float> @llvm.log10.v2f32(<2 x float> %in)
	store <2 x float> %res, <2 x float> addrspace(1)* %out			store <2 x float> %res, <2 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}testv4:			; FUNC-LABEL: {{^}}testv4:
	Show All 15 Lines
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}} (MASKED)
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}			; CM-DAG: LOG_IEEE T{{[0-9]+\.[XYZW]}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: s_mov_b32 [[R_F32_LOG_CONST:s[0-9]+]], 0x3e9a209a
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DAG: v_log_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, [[R_F32_LOG_CONST]], v{{[0-9]+}}			; GCN: v_mul_f32_e32 v{{[0-9]+}}, 0x3e9a209a, v{{[0-9]+}}
	define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {			define void @testv4(<4 x float> addrspace(1)* %out, <4 x float> %in) {
	entry:			entry:
	%res = call <4 x float> @llvm.log10.v4f32(<4 x float> %in)			%res = call <4 x float> @llvm.log10.v4f32(<4 x float> %in)
	store <4 x float> %res, <4 x float> addrspace(1)* %out			store <4 x float> %res, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	declare float @llvm.log10.f32(float) readnone			declare float @llvm.log10.f32(float) readnone
	declare <2 x float> @llvm.log10.v2f32(<2 x float>) readnone			declare <2 x float> @llvm.log10.v2f32(<2 x float>) readnone
	declare <4 x float> @llvm.log10.v4f32(<4 x float>) readnone			declare <4 x float> @llvm.log10.v4f32(<4 x float>) readnone

llvm/test/CodeGen/AMDGPU/llvm.sin.f16.ll

	Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s7, 0xf000			; GFX6-NEXT: s_mov_b32 s7, 0xf000
	; GFX6-NEXT: s_mov_b32 s6, -1			; GFX6-NEXT: s_mov_b32 s6, -1
	; GFX6-NEXT: s_mov_b32 s10, s6			; GFX6-NEXT: s_mov_b32 s10, s6
	; GFX6-NEXT: s_mov_b32 s11, s7			; GFX6-NEXT: s_mov_b32 s11, s7
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_mov_b32 s8, s2			; GFX6-NEXT: s_mov_b32 s8, s2
	; GFX6-NEXT: s_mov_b32 s9, s3			; GFX6-NEXT: s_mov_b32 s9, s3
	; GFX6-NEXT: buffer_load_dword v0, off, s[8:11], 0			; GFX6-NEXT: buffer_load_dword v0, off, s[8:11], 0
	; GFX6-NEXT: s_mov_b32 s2, 0x3e22f983
	; GFX6-NEXT: s_mov_b32 s4, s0			; GFX6-NEXT: s_mov_b32 s4, s0
	; GFX6-NEXT: s_mov_b32 s5, s1			; GFX6-NEXT: s_mov_b32 s5, s1
	; GFX6-NEXT: s_waitcnt vmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX6-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x3e22f983, v1
	; GFX6-NEXT: v_fract_f32_e32 v1, v1			; GFX6-NEXT: v_fract_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x3e22f983, v0
	; GFX6-NEXT: v_fract_f32_e32 v0, v0			; GFX6-NEXT: v_fract_f32_e32 v0, v0
	; GFX6-NEXT: v_sin_f32_e32 v0, v0			; GFX6-NEXT: v_sin_f32_e32 v0, v0
	; GFX6-NEXT: v_sin_f32_e32 v1, v1			; GFX6-NEXT: v_sin_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX6-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v1, v0			; GFX6-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[4:7], 0
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/load-global-i16.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,351 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s2, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s2, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v1
; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[4:7], 0 offset:8		; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[4:7], 0 offset:8
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx2 v[2:3], off, s[4:7], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx2 v[2:3], off, s[4:7], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v3i16_to_v3i32:		; GCN-HSA-LABEL: global_zextload_v3i16_to_v3i32:
; GCN-HSA: ; %bb.0: ; %entry		; GCN-HSA: ; %bb.0: ; %entry
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx2 v[3:4], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx2 v[3:4], v[0:1]
; GCN-HSA-NEXT: s_mov_b32 s2, 0xffff
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s0
; GCN-HSA-NEXT: v_mov_b32_e32 v6, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v6, s1
; GCN-HSA-NEXT: s_waitcnt vmcnt(0)		; GCN-HSA-NEXT: s_waitcnt vmcnt(0)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v3
; GCN-HSA-NEXT: v_and_b32_e32 v2, s2, v4		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v4
; GCN-HSA-NEXT: v_and_b32_e32 v0, s2, v3		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GCN-HSA-NEXT: flat_store_dwordx3 v[5:6], v[0:2]		; GCN-HSA-NEXT: flat_store_dwordx3 v[5:6], v[0:2]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v3i16_to_v3i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v3i16_to_v3i32:
; GCN-NOHSA-VI: ; %bb.0: ; %entry		; GCN-NOHSA-VI: ; %bb.0: ; %entry
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s2, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s2, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx3 v[0:2], off, s[4:7], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v3i16_to_v3i32:		; EG-LABEL: global_zextload_v3i16_to_v3i32:
; EG: ; %bb.0: ; %entry		; EG: ; %bb.0: ; %entry
; EG-NEXT: ALU 4, @12, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 4, @12, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 2 @6		; EG-NEXT: TEX 2 @6
; EG-NEXT: ALU 2, @17, KC0[], KC1[]		; EG-NEXT: ALU 2, @17, KC0[], KC1[]
▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[4:5], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[4:5], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v5		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v5
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v4
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s2, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s2, v4		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v4i16_to_v4i32:		; GCN-HSA-LABEL: global_zextload_v4i16_to_v4i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx2 v[4:5], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx2 v[4:5], v[0:1]
; GCN-HSA-NEXT: s_mov_b32 s2, 0xffff
; GCN-HSA-NEXT: v_mov_b32_e32 v6, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v6, s0
; GCN-HSA-NEXT: v_mov_b32_e32 v7, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v7, s1
; GCN-HSA-NEXT: s_waitcnt vmcnt(0)		; GCN-HSA-NEXT: s_waitcnt vmcnt(0)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v5		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v5
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v4
; GCN-HSA-NEXT: v_and_b32_e32 v2, s2, v5		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GCN-HSA-NEXT: v_and_b32_e32 v0, s2, v4		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GCN-HSA-NEXT: flat_store_dwordx4 v[6:7], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[6:7], v[0:3]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v4i16_to_v4i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v4i16_to_v4i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[0:1], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s2, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s2, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v4i16_to_v4i32:		; EG-LABEL: global_zextload_v4i16_to_v4i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 12, @9, KC0[CB0:0-32], KC1[]
▲ Show 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v1		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s2, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, 0xffff, v1
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s2, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s2, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s2, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v8i16_to_v8i32:		; GCN-HSA-LABEL: global_zextload_v8i16_to_v8i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s4, 0xffff
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 16		; GCN-HSA-NEXT: s_add_u32 s2, s0, 16
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v15, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v15, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s0
; GCN-HSA-NEXT: s_waitcnt vmcnt(0)		; GCN-HSA-NEXT: s_waitcnt vmcnt(0)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v10, s4, v3		; GCN-HSA-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GCN-HSA-NEXT: v_and_b32_e32 v8, s4, v2		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v6, s4, v1		; GCN-HSA-NEXT: v_and_b32_e32 v6, 0xffff, v1
; GCN-HSA-NEXT: v_and_b32_e32 v4, s4, v0		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GCN-HSA-NEXT: flat_store_dwordx4 v[14:15], v[8:11]		; GCN-HSA-NEXT: flat_store_dwordx4 v[14:15], v[8:11]
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[4:7]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v8i16_to_v8i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v8i16_to_v8i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v3		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v3
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s2, v3		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s2, v2		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, s2, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s2, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v8i16_to_v8i32:		; EG-LABEL: global_zextload_v8i16_to_v8i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
; EG-NEXT: TEX 0 @6		; EG-NEXT: TEX 0 @6
▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v1		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v0
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v2
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v5		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v5
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v4		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v4
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s6, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, 0xffff, v1
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s6, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, s6, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, 0xffff, v3
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s6, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v7		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v7
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v6		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v6
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s6, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, 0xffff, v5
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s6, v4		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, 0xffff, v4
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s6, v7		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v7
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s6, v6		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v16i16_to_v16i32:		; GCN-HSA-LABEL: global_zextload_v16i16_to_v16i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s4, 0xffff
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: s_add_u32 s2, s2, 16		; GCN-HSA-NEXT: s_add_u32 s2, s2, 16
; GCN-HSA-NEXT: s_addc_u32 s3, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s3, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2
; GCN-HSA-NEXT: flat_load_dwordx4 v[4:7], v[4:5]		; GCN-HSA-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 16		; GCN-HSA-NEXT: s_add_u32 s2, s0, 16
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 48		; GCN-HSA-NEXT: s_add_u32 s2, s0, 48
; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0
; GCN-HSA-NEXT: s_add_u32 s0, s0, 32		; GCN-HSA-NEXT: s_add_u32 s0, s0, 32
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v19, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v19, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v18, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v18, s2
; GCN-HSA-NEXT: s_waitcnt vmcnt(1)		; GCN-HSA-NEXT: s_waitcnt vmcnt(1)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v10, s4, v3		; GCN-HSA-NEXT: v_and_b32_e32 v10, 0xffff, v3
; GCN-HSA-NEXT: v_and_b32_e32 v8, s4, v2		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v2
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[8:11]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[8:11]
; GCN-HSA-NEXT: s_waitcnt vmcnt(1)		; GCN-HSA-NEXT: s_waitcnt vmcnt(1)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v6		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v6
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v5		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v5
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v4		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v4
; GCN-HSA-NEXT: v_and_b32_e32 v10, s4, v5		; GCN-HSA-NEXT: v_and_b32_e32 v10, 0xffff, v5
; GCN-HSA-NEXT: v_and_b32_e32 v8, s4, v4		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v4
; GCN-HSA-NEXT: v_and_b32_e32 v12, s4, v6		; GCN-HSA-NEXT: v_and_b32_e32 v12, 0xffff, v6
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v4, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v4, 16, v1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v3, s4, v1		; GCN-HSA-NEXT: v_and_b32_e32 v3, 0xffff, v1
; GCN-HSA-NEXT: v_and_b32_e32 v1, s4, v0		; GCN-HSA-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GCN-HSA-NEXT: v_mov_b32_e32 v6, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v6, s1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v15, 16, v7		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v15, 16, v7
; GCN-HSA-NEXT: v_and_b32_e32 v14, s4, v7		; GCN-HSA-NEXT: v_and_b32_e32 v14, 0xffff, v7
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s0
; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[1:4]		; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[1:4]
; GCN-HSA-NEXT: flat_store_dwordx4 v[18:19], v[12:15]		; GCN-HSA-NEXT: flat_store_dwordx4 v[18:19], v[12:15]
; GCN-HSA-NEXT: flat_store_dwordx4 v[5:6], v[8:11]		; GCN-HSA-NEXT: flat_store_dwordx4 v[5:6], v[8:11]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v16i16_to_v16i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v16i16_to_v16i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, 0xffff
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v1
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v7		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v7
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, s6, v7		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, 0xffff, v7
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v6		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s6, v6		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, 0xffff, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s6, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s6, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v0
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v3		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v3
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, s6, v3		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v2
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s6, v2		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v5		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v5
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s6, v5		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v4
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s6, v4		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v16i16_to_v16i32:		; EG-LABEL: global_zextload_v16i16_to_v16i32:
; EG: ; %bb.0:		; EG: ; %bb.0:
▲ Show 20 Lines • Show All 352 Lines • ▼ Show 20 Lines
}		}

define amdgpu_kernel void @global_zextload_v32i16_to_v32i32(<32 x i32> addrspace(1)* %out, <32 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @global_zextload_v32i16_to_v32i32(<32 x i32> addrspace(1)* %out, <32 x i16> addrspace(1)* %in) #0 {
; GCN-NOHSA-SI-LABEL: global_zextload_v32i16_to_v32i32:		; GCN-NOHSA-SI-LABEL: global_zextload_v32i16_to_v32i32:
; GCN-NOHSA-SI: ; %bb.0:		; GCN-NOHSA-SI: ; %bb.0:
; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:48
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v2
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v1		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v0
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(2)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(2)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v7		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v7
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v6		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v6
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, 0xffff, v3
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s0, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, 0xffff, v2
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, s0, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, 0xffff, v1
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, s0, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v5		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v5
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v4
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v7		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, 0xffff, v7
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, s0, v6		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, 0xffff, v6
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v4		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v11		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v11
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v10		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v10
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v31, 16, v9		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v31, 16, v9
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v29, 16, v8		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v29, 16, v8
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v11		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, 0xffff, v11
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v10		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v10
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v30, s0, v9		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v30, 0xffff, v9
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v28, s0, v8		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v28, 0xffff, v8
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v15		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v15
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v14		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v14
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v35, 16, v13		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v35, 16, v13
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v33, 16, v12		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v33, 16, v12
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s0, v15		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, 0xffff, v15
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v14		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v14
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, s0, v13		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, 0xffff, v13
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v32, s0, v12		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v32, 0xffff, v12
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:96		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:96
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:112		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:112
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:64		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:64
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:48
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v32i16_to_v32i32:		; GCN-HSA-LABEL: global_zextload_v32i16_to_v32i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s14, 0xffff
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: s_add_u32 s4, s2, 16		; GCN-HSA-NEXT: s_add_u32 s4, s2, 16
; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: s_add_u32 s4, s2, 32		; GCN-HSA-NEXT: s_add_u32 s4, s2, 32
; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0
Show All 22 Lines
; GCN-HSA-NEXT: s_addc_u32 s13, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s13, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v20, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v20, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v23, s7		; GCN-HSA-NEXT: v_mov_b32_e32 v23, s7
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s6		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s6
; GCN-HSA-NEXT: s_waitcnt vmcnt(3)		; GCN-HSA-NEXT: s_waitcnt vmcnt(3)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v18, s14, v1		; GCN-HSA-NEXT: v_and_b32_e32 v18, 0xffff, v1
; GCN-HSA-NEXT: v_and_b32_e32 v16, s14, v0		; GCN-HSA-NEXT: v_and_b32_e32 v16, 0xffff, v0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s12		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s12
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s13		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s13
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[16:19]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[16:19]
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s8		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s8
; GCN-HSA-NEXT: s_waitcnt vmcnt(3)		; GCN-HSA-NEXT: s_waitcnt vmcnt(3)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v5		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v5
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v4		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v4
; GCN-HSA-NEXT: v_and_b32_e32 v18, s14, v5		; GCN-HSA-NEXT: v_and_b32_e32 v18, 0xffff, v5
; GCN-HSA-NEXT: v_and_b32_e32 v16, s14, v4		; GCN-HSA-NEXT: v_and_b32_e32 v16, 0xffff, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s9		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s9
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s10		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s10
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[16:19]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[16:19]
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v7		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v7
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v6		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v6
; GCN-HSA-NEXT: v_and_b32_e32 v18, s14, v7		; GCN-HSA-NEXT: v_and_b32_e32 v18, 0xffff, v7
; GCN-HSA-NEXT: v_and_b32_e32 v16, s14, v6		; GCN-HSA-NEXT: v_and_b32_e32 v16, 0xffff, v6
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s11		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s11
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s1
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[16:19]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[16:19]
; GCN-HSA-NEXT: s_waitcnt vmcnt(4)		; GCN-HSA-NEXT: s_waitcnt vmcnt(4)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v9		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v9
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v8		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v8
; GCN-HSA-NEXT: v_and_b32_e32 v6, s14, v9		; GCN-HSA-NEXT: v_and_b32_e32 v6, 0xffff, v9
; GCN-HSA-NEXT: v_and_b32_e32 v4, s14, v8		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v8
; GCN-HSA-NEXT: s_add_u32 s0, s0, 48		; GCN-HSA-NEXT: s_add_u32 s0, s0, 48
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[4:7]
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v11		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v11
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v10		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v17, 16, v10
; GCN-HSA-NEXT: v_and_b32_e32 v18, s14, v11		; GCN-HSA-NEXT: v_and_b32_e32 v18, 0xffff, v11
; GCN-HSA-NEXT: v_and_b32_e32 v16, s14, v10		; GCN-HSA-NEXT: v_and_b32_e32 v16, 0xffff, v10
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5
; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[16:19]		; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[16:19]
; GCN-HSA-NEXT: s_waitcnt vmcnt(5)		; GCN-HSA-NEXT: s_waitcnt vmcnt(5)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v15		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v15
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v18, 16, v13		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v18, 16, v13
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v16, 16, v12		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v16, 16, v12
; GCN-HSA-NEXT: v_and_b32_e32 v9, s14, v15		; GCN-HSA-NEXT: v_and_b32_e32 v9, 0xffff, v15
; GCN-HSA-NEXT: v_and_b32_e32 v17, s14, v13		; GCN-HSA-NEXT: v_and_b32_e32 v17, 0xffff, v13
; GCN-HSA-NEXT: v_and_b32_e32 v15, s14, v12		; GCN-HSA-NEXT: v_and_b32_e32 v15, 0xffff, v12
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v6, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v6, 16, v3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v4, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v4, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v5, s14, v3		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v3
; GCN-HSA-NEXT: v_and_b32_e32 v3, s14, v2		; GCN-HSA-NEXT: v_and_b32_e32 v3, 0xffff, v2
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v8, 16, v14		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v8, 16, v14
; GCN-HSA-NEXT: v_and_b32_e32 v7, s14, v14		; GCN-HSA-NEXT: v_and_b32_e32 v7, 0xffff, v14
; GCN-HSA-NEXT: v_mov_b32_e32 v11, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v11, s0
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[15:18]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[15:18]
; GCN-HSA-NEXT: flat_store_dwordx4 v[22:23], v[7:10]		; GCN-HSA-NEXT: flat_store_dwordx4 v[22:23], v[7:10]
; GCN-HSA-NEXT: flat_store_dwordx4 v[11:12], v[3:6]		; GCN-HSA-NEXT: flat_store_dwordx4 v[11:12], v[3:6]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v32i16_to_v32i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v32i16_to_v32i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0 offset:48
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, 0xffff		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v3		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v3
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, s0, v3		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v2
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s0, v2		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v15
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, 0xffff, v15
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v14
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, 0xffff, v14
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, 0xffff, v13
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, 0xffff, v12
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v1
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s0, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s0, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(2)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v7		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v7
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, s0, v7		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, 0xffff, v7
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v6		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, s0, v6		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, 0xffff, v6
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, s0, v5		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, 0xffff, v5
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s0, v4		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v11		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v11
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, s0, v11		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, 0xffff, v11
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v10		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v10
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, s0, v10		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, 0xffff, v10
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s0, v9		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, 0xffff, v9
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s0, v8		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v15
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, s0, v15
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v14
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, s0, v14
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, s0, v13
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s0, v12
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:96		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:112		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:64		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:80		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:16
▲ Show 20 Lines • Show All 646 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[12:15], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[16:19], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v15		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v15
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v14		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v14
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v13		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v13
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v4, 16, v12		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v4, 16, v12
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v19		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v19
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v18		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v18
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v15		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v15
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v14		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v14
; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v0, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v1, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v2, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v5, s0, v13		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v5, 0xffff, v13
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v3, s0, v12		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v3, 0xffff, v12
; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:20 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v3, off, s[12:15], 0 offset:20 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v4, off, s[12:15], 0 offset:24 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v4, off, s[12:15], 0 offset:24 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v5, off, s[12:15], 0 offset:28 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v5, off, s[12:15], 0 offset:28 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:32 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:32 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v17		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v15, 16, v17
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v16		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v13, 16, v16
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v19		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v19
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v18		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, 0xffff, v18
; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:36 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v6, off, s[12:15], 0 offset:36 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v7, off, s[12:15], 0 offset:40 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v7, off, s[12:15], 0 offset:40 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v8, off, s[12:15], 0 offset:44 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v8, off, s[12:15], 0 offset:44 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v9, off, s[12:15], 0 offset:48 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v9, off, s[12:15], 0 offset:48 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[24:27], off, s[8:11], 0 offset:32
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, s0, v17		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v14, 0xffff, v17
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s0, v16		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, 0xffff, v16
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[28:31], off, s[8:11], 0 offset:48
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v27		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v19, 16, v27
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v26		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v17, 16, v26
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v25		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v25
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v24		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v24
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v27		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, 0xffff, v27
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s0, v26		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, 0xffff, v26
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, s0, v25		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, 0xffff, v25
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, s0, v24		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v20, 0xffff, v24
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v31		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v27, 16, v31
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v30		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v30
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v34, 16, v29		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v34, 16, v29
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v32, 16, v28		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v32, 16, v28
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v31		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, 0xffff, v31
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, s0, v30		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v24, 0xffff, v30
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[35:38], off, s[8:11], 0 offset:64		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[35:38], off, s[8:11], 0 offset:64
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v33, s0, v29		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v33, 0xffff, v29
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v31, s0, v28		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v31, 0xffff, v28
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:80		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:80
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v46, 16, v38		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v46, 16, v38
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v44, 16, v37		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v44, 16, v37
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v50, 16, v36		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v50, 16, v36
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v48, 16, v35		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v48, 16, v35
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v45, s0, v38		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v45, 0xffff, v38
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v43, s0, v37		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v43, 0xffff, v37
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v49, s0, v36		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v49, 0xffff, v36
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v47, s0, v35		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v47, 0xffff, v35
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v38, 16, v42		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v38, 16, v42
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v36, 16, v41		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v36, 16, v41
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v54, 16, v40		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v54, 16, v40
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v52, 16, v39		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v52, 16, v39
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v37, s0, v42		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v37, 0xffff, v42
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v35, s0, v41		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v35, 0xffff, v41
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[55:58], off, s[8:11], 0 offset:96		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[55:58], off, s[8:11], 0 offset:96
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v53, s0, v40		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v53, 0xffff, v40
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v51, s0, v39		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v51, 0xffff, v39
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:112		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[39:42], off, s[8:11], 0 offset:112
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v61, 16, v58		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v61, 16, v58
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v59, 16, v57		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v59, 16, v57
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v56		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v11, 16, v56
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v55		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v9, 16, v55
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v60, s0, v58		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v60, 0xffff, v58
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, s0, v57		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, 0xffff, v57
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, s0, v56		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v10, 0xffff, v56
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v55		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v55
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v42		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v7, 16, v42
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v41		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v5, 16, v41
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v40		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v3, 16, v40
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v39		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v1, 16, v39
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, s0, v42		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v6, 0xffff, v42
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v41		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v41
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, s0, v40		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v2, 0xffff, v40
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v39		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v39
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:240		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:240
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:192		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:192
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[58:61], off, s[0:3], 0 offset:208		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[58:61], off, s[0:3], 0 offset:208
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[51:54], off, s[0:3], 0 offset:160		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[51:54], off, s[0:3], 0 offset:160
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[35:38], off, s[0:3], 0 offset:176		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[35:38], off, s[0:3], 0 offset:176
Show All 24 Lines
; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Reload		; GCN-NOHSA-SI-NEXT: buffer_load_dword v3, off, s[12:15], 0 offset:16 ; 4-byte Folded Reload
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v64i16_to_v64i32:		; GCN-HSA-LABEL: global_zextload_v64i16_to_v64i32:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s12, 0xffff
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: s_add_u32 s4, s2, 0x50		; GCN-HSA-NEXT: s_add_u32 s4, s2, 0x50
; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s4
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s5
Show All 27 Lines
; GCN-HSA-NEXT: flat_load_dwordx4 v[28:31], v[28:29]		; GCN-HSA-NEXT: flat_load_dwordx4 v[28:31], v[28:29]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 16		; GCN-HSA-NEXT: s_add_u32 s2, s0, 16
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v37, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v37, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v36, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v36, s0
; GCN-HSA-NEXT: s_waitcnt vmcnt(6)		; GCN-HSA-NEXT: s_waitcnt vmcnt(6)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v27, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v27, 16, v1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v25, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v25, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v26, s12, v1		; GCN-HSA-NEXT: v_and_b32_e32 v26, 0xffff, v1
; GCN-HSA-NEXT: v_and_b32_e32 v24, s12, v0		; GCN-HSA-NEXT: v_and_b32_e32 v24, 0xffff, v0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s6		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s6
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s7		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s7
; GCN-HSA-NEXT: flat_load_dwordx4 v[32:35], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[32:35], v[0:1]
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xe0		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xe0
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: s_add_u32 s4, s0, 0xf0		; GCN-HSA-NEXT: s_add_u32 s4, s0, 0xf0
; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0
; GCN-HSA-NEXT: s_add_u32 s6, s0, 0xc0		; GCN-HSA-NEXT: s_add_u32 s6, s0, 0xc0
; GCN-HSA-NEXT: s_addc_u32 s7, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s7, s1, 0
; GCN-HSA-NEXT: s_add_u32 s8, s0, 0xd0		; GCN-HSA-NEXT: s_add_u32 s8, s0, 0xd0
; GCN-HSA-NEXT: s_addc_u32 s9, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s9, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[36:37], v[24:27]		; GCN-HSA-NEXT: flat_store_dwordx4 v[36:37], v[24:27]
; GCN-HSA-NEXT: s_add_u32 s10, s0, 0xa0		; GCN-HSA-NEXT: s_add_u32 s10, s0, 0xa0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v27, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v27, 16, v3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v25, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v25, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v26, s12, v3		; GCN-HSA-NEXT: v_and_b32_e32 v26, 0xffff, v3
; GCN-HSA-NEXT: v_and_b32_e32 v24, s12, v2		; GCN-HSA-NEXT: v_and_b32_e32 v24, 0xffff, v2
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[24:27]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[24:27]
; GCN-HSA-NEXT: s_addc_u32 s11, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s11, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v25, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v25, s3
; GCN-HSA-NEXT: s_waitcnt vmcnt(8)		; GCN-HSA-NEXT: s_waitcnt vmcnt(8)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v5		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v5
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v4		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v4
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v5		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v5
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v4		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s10		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s10
; GCN-HSA-NEXT: v_mov_b32_e32 v24, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v24, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xb0		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xb0
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s11		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s11
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v7		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v7
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v6		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v6
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v7		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v7
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v6		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s6		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s6
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x80		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x80
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s7		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s7
; GCN-HSA-NEXT: s_waitcnt vmcnt(9)		; GCN-HSA-NEXT: s_waitcnt vmcnt(9)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v9		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v9
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v8		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v8
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v9		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v9
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v8		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v8
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s8		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s8
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v11		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v11
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v10		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v10
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v11		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v11
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v10		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v10
; GCN-HSA-NEXT: v_mov_b32_e32 v11, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v11, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s9		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s9
; GCN-HSA-NEXT: v_mov_b32_e32 v10, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v10, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x90		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x90
; GCN-HSA-NEXT: v_mov_b32_e32 v9, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v9, s5
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: s_waitcnt vmcnt(10)		; GCN-HSA-NEXT: s_waitcnt vmcnt(10)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v14		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v14
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v13		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v13
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v12		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v12
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v13		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v13
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v12		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v12
; GCN-HSA-NEXT: v_and_b32_e32 v4, s12, v14		; GCN-HSA-NEXT: v_and_b32_e32 v6, 0xffff, v15
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v8, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v8, s4
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v15		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v15
; GCN-HSA-NEXT: v_and_b32_e32 v6, s12, v15		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v14
; GCN-HSA-NEXT: flat_store_dwordx4 v[24:25], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[24:25], v[0:3]
; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]
; GCN-HSA-NEXT: s_waitcnt vmcnt(11)		; GCN-HSA-NEXT: s_waitcnt vmcnt(11)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v17		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v17
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v6, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v16		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v16
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v17		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v17
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v16		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v16
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x60		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x60
		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v4, 16, v19
; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[0:3]
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v19		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v18
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v18		; GCN-HSA-NEXT: v_and_b32_e32 v3, 0xffff, v19
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v19		; GCN-HSA-NEXT: v_and_b32_e32 v1, 0xffff, v18
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v18		; GCN-HSA-NEXT: flat_store_dwordx4 v[5:6], v[1:4]
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x70		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x70
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v9, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v9, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v8, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v8, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 64		; GCN-HSA-NEXT: s_add_u32 s2, s0, 64
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v17, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v17, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v16, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v16, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x50		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x50
; GCN-HSA-NEXT: s_waitcnt vmcnt(10)		; GCN-HSA-NEXT: s_waitcnt vmcnt(10)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v15, 16, v33		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v15, 16, v33
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v32		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v32
; GCN-HSA-NEXT: v_and_b32_e32 v14, s12, v33		; GCN-HSA-NEXT: v_and_b32_e32 v14, 0xffff, v33
; GCN-HSA-NEXT: v_and_b32_e32 v12, s12, v32		; GCN-HSA-NEXT: v_and_b32_e32 v12, 0xffff, v32
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v21		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v21
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v20		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v20
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v21		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v21
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v20		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v20
; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[12:15]		; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[12:15]
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v23		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v23
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v22		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v22
; GCN-HSA-NEXT: v_and_b32_e32 v6, s12, v23		; GCN-HSA-NEXT: v_and_b32_e32 v6, 0xffff, v23
; GCN-HSA-NEXT: v_and_b32_e32 v4, s12, v22		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v22
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 32		; GCN-HSA-NEXT: s_add_u32 s2, s0, 32
; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v35		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v35
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v34		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v34
; GCN-HSA-NEXT: v_and_b32_e32 v10, s12, v35		; GCN-HSA-NEXT: v_and_b32_e32 v10, 0xffff, v35
; GCN-HSA-NEXT: v_and_b32_e32 v8, s12, v34		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v34
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[8:11]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[8:11]
; GCN-HSA-NEXT: s_add_u32 s0, s0, 48		; GCN-HSA-NEXT: s_add_u32 s0, s0, 48
; GCN-HSA-NEXT: v_mov_b32_e32 v9, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v9, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v29		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v29
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v28		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v28
; GCN-HSA-NEXT: v_and_b32_e32 v6, s12, v29		; GCN-HSA-NEXT: v_and_b32_e32 v6, 0xffff, v29
; GCN-HSA-NEXT: v_and_b32_e32 v4, s12, v28		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v28
; GCN-HSA-NEXT: v_mov_b32_e32 v8, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v8, s2
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[8:9], v[4:7]
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v31		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v3, 16, v31
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v30		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v1, 16, v30
; GCN-HSA-NEXT: v_and_b32_e32 v2, s12, v31		; GCN-HSA-NEXT: v_and_b32_e32 v2, 0xffff, v31
; GCN-HSA-NEXT: v_and_b32_e32 v0, s12, v30		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v30
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v64i16_to_v64i32:		; GCN-NOHSA-VI-LABEL: global_zextload_v64i16_to_v64i32:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s7
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[4:7], 0 offset:112		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[8:11], off, s[4:7], 0 offset:112
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[4:7], 0 offset:96		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[12:15], off, s[4:7], 0 offset:96
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[4:7], 0 offset:80		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[16:19], off, s[4:7], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[4:7], 0 offset:64		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[20:23], off, s[4:7], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[4:7], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[24:27], off, s[4:7], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[4:7], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[28:31], off, s[4:7], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[32:35], off, s[4:7], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[32:35], off, s[4:7], 0 offset:48
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, 0xffff
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(7)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(7)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v63, 16, v11		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v63, 16, v11
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v62, s4, v11		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v62, 0xffff, v11
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v61, 16, v10		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v61, 16, v10
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v60, s4, v10		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v60, 0xffff, v10
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v9
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, s4, v9		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v10, 0xffff, v9
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v9, 16, v8
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s4, v8		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v8
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v7		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v3, 16, v7
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, s4, v7		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v2, 0xffff, v7
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v6		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v1, 16, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s4, v6		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v6
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v7, 16, v5
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, s4, v5		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v6, 0xffff, v5
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v4
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s4, v4		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(2)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(2)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v39, 16, v27		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v39, 16, v27
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v38, s4, v27		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v38, 0xffff, v27
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v37, 16, v26		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v37, 16, v26
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, s4, v26		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, 0xffff, v26
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v25		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v25
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, s4, v25		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v26, 0xffff, v25
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v24		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v25, 16, v24
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, s4, v24		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, 0xffff, v24
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v43, 16, v31		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v43, 16, v31
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, s4, v31		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, 0xffff, v31
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v30		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v30
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v40, s4, v30		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v40, 0xffff, v30
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v29		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v31, 16, v29
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, s4, v29		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v30, 0xffff, v29
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v28		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v28
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, s4, v28		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, 0xffff, v28
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v35		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v35
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v46, s4, v35		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v46, 0xffff, v35
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v45, 16, v34		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v45, 16, v34
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v44, s4, v34		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v44, 0xffff, v34
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v35, 16, v33		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v35, 16, v33
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v34, s4, v33		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v34, 0xffff, v33
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v33, 16, v32		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v33, 16, v32
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, s4, v32		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, 0xffff, v32
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v51, 16, v23		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v51, 16, v23
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v50, s4, v23		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v50, 0xffff, v23
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v49, 16, v22		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v49, 16, v22
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, s4, v22		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, 0xffff, v22
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v21		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v21
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, s4, v21		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v22, 0xffff, v21
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v20		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v21, 16, v20
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, s4, v20		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, 0xffff, v20
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v55, 16, v19		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v55, 16, v19
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, s4, v19		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, 0xffff, v19
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v18		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v18
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v52, s4, v18		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v52, 0xffff, v18
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v17		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v17
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, s4, v17		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v18, 0xffff, v17
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v16		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v17, 16, v16
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s4, v16		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, 0xffff, v16
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v59, 16, v15		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v59, 16, v15
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v58, s4, v15		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v58, 0xffff, v15
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v57, 16, v14		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v57, 16, v14
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v56, s4, v14		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v56, 0xffff, v14
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v13
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, s4, v13		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v14, 0xffff, v13
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v13, 16, v12
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s4, v12		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, 0xffff, v12
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:224		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:224
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:240		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[60:63], off, s[0:3], 0 offset:240
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:208		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[56:59], off, s[0:3], 0 offset:208
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:160		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:160
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:176		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[52:55], off, s[0:3], 0 offset:176
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:128		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:128
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:144		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:144
▲ Show 20 Lines • Show All 1,833 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[8:9], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx2 v[8:9], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v7, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v7, v1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v9		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v9
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v8		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v8
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s2, v8		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v8
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s2, v9		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v9
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v4i16_to_v4i64:		; GCN-HSA-LABEL: global_zextload_v4i16_to_v4i64:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s4, 0xffff
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx2 v[8:9], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx2 v[8:9], v[0:1]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 16		; GCN-HSA-NEXT: s_add_u32 s2, s0, 16
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v1, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v3, v1		; GCN-HSA-NEXT: v_mov_b32_e32 v3, v1
; GCN-HSA-NEXT: v_mov_b32_e32 v11, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v11, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v5, v1		; GCN-HSA-NEXT: v_mov_b32_e32 v5, v1
; GCN-HSA-NEXT: v_mov_b32_e32 v7, v1		; GCN-HSA-NEXT: v_mov_b32_e32 v7, v1
; GCN-HSA-NEXT: v_mov_b32_e32 v10, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v10, s0
; GCN-HSA-NEXT: s_waitcnt vmcnt(0)		; GCN-HSA-NEXT: s_waitcnt vmcnt(0)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v9		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v9
; GCN-HSA-NEXT: v_and_b32_e32 v0, s4, v9		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v9
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v6, 16, v8		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v6, 16, v8
; GCN-HSA-NEXT: v_and_b32_e32 v4, s4, v8		; GCN-HSA-NEXT: v_and_b32_e32 v4, 0xffff, v8
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[0:3]
; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[4:7]		; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[4:7]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v4i16_to_v4i64:		; GCN-NOHSA-VI-LABEL: global_zextload_v4i16_to_v4i64:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[8:9], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx2 v[8:9], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, 0xffff
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0		; GCN-NOHSA-VI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v5		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v5
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s2, v9		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v9
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v9		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v9
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s2, v8		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v8
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v8		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v8
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v4i16_to_v4i64:		; EG-LABEL: global_zextload_v4i16_to_v4i64:
; EG: ; %bb.0:		; EG: ; %bb.0:
; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]		; EG-NEXT: ALU 0, @8, KC0[CB0:0-32], KC1[]
▲ Show 20 Lines • Show All 224 Lines • ▼ Show 20 Lines	; CM-NEXT: 2(2.802597e-45), 31(4.344025e-44)
%ext = sext <4 x i16> %load to <4 x i64>		%ext = sext <4 x i16> %load to <4 x i64>
store <4 x i64> %ext, <4 x i64> addrspace(1)* %out		store <4 x i64> %ext, <4 x i64> addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @global_zextload_v8i16_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @global_zextload_v8i16_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i16> addrspace(1)* %in) #0 {
; GCN-NOHSA-SI-LABEL: global_zextload_v8i16_to_v8i64:		; GCN-NOHSA-SI-LABEL: global_zextload_v8i16_to_v8i64:
; GCN-NOHSA-SI: ; %bb.0:		; GCN-NOHSA-SI: ; %bb.0:
; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s7, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s6, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s12, 0xffff		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s7
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s3
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v7, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v7, 0
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, 0
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v15, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v15, 0
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v9		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v9
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v17, v9		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v17, v9
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v19, v9		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v19, v9
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v13, v9		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v13, v9
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v9		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-SI-NEXT: s_mov_b32 s4, s0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-SI-NEXT: s_mov_b32 s5, s1
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v18, 16, v1		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v18, 16, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v14, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v14, 16, v2
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s12, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s12, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s12, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, 0xffff, v1
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s12, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v3
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[8:11], off, s[4:7], 0 offset:48
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[4:7], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[4:7], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[4:7], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v8i16_to_v8i64:		; GCN-HSA-LABEL: global_zextload_v8i16_to_v8i64:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s4, 0xffff
; GCN-HSA-NEXT: v_mov_b32_e32 v12, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v12, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v14, v12		; GCN-HSA-NEXT: v_mov_b32_e32 v14, v12
; GCN-HSA-NEXT: v_mov_b32_e32 v15, v12		; GCN-HSA-NEXT: v_mov_b32_e32 v15, v12
		; GCN-HSA-NEXT: v_mov_b32_e32 v8, v12
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 48		; GCN-HSA-NEXT: s_add_u32 s2, s0, 48
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 16		; GCN-HSA-NEXT: s_add_u32 s2, s0, 16
; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0
; GCN-HSA-NEXT: v_mov_b32_e32 v19, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v19, s3
; GCN-HSA-NEXT: s_add_u32 s0, s0, 32		; GCN-HSA-NEXT: s_add_u32 s0, s0, 32
; GCN-HSA-NEXT: v_mov_b32_e32 v8, v12
; GCN-HSA-NEXT: v_mov_b32_e32 v18, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v18, s2
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v6, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v6, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v10, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v10, 0
; GCN-HSA-NEXT: s_waitcnt vmcnt(0)		; GCN-HSA-NEXT: s_waitcnt vmcnt(0)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v13, 16, v3
; GCN-HSA-NEXT: v_and_b32_e32 v11, s4, v3		; GCN-HSA-NEXT: v_and_b32_e32 v11, 0xffff, v3
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[11:14]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[11:14]
; GCN-HSA-NEXT: v_mov_b32_e32 v4, v12		; GCN-HSA-NEXT: v_mov_b32_e32 v4, v12
; GCN-HSA-NEXT: v_mov_b32_e32 v13, v12		; GCN-HSA-NEXT: v_mov_b32_e32 v13, v12
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v1
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v3, s4, v0		; GCN-HSA-NEXT: v_and_b32_e32 v3, 0xffff, v0
; GCN-HSA-NEXT: v_and_b32_e32 v12, s4, v1		; GCN-HSA-NEXT: v_and_b32_e32 v12, 0xffff, v1
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v7, s4, v2		; GCN-HSA-NEXT: v_and_b32_e32 v7, 0xffff, v2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s1
; GCN-HSA-NEXT: flat_store_dwordx4 v[18:19], v[12:15]		; GCN-HSA-NEXT: flat_store_dwordx4 v[18:19], v[12:15]
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[7:10]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[7:10]
; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[3:6]		; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[3:6]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v8i16_to_v8i64:		; GCN-NOHSA-VI-LABEL: global_zextload_v8i16_to_v8i64:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s6, 0xffff
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v19, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v19, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v17, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v17, 0
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v11, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v11, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v15, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v15, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v13, v17		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v13, v17
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v9, v17		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v9, v17
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, v17		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, v17
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s6, v3		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v18, 16, v3		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v18, 16, v3
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s6, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v0
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v0		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s6, v1		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v10, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v10, 16, v1
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s6, v2		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v14, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v14, 16, v2
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: s_endpgm		; GCN-NOHSA-VI-NEXT: s_endpgm
;		;
; EG-LABEL: global_zextload_v8i16_to_v8i64:		; EG-LABEL: global_zextload_v8i16_to_v8i64:
▲ Show 20 Lines • Show All 333 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v1		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v14, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v14, 16, v2
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v18, 16, v0		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v18, 16, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, s0, v0		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v16, 0xffff, v0
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, s0, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v1		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v1
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v3
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v3
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v20, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v20, 0
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v5		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v5
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v6		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v25, 16, v6
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v23, s0, v6		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v23, 0xffff, v6
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v4		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v6, 16, v4
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v4		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v28, 16, v7		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v28, 16, v7
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v7		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, 0xffff, v7
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v19, s0, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v19, 0xffff, v5
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v22, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v22, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v27, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v27, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v29, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v29, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v20
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v20		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v5, v20
Show All 16 Lines
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:96		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:96
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v16i16_to_v16i64:		; GCN-HSA-LABEL: global_zextload_v16i16_to_v16i64:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s6, 0xffff
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v10, v8		; GCN-HSA-NEXT: v_mov_b32_e32 v10, v8
; GCN-HSA-NEXT: v_mov_b32_e32 v12, v8		; GCN-HSA-NEXT: v_mov_b32_e32 v12, v8
		; GCN-HSA-NEXT: v_mov_b32_e32 v15, 0
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: s_add_u32 s2, s2, 16		; GCN-HSA-NEXT: s_add_u32 s2, s2, 16
; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]		; GCN-HSA-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
; GCN-HSA-NEXT: s_addc_u32 s3, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s3, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s2
; GCN-HSA-NEXT: flat_load_dwordx4 v[4:7], v[4:5]		; GCN-HSA-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 48		; GCN-HSA-NEXT: s_add_u32 s2, s0, 48
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: s_add_u32 s4, s0, 16		; GCN-HSA-NEXT: s_add_u32 s4, s0, 16
; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4
; GCN-HSA-NEXT: s_add_u32 s4, s0, 0x50		; GCN-HSA-NEXT: s_add_u32 s4, s0, 0x50
; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v15, 0
; GCN-HSA-NEXT: s_waitcnt vmcnt(1)		; GCN-HSA-NEXT: s_waitcnt vmcnt(1)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v1
; GCN-HSA-NEXT: v_and_b32_e32 v9, s6, v1		; GCN-HSA-NEXT: v_and_b32_e32 v9, 0xffff, v1
; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]		; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4
; GCN-HSA-NEXT: s_add_u32 s4, s0, 0x70		; GCN-HSA-NEXT: s_add_u32 s4, s0, 0x70
; GCN-HSA-NEXT: s_waitcnt vmcnt(1)		; GCN-HSA-NEXT: s_waitcnt vmcnt(1)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v5		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v5
; GCN-HSA-NEXT: v_and_b32_e32 v9, s6, v5		; GCN-HSA-NEXT: v_and_b32_e32 v9, 0xffff, v5
; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]		; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4
; GCN-HSA-NEXT: s_add_u32 s4, s0, 32		; GCN-HSA-NEXT: s_add_u32 s4, s0, 32
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v7		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v7
; GCN-HSA-NEXT: v_and_b32_e32 v9, s6, v7		; GCN-HSA-NEXT: v_and_b32_e32 v9, 0xffff, v7
; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]		; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s5
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v11, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v9, s6, v2		; GCN-HSA-NEXT: v_and_b32_e32 v9, 0xffff, v2
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v12, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v12, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s4
; GCN-HSA-NEXT: v_mov_b32_e32 v2, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v2, s3
; GCN-HSA-NEXT: s_add_u32 s2, s0, 64		; GCN-HSA-NEXT: s_add_u32 s2, s0, 64
; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]		; GCN-HSA-NEXT: flat_store_dwordx4 v[13:14], v[9:12]
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v4		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v4
; GCN-HSA-NEXT: v_and_b32_e32 v12, s6, v4		; GCN-HSA-NEXT: v_and_b32_e32 v12, 0xffff, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v5, s1
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v4, s0
; GCN-HSA-NEXT: s_add_u32 s0, s0, 0x60		; GCN-HSA-NEXT: s_add_u32 s0, s0, 0x60
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v9, 16, v3
; GCN-HSA-NEXT: v_and_b32_e32 v7, s6, v3		; GCN-HSA-NEXT: v_and_b32_e32 v7, 0xffff, v3
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[1:2], v[7:10]		; GCN-HSA-NEXT: flat_store_dwordx4 v[1:2], v[7:10]
; GCN-HSA-NEXT: v_mov_b32_e32 v13, v8		; GCN-HSA-NEXT: v_mov_b32_e32 v13, v8
; GCN-HSA-NEXT: v_mov_b32_e32 v9, v8		; GCN-HSA-NEXT: v_mov_b32_e32 v9, v8
; GCN-HSA-NEXT: v_mov_b32_e32 v1, v8		; GCN-HSA-NEXT: v_mov_b32_e32 v1, v8
; GCN-HSA-NEXT: v_mov_b32_e32 v3, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v3, 0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v6		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v6
; GCN-HSA-NEXT: v_and_b32_e32 v8, s6, v6		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v6
; GCN-HSA-NEXT: v_mov_b32_e32 v7, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v7, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v0, s6, v0		; GCN-HSA-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v17, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v11, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v11, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v6, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v6, s2
; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v16, s0
; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]		; GCN-HSA-NEXT: flat_store_dwordx4 v[4:5], v[0:3]
; GCN-HSA-NEXT: flat_store_dwordx4 v[6:7], v[12:15]		; GCN-HSA-NEXT: flat_store_dwordx4 v[6:7], v[12:15]
; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[8:11]		; GCN-HSA-NEXT: flat_store_dwordx4 v[16:17], v[8:11]
; GCN-HSA-NEXT: s_endpgm		; GCN-HSA-NEXT: s_endpgm
;		;
; GCN-NOHSA-VI-LABEL: global_zextload_v16i16_to_v16i64:		; GCN-NOHSA-VI-LABEL: global_zextload_v16i16_to_v16i64:
; GCN-NOHSA-VI: ; %bb.0:		; GCN-NOHSA-VI: ; %bb.0:
; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24		; GCN-NOHSA-VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-VI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-VI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-VI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v30, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v30, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v28, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v28, 0
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v25, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v25, v28
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v21, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v21, v28
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v17, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v17, v28
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v13, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v13, v28
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v9, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v9, v28
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v11, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v11, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v15, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v15, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v19, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v19, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v23, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v23, 0
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, s0, v0		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v10, 16, v0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, s0, v1
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s0, v2
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v16, s0, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v18, 16, v3
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, s0, v4		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v27, 0xffff, v7
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, s0, v5
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v3, s0, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v27, s0, v7
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v7		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v29, 16, v7
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v18, 16, v3
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v20, 0xffff, v4
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v22, 16, v4		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v22, 16, v4
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v24, 0xffff, v5
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v26, 16, v5		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v26, 16, v5
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v3, 0xffff, v6
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v6		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v5, 16, v6
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v4, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v4, v28
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[27:30], off, s[0:3], 0 offset:112		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[27:30], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v6, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v6, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v27, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v27, 0
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v8, 0xffff, v0
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v10, 16, v0
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v12, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v14, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v14, 16, v1
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v28		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v28
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[3:6], off, s[0:3], 0 offset:96		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[3:6], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: s_nop 0		; GCN-NOHSA-VI-NEXT: s_nop 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:80		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:64		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:48
▲ Show 20 Lines • Show All 583 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: s_mov_b32 s13, SCRATCH_RSRC_DWORD1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s13, SCRATCH_RSRC_DWORD1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s14, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s14, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s15, 0xe8f000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s15, 0xe8f000
; GCN-NOHSA-SI-NEXT: s_add_u32 s12, s12, s3		; GCN-NOHSA-SI-NEXT: s_add_u32 s12, s12, s3
; GCN-NOHSA-SI-NEXT: s_addc_u32 s13, s13, 0		; GCN-NOHSA-SI-NEXT: s_addc_u32 s13, s13, 0
; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NOHSA-SI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9
; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000		; GCN-NOHSA-SI-NEXT: s_mov_b32 s3, 0xf000
; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1		; GCN-NOHSA-SI-NEXT: s_mov_b32 s2, -1
; GCN-NOHSA-SI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, 0		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v1, 0
; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2		; GCN-NOHSA-SI-NEXT: s_mov_b32 s10, s2
; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-SI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-SI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-SI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[2:5], off, s[8:11], 0		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[2:5], off, s[8:11], 0
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[6:9], off, s[8:11], 0 offset:16		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[6:9], off, s[8:11], 0 offset:16
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[10:13], off, s[8:11], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[10:13], off, s[8:11], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[14:17], off, s[8:11], 0 offset:48		; GCN-NOHSA-SI-NEXT: buffer_load_dwordx4 v[14:17], off, s[8:11], 0 offset:48
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v3		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v23, 16, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v4		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v21, 16, v4
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v20, 16, v2		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v20, 16, v2
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v2		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, 0xffff, v2
; GCN-NOHSA-SI-NEXT: buffer_store_dword v18, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v18, off, s[12:15], 0 offset:4 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v19, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v19, off, s[12:15], 0 offset:8 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v20, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v20, off, s[12:15], 0 offset:12 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v21, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v21, off, s[12:15], 0 offset:16 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(2)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(2)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v19, s0, v4		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v19, 0xffff, v4
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v19, off, s[12:15], 0 offset:20 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v19, off, s[12:15], 0 offset:20 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-SI-NEXT: buffer_store_dword v20, off, s[12:15], 0 offset:24 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v20, off, s[12:15], 0 offset:24 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v21, off, s[12:15], 0 offset:28 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v21, off, s[12:15], 0 offset:28 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: buffer_store_dword v22, off, s[12:15], 0 offset:32 ; 4-byte Folded Spill		; GCN-NOHSA-SI-NEXT: buffer_store_dword v22, off, s[12:15], 0 offset:32 ; 4-byte Folded Spill
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, s0, v3		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v4, 0xffff, v3
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v32, 16, v5		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v32, 16, v5
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v30, s0, v5		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v30, 0xffff, v5
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v36, 16, v6		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v36, 16, v6
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, s0, v6		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v34, 0xffff, v6
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v28, 16, v8		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v28, 16, v8
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, s0, v8		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v26, 0xffff, v8
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v40, 16, v7		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v40, 16, v7
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v38, s0, v7		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v38, 0xffff, v7
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v44, 16, v9		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v44, 16, v9
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v42, s0, v9		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v42, 0xffff, v9
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v48, 16, v10		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v48, 16, v10
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v46, s0, v10		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v46, 0xffff, v10
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v24, 16, v12		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v24, 16, v12
; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)		; GCN-NOHSA-SI-NEXT: s_waitcnt expcnt(0)
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, s0, v12		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v22, 0xffff, v12
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v52, 16, v11		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v52, 16, v11
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v50, s0, v11		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v50, 0xffff, v11
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v56, 16, v13		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v56, 16, v13
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v54, s0, v13		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v54, 0xffff, v13
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v17		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v2, 16, v17
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v60, 16, v14		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v60, 16, v14
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, s0, v14		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v58, 0xffff, v14
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v20, 16, v16		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v20, 16, v16
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, s0, v16		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v18, 0xffff, v16
; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v15		; GCN-NOHSA-SI-NEXT: v_lshrrev_b32_e32 v10, 16, v15
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, s0, v15		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v8, 0xffff, v15
; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, s0, v17		; GCN-NOHSA-SI-NEXT: v_and_b32_e32 v0, 0xffff, v17
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v3, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v9, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v11, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v55, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v55, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v57, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v57, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v51, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v51, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v53, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v53, v1
; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v43, v1		; GCN-NOHSA-SI-NEXT: v_mov_b32_e32 v43, v1
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[34:37], off, s[0:3], 0 offset:64		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[34:37], off, s[0:3], 0 offset:64
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0		; GCN-NOHSA-SI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
; GCN-NOHSA-SI-NEXT: s_endpgm		; GCN-NOHSA-SI-NEXT: s_endpgm
;		;
; GCN-HSA-LABEL: global_zextload_v32i16_to_v32i64:		; GCN-HSA-LABEL: global_zextload_v32i16_to_v32i64:
; GCN-HSA: ; %bb.0:		; GCN-HSA: ; %bb.0:
; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0		; GCN-HSA-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
; GCN-HSA-NEXT: s_mov_b32 s18, 0xffff
; GCN-HSA-NEXT: v_mov_b32_e32 v4, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v4, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v6, v4		; GCN-HSA-NEXT: v_mov_b32_e32 v6, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v8, v4		; GCN-HSA-NEXT: v_mov_b32_e32 v8, v4
; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)		; GCN-HSA-NEXT: s_waitcnt lgkmcnt(0)
; GCN-HSA-NEXT: s_add_u32 s4, s2, 16		; GCN-HSA-NEXT: s_add_u32 s4, s2, 16
; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0		; GCN-HSA-NEXT: s_addc_u32 s5, s3, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5
Show All 26 Lines
; GCN-HSA-NEXT: s_add_u32 s16, s0, 0x70		; GCN-HSA-NEXT: s_add_u32 s16, s0, 0x70
; GCN-HSA-NEXT: s_addc_u32 s17, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s17, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s17		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s17
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x50		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x50
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s16		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s16
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: s_waitcnt vmcnt(3)		; GCN-HSA-NEXT: s_waitcnt vmcnt(3)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v3		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v3
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v3		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v3
; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s3
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v1		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v1
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v1		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v1
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s2
; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s13		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s13
; GCN-HSA-NEXT: s_waitcnt vmcnt(4)		; GCN-HSA-NEXT: s_waitcnt vmcnt(4)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v12		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v12
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v12		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v12
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s12		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s12
; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s15		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s15
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v10		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v10
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v10		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v10
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s14		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s14
; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v22, s7		; GCN-HSA-NEXT: v_mov_b32_e32 v22, s7
; GCN-HSA-NEXT: s_waitcnt vmcnt(5)		; GCN-HSA-NEXT: s_waitcnt vmcnt(5)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v14		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v14
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v14		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v14
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s6		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s6
; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[21:22], v[5:8]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 32		; GCN-HSA-NEXT: s_add_u32 s2, s0, 32
; GCN-HSA-NEXT: s_waitcnt vmcnt(5)		; GCN-HSA-NEXT: s_waitcnt vmcnt(5)
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v20		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v20
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v20		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v20
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s9		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s9
; GCN-HSA-NEXT: v_mov_b32_e32 v20, s8		; GCN-HSA-NEXT: v_mov_b32_e32 v20, s8
; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v21, s11		; GCN-HSA-NEXT: v_mov_b32_e32 v21, s11
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v18		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v18
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v18		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v18
; GCN-HSA-NEXT: v_mov_b32_e32 v20, s10		; GCN-HSA-NEXT: v_mov_b32_e32 v20, s10
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[20:21], v[5:8]
; GCN-HSA-NEXT: v_and_b32_e32 v3, s18, v16		; GCN-HSA-NEXT: v_and_b32_e32 v3, 0xffff, v16
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v15		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v15
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v15		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v15
; GCN-HSA-NEXT: v_mov_b32_e32 v15, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v15, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v14, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v14, s2
; GCN-HSA-NEXT: flat_store_dwordx4 v[14:15], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[14:15], v[5:8]
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xe0		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xe0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v13		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v13
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v13		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v13
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s1		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s1
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s0
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xc0		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xc0
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v19		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v19
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v19		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v19
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]
; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v13, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v12, s2
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xa0		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0xa0
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v17		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v17
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v17		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v17
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[12:13], v[5:8]
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v9		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v19, 16, v9
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v11		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v7, 16, v11
; GCN-HSA-NEXT: v_and_b32_e32 v5, s18, v11		; GCN-HSA-NEXT: v_and_b32_e32 v5, 0xffff, v11
; GCN-HSA-NEXT: v_mov_b32_e32 v11, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v11, s3
; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v8, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v10, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v10, s2
; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[5:8]		; GCN-HSA-NEXT: flat_store_dwordx4 v[10:11], v[5:8]
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v0		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v10, 16, v0
; GCN-HSA-NEXT: v_and_b32_e32 v8, s18, v0		; GCN-HSA-NEXT: v_and_b32_e32 v8, 0xffff, v0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s4
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v16		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v5, 16, v16
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s5
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x80		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x80
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[3:6]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[3:6]
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_and_b32_e32 v17, s18, v9		; GCN-HSA-NEXT: v_and_b32_e32 v17, 0xffff, v9
; GCN-HSA-NEXT: v_mov_b32_e32 v20, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v20, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v18, v4		; GCN-HSA-NEXT: v_mov_b32_e32 v18, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x60		; GCN-HSA-NEXT: s_add_u32 s2, s0, 0x60
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[17:20]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[17:20]
; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s3, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s2
; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v2		; GCN-HSA-NEXT: v_lshrrev_b32_e32 v14, 16, v2
; GCN-HSA-NEXT: v_and_b32_e32 v12, s18, v2		; GCN-HSA-NEXT: v_and_b32_e32 v12, 0xffff, v2
; GCN-HSA-NEXT: v_mov_b32_e32 v15, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v15, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v13, v4		; GCN-HSA-NEXT: v_mov_b32_e32 v13, v4
; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3		; GCN-HSA-NEXT: v_mov_b32_e32 v1, s3
; GCN-HSA-NEXT: s_add_u32 s0, s0, 64		; GCN-HSA-NEXT: s_add_u32 s0, s0, 64
; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[12:15]		; GCN-HSA-NEXT: flat_store_dwordx4 v[0:1], v[12:15]
; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0		; GCN-HSA-NEXT: s_addc_u32 s1, s1, 0
; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0		; GCN-HSA-NEXT: v_mov_b32_e32 v0, s0
; GCN-HSA-NEXT: v_mov_b32_e32 v11, 0		; GCN-HSA-NEXT: v_mov_b32_e32 v11, 0
Show All 11 Lines
; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3		; GCN-NOHSA-VI-NEXT: s_mov_b32 s11, s3
; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6		; GCN-NOHSA-VI-NEXT: s_mov_b32 s8, s6
; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7		; GCN-NOHSA-VI-NEXT: s_mov_b32 s9, s7
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[1:4], off, s[8:11], 0		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[1:4], off, s[8:11], 0
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[5:8], off, s[8:11], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[5:8], off, s[8:11], 0 offset:16
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[31:34], off, s[8:11], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[31:34], off, s[8:11], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[35:38], off, s[8:11], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_load_dwordx4 v[35:38], off, s[8:11], 0 offset:48
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, 0xffff
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v57, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v57, 0
		; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4
; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5		; GCN-NOHSA-VI-NEXT: s_mov_b32 s1, s5
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v12, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v12, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v16, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v24, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v24, 0
		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v16, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v20, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v20, 0
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(3)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, s0, v2		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v9, s0, v1		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(1)
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v45, 0xffff, v33
; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)		; GCN-NOHSA-VI-NEXT: s_waitcnt vmcnt(0)
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, s0, v36		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v48, 0xffff, v36
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v50, 16, v36		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v50, 16, v36
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, s0, v38		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v54, 0xffff, v38
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v56, 16, v38		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v56, 16, v38
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, s0, v37		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v36, 0xffff, v37
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v38, 16, v37		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v38, 16, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v37, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v37, 0
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v13, s0, v4
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v17, s0, v3
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, s0, v6
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v21, s0, v5
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v25, s0, v8
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, s0, v7
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v39, s0, v32
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v32
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, s0, v31
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, s0, v34
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v45, s0, v33
; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v51, s0, v35
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v55, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v55, v37
; GCN-NOHSA-VI-NEXT: s_mov_b32 s0, s4		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v51, 0xffff, v35
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v35		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v53, 16, v35
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[54:57], off, s[0:3], 0 offset:240		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[54:57], off, s[0:3], 0 offset:240
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v52, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v52, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v54, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v54, 0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[51:54], off, s[0:3], 0 offset:192		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[51:54], off, s[0:3], 0 offset:192
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v49, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v49, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v51, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v51, 0
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v33		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v47, 16, v33
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:208		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[48:51], off, s[0:3], 0 offset:208
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v46, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v46, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v48, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v48, 0
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v28, 0xffff, v7
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v30, 16, v7		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v30, 16, v7
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v42, 0xffff, v31
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v44, 16, v31		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v44, 16, v31
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[45:48], off, s[0:3], 0 offset:160		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[45:48], off, s[0:3], 0 offset:160
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v43, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v43, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v45, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v45, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v31, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v31, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v29, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v29, v37
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v9, 0xffff, v1
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v1		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v11, 16, v1
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v17, 0xffff, v3
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v3		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v19, 16, v3
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v25, 0xffff, v8
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v8		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v27, 16, v8
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v39, 0xffff, v32
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v41, 16, v32
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v32, 0xffff, v34
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v34, 16, v34		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v34, 16, v34
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v35, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v35, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v33, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v33, v37
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[42:45], off, s[0:3], 0 offset:128		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[42:45], off, s[0:3], 0 offset:128
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v40, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v40, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v42, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v42, 0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:96		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[28:31], off, s[0:3], 0 offset:96
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v3, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v28, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v28, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v26, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v26, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v14, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v10, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v10, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v1, v37
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v13, 0xffff, v4
		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v15, 16, v4
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v4, 0xffff, v6
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v6		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v6, 16, v6
		; GCN-NOHSA-VI-NEXT: v_and_b32_e32 v21, 0xffff, v5
; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v5		; GCN-NOHSA-VI-NEXT: v_lshrrev_b32_e32 v23, 16, v5
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:176		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[32:35], off, s[0:3], 0 offset:176
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[39:42], off, s[0:3], 0 offset:144		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[39:42], off, s[0:3], 0 offset:144
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v7, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v39, 0		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v39, 0
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v22, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v22, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v5, v37
; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v18, v37		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v18, v37
		; GCN-NOHSA-VI-NEXT: v_mov_b32_e32 v14, v37
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[25:28], off, s[0:3], 0 offset:112		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[25:28], off, s[0:3], 0 offset:112
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[21:24], off, s[0:3], 0 offset:64		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[21:24], off, s[0:3], 0 offset:64
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:80
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:224		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[36:39], off, s[0:3], 0 offset:224
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[17:20], off, s[0:3], 0 offset:32		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[17:20], off, s[0:3], 0 offset:32
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[13:16], off, s[0:3], 0 offset:48		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[13:16], off, s[0:3], 0 offset:48
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[9:12], off, s[0:3], 0		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[9:12], off, s[0:3], 0
; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16		; GCN-NOHSA-VI-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
▲ Show 20 Lines • Show All 1,097 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/lshr.v2i16.ll

	Show First 20 Lines • Show All 479 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; CI-NEXT: s_mov_b32 s7, 0xf000			; CI-NEXT: s_mov_b32 s7, 0xf000
	; CI-NEXT: s_mov_b32 s6, 0			; CI-NEXT: s_mov_b32 s6, 0
	; CI-NEXT: v_lshlrev_b32_e32 v4, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v4, 3, v0
	; CI-NEXT: v_mov_b32_e32 v5, 0			; CI-NEXT: v_mov_b32_e32 v5, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[4:5], s[2:3]			; CI-NEXT: s_mov_b64 s[4:5], s[2:3]
	; CI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64			; CI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64
	; CI-NEXT: s_mov_b32 s4, 0xffff
	; CI-NEXT: s_mov_b64 s[2:3], s[6:7]			; CI-NEXT: s_mov_b64 s[2:3], s[6:7]
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; CI-NEXT: v_and_b32_e32 v0, s4, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; CI-NEXT: v_and_b32_e32 v1, s4, v1			; CI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v3
	; CI-NEXT: v_lshrrev_b32_e32 v1, v3, v1			; CI-NEXT: v_lshrrev_b32_e32 v1, v3, v1
	; CI-NEXT: v_lshrrev_b32_e32 v3, v9, v7			; CI-NEXT: v_lshrrev_b32_e32 v3, v9, v7
	; CI-NEXT: v_lshrrev_b32_e32 v0, v2, v0			; CI-NEXT: v_lshrrev_b32_e32 v0, v2, v0
	; CI-NEXT: v_lshrrev_b32_e32 v2, v8, v6			; CI-NEXT: v_lshrrev_b32_e32 v2, v8, v6
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; CI-NEXT: s_mov_b32 s7, 0xf000			; CI-NEXT: s_mov_b32 s7, 0xf000
	; CI-NEXT: s_mov_b32 s6, 0			; CI-NEXT: s_mov_b32 s6, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[4:5], s[2:3]			; CI-NEXT: s_mov_b64 s[4:5], s[2:3]
	; CI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_mov_b32 s4, 0xff00ff
	; CI-NEXT: s_mov_b64 s[2:3], s[6:7]			; CI-NEXT: s_mov_b64 s[2:3], s[6:7]
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v3, 8, v3			; CI-NEXT: v_lshrrev_b32_e32 v3, 8, v3
	; CI-NEXT: v_lshrrev_b32_e32 v2, 8, v2			; CI-NEXT: v_lshrrev_b32_e32 v2, 8, v2
	; CI-NEXT: v_and_b32_e32 v3, s4, v3			; CI-NEXT: v_and_b32_e32 v3, 0xff00ff, v3
	; CI-NEXT: v_and_b32_e32 v2, s4, v2			; CI-NEXT: v_and_b32_e32 v2, 0xff00ff, v2
	; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[0:3], 0 addr64			; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[0:3], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: lshr_v_imm_v4i16:			; GFX10-LABEL: lshr_v_imm_v4i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	Show All 20 Lines

llvm/test/CodeGen/AMDGPU/madmk.ll

Show All 25 Lines	define amdgpu_kernel void @madmk_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #0 {
store float %madmk, float addrspace(1)* %out.gep, align 4		store float %madmk, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}madmk_2_use_f32:		; GCN-LABEL: {{^}}madmk_2_use_f32:
; GCN-DAG: buffer_load_dword [[VA:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 glc{{$}}		; GCN-DAG: buffer_load_dword [[VA:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 glc{{$}}
; GCN-DAG: buffer_load_dword [[VB:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4		; GCN-DAG: buffer_load_dword [[VB:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4
; GCN-DAG: buffer_load_dword [[VC:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8		; GCN-DAG: buffer_load_dword [[VC:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8
; GCN-DAG: s_mov_b32 [[SK:s[0-9]+]], 0x41200000		; GCN-DAG: v_mac_f32_e32 [[VB]], 0x41200000, [[VA]]
; GCN-DAG: v_mac_f32_e32 [[VB]], [[SK]], [[VA]]		; GCN-DAG: v_mac_f32_e32 [[VC]], 0x41200000, [[VA]]
; GCN-DAG: v_mac_f32_e32 [[VC]], [[SK]], [[VA]]
; GCN: s_endpgm		; GCN: s_endpgm
		foadAuthorUnsubmitted Done Reply Inline Actions Not a regression, but it's a bit sad that we don't form madmk here either before or after this patch. foad: Not a regression, but it's a bit sad that we don't form madmk here either before or after this…
define amdgpu_kernel void @madmk_2_use_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #0 {		define amdgpu_kernel void @madmk_2_use_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #0 {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone

%in.gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid		%in.gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
%in.gep.1 = getelementptr float, float addrspace(1)* %in.gep.0, i32 1		%in.gep.1 = getelementptr float, float addrspace(1)* %in.gep.0, i32 1
%in.gep.2 = getelementptr float, float addrspace(1)* %in.gep.0, i32 2		%in.gep.2 = getelementptr float, float addrspace(1)* %in.gep.0, i32 2

%out.gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
▲ Show 20 Lines • Show All 173 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/mul.i16.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GFX89 %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=fiji -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,GFX89 %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s

	; GCN-LABEL: {{^}}v_mul_i16:			; GCN-LABEL: {{^}}v_mul_i16:
	; SI: s_mov_b32 [[K:s[0-9]+]], 0xffff{{$}}			; SI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	; SI: v_and_b32_e32 v{{[0-9]+}}, [[K]]			; SI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	; SI: v_and_b32_e32 v{{[0-9]+}}, [[K]]
	; SI: v_mul_u32_u24			; SI: v_mul_u32_u24

	; GFX89: v_mul_lo_u16_e32 v0, v0, v1			; GFX89: v_mul_lo_u16_e32 v0, v0, v1
	define i16 @v_mul_i16(i16 %a, i16 %b) {			define i16 @v_mul_i16(i16 %a, i16 %b) {
	%r.val = mul i16 %a, %b			%r.val = mul i16 %a, %b
	ret i16 %r.val			ret i16 %r.val
	}			}

	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/mul_uint24-amdgcn.ll

Show First 20 Lines • Show All 818 Lines • ▼ Show 20 Lines	entry:
%arst = mul i17 %trunc, 99		%arst = mul i17 %trunc, 99
ret i17 %arst		ret i17 %arst
}		}

define i17 @test_umul24_anyextend_i23_src0_src1(i23 %a, i23 %b) {		define i17 @test_umul24_anyextend_i23_src0_src1(i23 %a, i23 %b) {
; GCN-LABEL: test_umul24_anyextend_i23_src0_src1:		; GCN-LABEL: test_umul24_anyextend_i23_src0_src1:
; GCN: ; %bb.0: ; %entry		; GCN: ; %bb.0: ; %entry
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: s_mov_b32 s4, 0x7fffff		; GCN-NEXT: v_and_b32_e32 v0, 0x7fffff, v0
; GCN-NEXT: v_and_b32_e32 v0, s4, v0		; GCN-NEXT: v_and_b32_e32 v1, 0x7fffff, v1
; GCN-NEXT: v_and_b32_e32 v1, s4, v1
; GCN-NEXT: v_mul_u32_u24_e32 v0, 0xea, v0		; GCN-NEXT: v_mul_u32_u24_e32 v0, 0xea, v0
; GCN-NEXT: v_mul_u32_u24_e32 v1, 0x39b, v1		; GCN-NEXT: v_mul_u32_u24_e32 v1, 0x39b, v1
; GCN-NEXT: v_and_b32_e32 v0, 0x7ffffe, v0		; GCN-NEXT: v_and_b32_e32 v0, 0x7ffffe, v0
; GCN-NEXT: v_and_b32_e32 v1, s4, v1		; GCN-NEXT: v_and_b32_e32 v1, 0x7fffff, v1
; GCN-NEXT: v_mul_u32_u24_e32 v0, v0, v1		; GCN-NEXT: v_mul_u32_u24_e32 v0, v0, v1
; GCN-NEXT: v_and_b32_e32 v0, 0x1fffe, v0		; GCN-NEXT: v_and_b32_e32 v0, 0x1fffe, v0
; GCN-NEXT: v_mul_u32_u24_e32 v0, 0x63, v0		; GCN-NEXT: v_mul_u32_u24_e32 v0, 0x63, v0
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%aa = mul i23 %a, 234		%aa = mul i23 %a, 234
%bb = mul i23 %b, 923		%bb = mul i23 %b, 923
%a_32 = zext i23 %aa to i32		%a_32 = zext i23 %aa to i32
%b_32 = zext i23 %bb to i32		%b_32 = zext i23 %bb to i32
%mul = mul i32 %a_32, %b_32		%mul = mul i32 %a_32, %b_32
%trunc = trunc i32 %mul to i17		%trunc = trunc i32 %mul to i17
%arst = mul i17 %trunc, 99		%arst = mul i17 %trunc, 99
ret i17 %arst		ret i17 %arst
}		}

llvm/test/CodeGen/AMDGPU/operand-folding.ll

	Show First 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	define amdgpu_kernel void @imm_one_use(i32 addrspace(1)* %out) #1 {			define amdgpu_kernel void @imm_one_use(i32 addrspace(1)* %out) #1 {
	entry:			entry:
	%tmp0 = call i32 @llvm.amdgcn.workitem.id.x()			%tmp0 = call i32 @llvm.amdgcn.workitem.id.x()
	%tmp1 = xor i32 %tmp0, 100			%tmp1 = xor i32 %tmp0, 100
	store i32 %tmp1, i32 addrspace(1)* %out			store i32 %tmp1, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	; CHECK-LABEL: {{^}}vector_imm:			; CHECK-LABEL: {{^}}vector_imm:
	; CHECK: s_movk_i32 [[IMM:s[0-9]+]], 0x64			; CHECK: v_xor_b32_e32 v{{[0-9]}}, 0x64, v{{[0-9]}}
	; CHECK: v_xor_b32_e32 v{{[0-9]}}, [[IMM]], v{{[0-9]}}			; CHECK: v_xor_b32_e32 v{{[0-9]}}, 0x64, v{{[0-9]}}
	; CHECK: v_xor_b32_e32 v{{[0-9]}}, [[IMM]], v{{[0-9]}}			; CHECK: v_xor_b32_e32 v{{[0-9]}}, 0x64, v{{[0-9]}}
	; CHECK: v_xor_b32_e32 v{{[0-9]}}, [[IMM]], v{{[0-9]}}			; CHECK: v_xor_b32_e32 v{{[0-9]}}, 0x64, v{{[0-9]}}
	; CHECK: v_xor_b32_e32 v{{[0-9]}}, [[IMM]], v{{[0-9]}}

	define amdgpu_kernel void @vector_imm(<4 x i32> addrspace(1)* %out) #1 {			define amdgpu_kernel void @vector_imm(<4 x i32> addrspace(1)* %out) #1 {
	entry:			entry:
	%tmp0 = call i32 @llvm.amdgcn.workitem.id.x()			%tmp0 = call i32 @llvm.amdgcn.workitem.id.x()
	%tmp1 = add i32 %tmp0, 1			%tmp1 = add i32 %tmp0, 1
	%tmp2 = add i32 %tmp0, 2			%tmp2 = add i32 %tmp0, 2
	%tmp3 = add i32 %tmp0, 3			%tmp3 = add i32 %tmp0, 3
	%vec0 = insertelement <4 x i32> undef, i32 %tmp0, i32 0			%vec0 = insertelement <4 x i32> undef, i32 %tmp0, i32 0
	▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/packed-fp32.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fadd_v32_vs(<32 x float> addrspace(1)* %a, <32 x float> %x) {
%gep = getelementptr inbounds <32 x float>, <32 x float> addrspace(1)* %a, i32 %id		%gep = getelementptr inbounds <32 x float>, <32 x float> addrspace(1)* %a, i32 %id
%load = load <32 x float>, <32 x float> addrspace(1)* %gep, align 128		%load = load <32 x float>, <32 x float> addrspace(1)* %gep, align 128
%add = fadd <32 x float> %load, %x		%add = fadd <32 x float> %load, %x
store <32 x float> %add, <32 x float> addrspace(1)* %gep, align 128		store <32 x float> %add, <32 x float> addrspace(1)* %gep, align 128
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_v2_v_imm:		; GCN-LABEL: {{^}}fadd_v2_v_imm:
; GCN: s_mov_b32 s[[K:[0-9]+]], 0x42c80000		; GFX90A: s_mov_b32 s[[K:[0-9]+]], 0x42c80000
; GFX900-COUNT-2: v_add_f32_e32 v{{[0-9]+}}, s[[K]], v{{[0-9]+}}		; GFX900-COUNT-2: v_add_f32_e32 v{{[0-9]+}}, 0x42c80000, v{{[0-9]+}}
; GFX90A: v_pk_add_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], s[[[K]]:{{[0-9:]+}}] op_sel_hi:[1,0]{{$}}		; GFX90A: v_pk_add_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], s[[[K]]:{{[0-9:]+}}] op_sel_hi:[1,0]{{$}}
define amdgpu_kernel void @fadd_v2_v_imm(<2 x float> addrspace(1)* %a) {		define amdgpu_kernel void @fadd_v2_v_imm(<2 x float> addrspace(1)* %a) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id		%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id
%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8		%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8
%add = fadd <2 x float> %load, <float 100.0, float 100.0>		%add = fadd <2 x float> %load, <float 100.0, float 100.0>
store <2 x float> %add, <2 x float> addrspace(1)* %gep, align 8		store <2 x float> %add, <2 x float> addrspace(1)* %gep, align 8
ret void		ret void
▲ Show 20 Lines • Show All 193 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fmul_v32_vs(<32 x float> addrspace(1)* %a, <32 x float> %x) {
%gep = getelementptr inbounds <32 x float>, <32 x float> addrspace(1)* %a, i32 %id		%gep = getelementptr inbounds <32 x float>, <32 x float> addrspace(1)* %a, i32 %id
%load = load <32 x float>, <32 x float> addrspace(1)* %gep, align 128		%load = load <32 x float>, <32 x float> addrspace(1)* %gep, align 128
%mul = fmul <32 x float> %load, %x		%mul = fmul <32 x float> %load, %x
store <32 x float> %mul, <32 x float> addrspace(1)* %gep, align 128		store <32 x float> %mul, <32 x float> addrspace(1)* %gep, align 128
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2_v_imm:		; GCN-LABEL: {{^}}fmul_v2_v_imm:
; GCN: s_mov_b32 s[[K:[0-9]+]], 0x42c80000		; GFX90A: s_mov_b32 s[[K:[0-9]+]], 0x42c80000
; GFX900-COUNT-2: v_mul_f32_e32 v{{[0-9]+}}, s[[K]], v{{[0-9]+}}		; GFX900-COUNT-2: v_mul_f32_e32 v{{[0-9]+}}, 0x42c80000, v{{[0-9]+}}
; GFX90A: v_pk_mul_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], s[[[K]]:{{[0-9:]+}}] op_sel_hi:[1,0]{{$}}		; GFX90A: v_pk_mul_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], s[[[K]]:{{[0-9:]+}}] op_sel_hi:[1,0]{{$}}
define amdgpu_kernel void @fmul_v2_v_imm(<2 x float> addrspace(1)* %a) {		define amdgpu_kernel void @fmul_v2_v_imm(<2 x float> addrspace(1)* %a) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id		%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id
%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8		%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8
%mul = fmul <2 x float> %load, <float 100.0, float 100.0>		%mul = fmul <2 x float> %load, <float 100.0, float 100.0>
store <2 x float> %mul, <2 x float> addrspace(1)* %gep, align 8		store <2 x float> %mul, <2 x float> addrspace(1)* %gep, align 8
ret void		ret void
▲ Show 20 Lines • Show All 273 Lines • ▼ Show 20 Lines	bb:
%in.1 = load <4 x float>, <4 x float> addrspace(1)* %gep		%in.1 = load <4 x float>, <4 x float> addrspace(1)* %gep
%shuf = shufflevector <4 x float> %in.1, <4 x float> undef, <4 x i32> zeroinitializer		%shuf = shufflevector <4 x float> %in.1, <4 x float> undef, <4 x i32> zeroinitializer
%add.1 = fadd <4 x float> %in.1, %shuf		%add.1 = fadd <4 x float> %in.1, %shuf
store <4 x float> %add.1, <4 x float> addrspace(1)* %gep		store <4 x float> %add.1, <4 x float> addrspace(1)* %gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_v2f32_vec:		; GCN-LABEL: {{^}}fneg_v2f32_vec:
; GFX900: s_brev_b32 [[SIGN:s[0-9]+]], 1		; GFX900-COUNT-2: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, v{{[0-9]+}}
; GFX900-COUNT-2: v_xor_b32_e32 v{{[0-9]+}}, [[SIGN]], v{{[0-9]+}}
; GFX90A: v_pk_add_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], 0 neg_lo:[1,1] neg_hi:[1,1]{{$}}		; GFX90A: v_pk_add_f32 v[{{[0-9:]+}}], v[{{[0-9:]+}}], 0 neg_lo:[1,1] neg_hi:[1,1]{{$}}
define amdgpu_kernel void @fneg_v2f32_vec(<2 x float> addrspace(1)* %a) {		define amdgpu_kernel void @fneg_v2f32_vec(<2 x float> addrspace(1)* %a) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id		%gep = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i32 %id
%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8		%load = load <2 x float>, <2 x float> addrspace(1)* %gep, align 8
%fneg = fsub <2 x float> <float -0.0, float -0.0>, %load		%fneg = fsub <2 x float> <float -0.0, float -0.0>, %load
store <2 x float> %fneg, <2 x float> addrspace(1)* %gep, align 8		store <2 x float> %fneg, <2 x float> addrspace(1)* %gep, align 8
ret void		ret void
Show All 14 Lines

llvm/test/CodeGen/AMDGPU/s_movk_i32.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s
	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=SI %s

	; SI-LABEL: {{^}}s_movk_i32_k0:			; SI-LABEL: {{^}}s_movk_i32_k0:
	; SI-DAG: s_mov_b32 [[LO_S_IMM:s[0-9]+]], 0xffff{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k0(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k0(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 4295032831 ; ((1 << 16) - 1) \| (1 << 32)			%or = or i64 %loada, 4295032831 ; ((1 << 16) - 1) \| (1 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 4295032831)			call void asm sideeffect "; use $0", "s"(i64 4295032831)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k1:			; SI-LABEL: {{^}}s_movk_i32_k1:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x7fff{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x7fff, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k1(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k1(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 4295000063 ; ((1 << 15) - 1) \| (1 << 32)			%or = or i64 %loada, 4295000063 ; ((1 << 15) - 1) \| (1 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 4295000063)			call void asm sideeffect "; use $0", "s"(i64 4295000063)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k2:			; SI-LABEL: {{^}}s_movk_i32_k2:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x7fff{{$}}			; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x7fff{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x7fff, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 64, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 64, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k2(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k2(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 274877939711 ; ((1 << 15) - 1) \| (64 << 32)			%or = or i64 %loada, 274877939711 ; ((1 << 15) - 1) \| (64 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 274877939711)			call void asm sideeffect "; use $0", "s"(i64 274877939711)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k3:			; SI-LABEL: {{^}}s_movk_i32_k3:
	; SI-DAG: s_mov_b32 [[LO_S_IMM:s[0-9]+]], 0x8000{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x8000, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k3(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k3(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 4295000064 ; (1 << 15) \| (1 << 32)			%or = or i64 %loada, 4295000064 ; (1 << 15) \| (1 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 4295000064)			call void asm sideeffect "; use $0", "s"(i64 4295000064)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k4:			; SI-LABEL: {{^}}s_movk_i32_k4:
	; SI-DAG: s_mov_b32 [[LO_S_IMM:s[0-9]+]], 0x20000{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x20000, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 1, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k4(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k4(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 4295098368 ; (1 << 17) \| (1 << 32)			%or = or i64 %loada, 4295098368 ; (1 << 17) \| (1 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 4295098368)			call void asm sideeffect "; use $0", "s"(i64 4295098368)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k5:			; SI-LABEL: {{^}}s_movk_i32_k5:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0xffef{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0xff00ffff{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffffffef, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xff00ffff, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k5(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k5(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 18374967954648334319 ; -17 & 0xff00ffffffffffff			%or = or i64 %loada, 18374967954648334319 ; -17 & 0xff00ffffffffffff
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 18374967954648334319)			call void asm sideeffect "; use $0", "s"(i64 18374967954648334319)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k6:			; SI-LABEL: {{^}}s_movk_i32_k6:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x41{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x41, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 63, v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 63, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k6(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k6(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 270582939713 ; 65 \| (63 << 32)			%or = or i64 %loada, 270582939713 ; 65 \| (63 << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 270582939713)			call void asm sideeffect "; use $0", "s"(i64 270582939713)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k7:			; SI-LABEL: {{^}}s_movk_i32_k7:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x2000{{$}}
	; SI-DAG: s_movk_i32 [[HI_S_IMM:s[0-9]+]], 0x4000{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x2000, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x4000, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k7(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k7(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 70368744185856; ((1 << 13)) \| ((1 << 14) << 32)			%or = or i64 %loada, 70368744185856; ((1 << 13)) \| ((1 << 14) << 32)
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 70368744185856)			call void asm sideeffect "; use $0", "s"(i64 70368744185856)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k8:			; SI-LABEL: {{^}}s_movk_i32_k8:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x8000{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0x11111111{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff8000, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x11111111, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k8(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k8(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 1229782942255906816 ; 0x11111111ffff8000			%or = or i64 %loada, 1229782942255906816 ; 0x11111111ffff8000
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 1229782942255906816)			call void asm sideeffect "; use $0", "s"(i64 1229782942255906816)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k9:			; SI-LABEL: {{^}}s_movk_i32_k9:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x8001{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0x11111111{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff8001, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x11111111, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k9(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k9(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 1229782942255906817 ; 0x11111111ffff8001			%or = or i64 %loada, 1229782942255906817 ; 0x11111111ffff8001
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 1229782942255906817)			call void asm sideeffect "; use $0", "s"(i64 1229782942255906817)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k10:			; SI-LABEL: {{^}}s_movk_i32_k10:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x8888{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0x11111111{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff8888, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x11111111, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k10(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k10(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 1229782942255909000 ; 0x11111111ffff8888			%or = or i64 %loada, 1229782942255909000 ; 0x11111111ffff8888
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 1229782942255909000)			call void asm sideeffect "; use $0", "s"(i64 1229782942255909000)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k11:			; SI-LABEL: {{^}}s_movk_i32_k11:
	; SI-DAG: s_movk_i32 [[LO_S_IMM:s[0-9]+]], 0x8fff{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0x11111111{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff8fff, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x11111111, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k11(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k11(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 1229782942255910911 ; 0x11111111ffff8fff			%or = or i64 %loada, 1229782942255910911 ; 0x11111111ffff8fff
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 1229782942255910911)			call void asm sideeffect "; use $0", "s"(i64 1229782942255910911)
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}s_movk_i32_k12:			; SI-LABEL: {{^}}s_movk_i32_k12:
	; SI-DAG: s_mov_b32 [[LO_S_IMM:s[0-9]+]], 0xffff7001{{$}}
	; SI-DAG: s_mov_b32 [[HI_S_IMM:s[0-9]+]], 0x11111111{{$}}
	; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],			; SI-DAG: buffer_load_dwordx2 v[[[LO_VREG:[0-9]+]]:[[HI_VREG:[0-9]+]]],
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[LO_S_IMM]], v[[LO_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0xffff7001, v[[LO_VREG]]
	; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, [[HI_S_IMM]], v[[HI_VREG]]			; SI-DAG: v_or_b32_e32 {{v[0-9]+}}, 0x11111111, v[[HI_VREG]]
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @s_movk_i32_k12(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {			define amdgpu_kernel void @s_movk_i32_k12(i64 addrspace(1)* %out, i64 addrspace(1)* %a, i64 addrspace(1)* %b) {
	%loada = load i64, i64 addrspace(1)* %a, align 4			%loada = load i64, i64 addrspace(1)* %a, align 4
	%or = or i64 %loada, 1229782942255902721 ; 0x11111111ffff7001			%or = or i64 %loada, 1229782942255902721 ; 0x11111111ffff7001
	store i64 %or, i64 addrspace(1)* %out			store i64 %or, i64 addrspace(1)* %out
	call void asm sideeffect "; use $0", "s"(i64 1229782942255902721)			call void asm sideeffect "; use $0", "s"(i64 1229782942255902721)
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/saddsat.ll

	Show First 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: v_saddsat_v2i16:			; GFX6-LABEL: v_saddsat_v2i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v2i16:			; GFX8-LABEL: v_saddsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX8-NEXT: v_add_u16_e32 v4, v3, v2			; GFX8-NEXT: v_add_u16_e32 v4, v3, v2
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v4, v3			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v4, v3
	; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v2			; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v2
	; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v4			; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v4
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v2, 0xffff8000, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v1			; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v1
	; GFX8-NEXT: v_add_u16_e32 v1, v0, v1			; GFX8-NEXT: v_add_u16_e32 v1, v0, v1
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v1, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v1, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v1			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v1
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v2i16:			; GFX9-LABEL: v_saddsat_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16			; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16			; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v3			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v3
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: v_min_i32_e32 v2, s4, v2			; GFX6-NEXT: v_min_i32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_max_i32_e32 v3, s5, v2			; GFX6-NEXT: v_max_i32_e32 v3, 0xffff8000, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_or_b32_e32 v2, 0xffff0000, v3			; GFX6-NEXT: v_or_b32_e32 v2, 0xffff0000, v3
	; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16			; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v3i16:			; GFX8-LABEL: v_saddsat_v3i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX8-NEXT: v_add_u16_e32 v6, v5, v4			; GFX8-NEXT: v_add_u16_e32 v6, v5, v4
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5
	; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6			; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v4, 0xffff8000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
	; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v3
	; GFX8-NEXT: v_add_u16_e32 v3, v1, v3			; GFX8-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1
	; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3			; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0xffff8000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v2
	; GFX8-NEXT: v_add_u16_e32 v2, v0, v2			; GFX8-NEXT: v_add_u16_e32 v2, v0, v2
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v3i16:			; GFX9-LABEL: v_saddsat_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	; GFX6-LABEL: v_saddsat_v4i16:			; GFX6-LABEL: v_saddsat_v4i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16			; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16			; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: s_mov_b32 s6, 0xffff
	; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16			; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16			; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s6, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v7			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v7
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v6
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: v_min_i32_e32 v2, s4, v2			; GFX6-NEXT: v_min_i32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v2, s5, v2			; GFX6-NEXT: v_max_i32_e32 v2, 0xffff8000, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v2, s6, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1			; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v4i16:			; GFX8-LABEL: v_saddsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX8-NEXT: v_add_u16_e32 v6, v5, v4			; GFX8-NEXT: v_add_u16_e32 v6, v5, v4
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5
	; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6			; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v4, 0xffff8000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
	; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v2
	; GFX8-NEXT: v_add_u16_e32 v2, v0, v2			; GFX8-NEXT: v_add_u16_e32 v2, v0, v2
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX8-NEXT: v_add_u16_e32 v5, v4, v2			; GFX8-NEXT: v_add_u16_e32 v5, v4, v2
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v5, v4			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v5, v4
	; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v2			; GFX8-NEXT: v_cmp_gt_i16_e64 s[4:5], 0, v2
	; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v5			; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v5
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0xffff8000, v2
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc
	; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_gt_i16_e32 vcc, 0, v3
	; GFX8-NEXT: v_add_u16_e32 v3, v1, v3			; GFX8-NEXT: v_add_u16_e32 v3, v1, v3
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1
	; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3			; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0xffff8000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v4i16:			; GFX9-LABEL: v_saddsat_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	define <2 x i32> @v_saddsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {			define <2 x i32> @v_saddsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
	; GFX6-LABEL: v_saddsat_v2i32:			; GFX6-LABEL: v_saddsat_v2i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2
	; GFX6-NEXT: v_add_i32_e64 v2, s[4:5], v0, v2			; GFX6-NEXT: v_add_i32_e64 v2, s[4:5], v0, v2
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v2
	; GFX6-NEXT: s_brev_b32 s6, 1			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX6-NEXT: v_add_i32_e64 v2, s[4:5], v1, v3			; GFX6-NEXT: v_add_i32_e64 v2, s[4:5], v1, v3
	; GFX6-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3			; GFX6-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_saddsat_v2i32:			; GFX8-LABEL: v_saddsat_v2i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_gt_i32_e32 vcc, 0, v2
	; GFX8-NEXT: v_add_u32_e64 v2, s[4:5], v0, v2			; GFX8-NEXT: v_add_u32_e64 v2, s[4:5], v0, v2
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v2			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v2
	; GFX8-NEXT: s_brev_b32 s6, 1			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_add_u32_e64 v2, s[4:5], v1, v3			; GFX8-NEXT: v_add_u32_e64 v2, s[4:5], v1, v3
	; GFX8-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_gt_i32_e32 vcc, 0, v3
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v2			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v2
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_saddsat_v2i32:			; GFX9-LABEL: v_saddsat_v2i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_add_i32 v0, v0, v2 clamp			; GFX9-NEXT: v_add_i32 v0, v0, v2 clamp
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv.ll

	Show First 20 Lines • Show All 395 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s7, 0xf000			; GCN-NEXT: s_mov_b32 s7, 0xf000
	; GCN-NEXT: s_mov_b32 s6, -1			; GCN-NEXT: s_mov_b32 s6, -1
	; GCN-NEXT: s_mov_b32 s10, s6			; GCN-NEXT: s_mov_b32 s10, s6
	; GCN-NEXT: s_mov_b32 s11, s7			; GCN-NEXT: s_mov_b32 s11, s7
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s8, s2			; GCN-NEXT: s_mov_b32 s8, s2
	; GCN-NEXT: s_mov_b32 s9, s3			; GCN-NEXT: s_mov_b32 s9, s3
	; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; GCN-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_ashrrev_i32_e32 v5, 31, v2			; GCN-NEXT: v_ashrrev_i32_e32 v5, 31, v2
	; GCN-NEXT: v_ashrrev_i32_e32 v7, 31, v3			; GCN-NEXT: v_ashrrev_i32_e32 v7, 31, v3
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v5, v2
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v7, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v7, v3
	; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v4, 31, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v6, 31, v1			; GCN-NEXT: v_ashrrev_i32_e32 v6, 31, v1
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v5			; GCN-NEXT: v_xor_b32_e32 v2, v2, v5
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v7			; GCN-NEXT: v_xor_b32_e32 v3, v3, v7
	; GCN-NEXT: v_xor_b32_e32 v8, v4, v5			; GCN-NEXT: v_xor_b32_e32 v8, v4, v5
	; GCN-NEXT: v_xor_b32_e32 v9, v6, v7			; GCN-NEXT: v_xor_b32_e32 v9, v6, v7
	; GCN-NEXT: v_cvt_f32_u32_e32 v5, v2			; GCN-NEXT: v_cvt_f32_u32_e32 v5, v2
	; GCN-NEXT: v_cvt_f32_u32_e32 v7, v3			; GCN-NEXT: v_cvt_f32_u32_e32 v7, v3
	; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v2			; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v2
	; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v7, v7			; GCN-NEXT: v_rcp_iflag_f32_e32 v7, v7
	; GCN-NEXT: v_sub_i32_e32 v11, vcc, 0, v3			; GCN-NEXT: v_sub_i32_e32 v11, vcc, 0, v3
	; GCN-NEXT: v_mul_f32_e32 v5, s2, v5			; GCN-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; GCN-NEXT: v_mul_f32_e32 v7, s2, v7			; GCN-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7
	; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5			; GCN-NEXT: v_cvt_u32_f32_e32 v5, v5
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v7			; GCN-NEXT: v_cvt_u32_f32_e32 v7, v7
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v4, v0
	; GCN-NEXT: v_mul_lo_u32 v10, v10, v5			; GCN-NEXT: v_mul_lo_u32 v10, v10, v5
	; GCN-NEXT: v_mul_lo_u32 v11, v11, v7			; GCN-NEXT: v_mul_lo_u32 v11, v11, v7
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v6, v1
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v4			; GCN-NEXT: v_xor_b32_e32 v0, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v5, v10			; GCN-NEXT: v_mul_hi_u32 v4, v5, v10
	Show All 36 Lines
	; TONGA-NEXT: s_mov_b32 s7, 0xf000			; TONGA-NEXT: s_mov_b32 s7, 0xf000
	; TONGA-NEXT: s_mov_b32 s6, -1			; TONGA-NEXT: s_mov_b32 s6, -1
	; TONGA-NEXT: s_mov_b32 s10, s6			; TONGA-NEXT: s_mov_b32 s10, s6
	; TONGA-NEXT: s_mov_b32 s11, s7			; TONGA-NEXT: s_mov_b32 s11, s7
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s8, s2			; TONGA-NEXT: s_mov_b32 s8, s2
	; TONGA-NEXT: s_mov_b32 s9, s3			; TONGA-NEXT: s_mov_b32 s9, s3
	; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; TONGA-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; TONGA-NEXT: s_mov_b32 s4, s0			; TONGA-NEXT: s_mov_b32 s4, s0
	; TONGA-NEXT: s_mov_b32 s5, s1			; TONGA-NEXT: s_mov_b32 s5, s1
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_ashrrev_i32_e32 v5, 31, v2			; TONGA-NEXT: v_ashrrev_i32_e32 v5, 31, v2
	; TONGA-NEXT: v_ashrrev_i32_e32 v7, 31, v3			; TONGA-NEXT: v_ashrrev_i32_e32 v7, 31, v3
	; TONGA-NEXT: v_add_u32_e32 v2, vcc, v5, v2			; TONGA-NEXT: v_add_u32_e32 v2, vcc, v5, v2
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v7, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v7, v3
	; TONGA-NEXT: v_ashrrev_i32_e32 v4, 31, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v4, 31, v0
	; TONGA-NEXT: v_ashrrev_i32_e32 v6, 31, v1			; TONGA-NEXT: v_ashrrev_i32_e32 v6, 31, v1
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v5			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v5
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7
	; TONGA-NEXT: v_xor_b32_e32 v8, v4, v5			; TONGA-NEXT: v_xor_b32_e32 v8, v4, v5
	; TONGA-NEXT: v_xor_b32_e32 v9, v6, v7			; TONGA-NEXT: v_xor_b32_e32 v9, v6, v7
	; TONGA-NEXT: v_cvt_f32_u32_e32 v5, v2			; TONGA-NEXT: v_cvt_f32_u32_e32 v5, v2
	; TONGA-NEXT: v_cvt_f32_u32_e32 v7, v3			; TONGA-NEXT: v_cvt_f32_u32_e32 v7, v3
	; TONGA-NEXT: v_sub_u32_e32 v10, vcc, 0, v2			; TONGA-NEXT: v_sub_u32_e32 v10, vcc, 0, v2
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v5, v5			; TONGA-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v7, v7			; TONGA-NEXT: v_rcp_iflag_f32_e32 v7, v7
	; TONGA-NEXT: v_sub_u32_e32 v11, vcc, 0, v3			; TONGA-NEXT: v_sub_u32_e32 v11, vcc, 0, v3
	; TONGA-NEXT: v_mul_f32_e32 v5, s2, v5			; TONGA-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; TONGA-NEXT: v_mul_f32_e32 v7, s2, v7			; TONGA-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7
	; TONGA-NEXT: v_cvt_u32_f32_e32 v5, v5			; TONGA-NEXT: v_cvt_u32_f32_e32 v5, v5
	; TONGA-NEXT: v_cvt_u32_f32_e32 v7, v7			; TONGA-NEXT: v_cvt_u32_f32_e32 v7, v7
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v4, v0
	; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5			; TONGA-NEXT: v_mul_lo_u32 v10, v10, v5
	; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7			; TONGA-NEXT: v_mul_lo_u32 v11, v11, v7
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1			; TONGA-NEXT: v_add_u32_e32 v1, vcc, v6, v1
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10			; TONGA-NEXT: v_mul_hi_u32 v4, v5, v10
	Show All 36 Lines
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: s_mov_b32 s10, s6			; GFX9-NEXT: s_mov_b32 s10, s6
	; GFX9-NEXT: s_mov_b32 s11, s7			; GFX9-NEXT: s_mov_b32 s11, s7
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s8, s2			; GFX9-NEXT: s_mov_b32 s8, s2
	; GFX9-NEXT: s_mov_b32 s9, s3			; GFX9-NEXT: s_mov_b32 s9, s3
	; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; GFX9-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX9-NEXT: s_mov_b32 s4, s0			; GFX9-NEXT: s_mov_b32 s4, s0
	; GFX9-NEXT: s_mov_b32 s5, s1			; GFX9-NEXT: s_mov_b32 s5, s1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v2			; GFX9-NEXT: v_ashrrev_i32_e32 v4, 31, v2
	; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v3			; GFX9-NEXT: v_ashrrev_i32_e32 v5, 31, v3
	; GFX9-NEXT: v_add_u32_e32 v2, v2, v4			; GFX9-NEXT: v_add_u32_e32 v2, v2, v4
	; GFX9-NEXT: v_add_u32_e32 v3, v3, v5			; GFX9-NEXT: v_add_u32_e32 v3, v3, v5
	; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4			; GFX9-NEXT: v_xor_b32_e32 v2, v2, v4
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v5			; GFX9-NEXT: v_xor_b32_e32 v3, v3, v5
	; GFX9-NEXT: v_cvt_f32_u32_e32 v6, v2			; GFX9-NEXT: v_cvt_f32_u32_e32 v6, v2
	; GFX9-NEXT: v_cvt_f32_u32_e32 v7, v3			; GFX9-NEXT: v_cvt_f32_u32_e32 v7, v3
	; GFX9-NEXT: v_sub_u32_e32 v10, 0, v2			; GFX9-NEXT: v_sub_u32_e32 v10, 0, v2
	; GFX9-NEXT: v_sub_u32_e32 v11, 0, v3			; GFX9-NEXT: v_sub_u32_e32 v11, 0, v3
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6			; GFX9-NEXT: v_rcp_iflag_f32_e32 v6, v6
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7			; GFX9-NEXT: v_rcp_iflag_f32_e32 v7, v7
	; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v1			; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v1
	; GFX9-NEXT: v_mul_f32_e32 v6, s2, v6			; GFX9-NEXT: v_mul_f32_e32 v6, 0x4f7ffffe, v6
	; GFX9-NEXT: v_mul_f32_e32 v7, s2, v7			; GFX9-NEXT: v_mul_f32_e32 v7, 0x4f7ffffe, v7
	; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6			; GFX9-NEXT: v_cvt_u32_f32_e32 v6, v6
	; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v7			; GFX9-NEXT: v_cvt_u32_f32_e32 v7, v7
	; GFX9-NEXT: v_add_u32_e32 v0, v0, v8			; GFX9-NEXT: v_add_u32_e32 v0, v0, v8
	; GFX9-NEXT: v_add_u32_e32 v1, v1, v9			; GFX9-NEXT: v_add_u32_e32 v1, v1, v9
	; GFX9-NEXT: v_mul_lo_u32 v10, v10, v6			; GFX9-NEXT: v_mul_lo_u32 v10, v10, v6
	; GFX9-NEXT: v_mul_lo_u32 v11, v11, v7			; GFX9-NEXT: v_mul_lo_u32 v11, v11, v7
	; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8			; GFX9-NEXT: v_xor_b32_e32 v0, v0, v8
	; GFX9-NEXT: v_xor_b32_e32 v1, v1, v9			; GFX9-NEXT: v_xor_b32_e32 v1, v1, v9
	▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_mov_b32 s10, -1			; GCN-NEXT: s_mov_b32 s10, -1
	; GCN-NEXT: s_mov_b32 s6, s10			; GCN-NEXT: s_mov_b32 s6, s10
	; GCN-NEXT: s_mov_b32 s7, s11			; GCN-NEXT: s_mov_b32 s7, s11
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s4, s2			; GCN-NEXT: s_mov_b32 s4, s2
	; GCN-NEXT: s_mov_b32 s5, s3			; GCN-NEXT: s_mov_b32 s5, s3
	; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0			; GCN-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0
	; GCN-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; GCN-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16
	; GCN-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GCN-NEXT: s_mov_b32 s8, s0			; GCN-NEXT: s_mov_b32 s8, s0
	; GCN-NEXT: s_mov_b32 s9, s1			; GCN-NEXT: s_mov_b32 s9, s1
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	; GCN-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; GCN-NEXT: v_ashrrev_i32_e32 v9, 31, v4
	; GCN-NEXT: v_add_i32_e32 v5, vcc, v11, v5
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4			; GCN-NEXT: v_add_i32_e32 v4, vcc, v9, v4
	; GCN-NEXT: v_xor_b32_e32 v5, v5, v11
	; GCN-NEXT: v_xor_b32_e32 v15, v8, v9
	; GCN-NEXT: v_xor_b32_e32 v4, v4, v9
	; GCN-NEXT: v_cvt_f32_u32_e32 v9, v5
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v8, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v8, v0
				; GCN-NEXT: v_xor_b32_e32 v4, v4, v9
				; GCN-NEXT: v_xor_b32_e32 v15, v8, v9
	; GCN-NEXT: v_xor_b32_e32 v0, v0, v8			; GCN-NEXT: v_xor_b32_e32 v0, v0, v8
	; GCN-NEXT: v_cvt_f32_u32_e32 v8, v4			; GCN-NEXT: v_cvt_f32_u32_e32 v8, v4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v9, v9			; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4
				; GCN-NEXT: v_ashrrev_i32_e32 v11, 31, v5
				; GCN-NEXT: v_rcp_iflag_f32_e32 v8, v8
	; GCN-NEXT: v_ashrrev_i32_e32 v13, 31, v6			; GCN-NEXT: v_ashrrev_i32_e32 v13, 31, v6
	; GCN-NEXT: v_add_i32_e32 v6, vcc, v13, v6
	; GCN-NEXT: v_ashrrev_i32_e32 v10, 31, v1			; GCN-NEXT: v_ashrrev_i32_e32 v10, 31, v1
	; GCN-NEXT: v_rcp_iflag_f32_e32 v8, v8			; GCN-NEXT: v_add_i32_e32 v5, vcc, v11, v5
				; GCN-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
				; GCN-NEXT: v_cvt_u32_f32_e32 v8, v8
				; GCN-NEXT: v_add_i32_e32 v6, vcc, v13, v6
				; GCN-NEXT: v_add_i32_e32 v1, vcc, v10, v1
				; GCN-NEXT: v_mul_lo_u32 v9, v9, v8
				; GCN-NEXT: v_xor_b32_e32 v5, v5, v11
	; GCN-NEXT: v_xor_b32_e32 v6, v6, v13			; GCN-NEXT: v_xor_b32_e32 v6, v6, v13
	; GCN-NEXT: v_mul_f32_e32 v9, s2, v9
	; GCN-NEXT: v_xor_b32_e32 v16, v10, v11			; GCN-NEXT: v_xor_b32_e32 v16, v10, v11
				; GCN-NEXT: v_mul_hi_u32 v9, v8, v9
				; GCN-NEXT: v_xor_b32_e32 v1, v1, v10
				; GCN-NEXT: v_cvt_f32_u32_e32 v10, v5
	; GCN-NEXT: v_cvt_f32_u32_e32 v11, v6			; GCN-NEXT: v_cvt_f32_u32_e32 v11, v6
	; GCN-NEXT: v_cvt_u32_f32_e32 v9, v9			; GCN-NEXT: v_add_i32_e32 v8, vcc, v9, v8
				; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10
				; GCN-NEXT: v_rcp_iflag_f32_e32 v11, v11
				; GCN-NEXT: v_mul_hi_u32 v8, v0, v8
	; GCN-NEXT: v_ashrrev_i32_e32 v12, 31, v2			; GCN-NEXT: v_ashrrev_i32_e32 v12, 31, v2
				; GCN-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10
				; GCN-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11
				; GCN-NEXT: v_mul_lo_u32 v11, v8, v4
				; GCN-NEXT: v_cvt_u32_f32_e32 v9, v9
	; GCN-NEXT: v_add_i32_e32 v2, vcc, v12, v2			; GCN-NEXT: v_add_i32_e32 v2, vcc, v12, v2
	; GCN-NEXT: v_xor_b32_e32 v17, v12, v13			; GCN-NEXT: v_xor_b32_e32 v17, v12, v13
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v12			; GCN-NEXT: v_xor_b32_e32 v2, v2, v12
	; GCN-NEXT: v_mul_f32_e32 v8, s2, v8
	; GCN-NEXT: v_sub_i32_e32 v12, vcc, 0, v5			; GCN-NEXT: v_sub_i32_e32 v12, vcc, 0, v5
	; GCN-NEXT: v_cvt_u32_f32_e32 v8, v8			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v11
	; GCN-NEXT: v_rcp_iflag_f32_e32 v11, v11			; GCN-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GCN-NEXT: v_mul_lo_u32 v12, v12, v9			; GCN-NEXT: v_mul_lo_u32 v12, v12, v9
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v10, v1			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8
	; GCN-NEXT: v_xor_b32_e32 v1, v1, v10			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; GCN-NEXT: v_sub_i32_e32 v10, vcc, 0, v4			; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; GCN-NEXT: v_mul_lo_u32 v10, v10, v8			; GCN-NEXT: v_sub_i32_e32 v11, vcc, v0, v4
	; GCN-NEXT: v_mul_hi_u32 v12, v9, v12
	; GCN-NEXT: v_mul_f32_e32 v11, s2, v11
	; GCN-NEXT: v_cvt_u32_f32_e32 v11, v11
	; GCN-NEXT: v_mul_hi_u32 v10, v8, v10
	; GCN-NEXT: v_add_i32_e32 v9, vcc, v12, v9
	; GCN-NEXT: v_sub_i32_e32 v12, vcc, 0, v6
	; GCN-NEXT: v_mul_lo_u32 v12, v12, v11
	; GCN-NEXT: v_add_i32_e32 v8, vcc, v10, v8
	; GCN-NEXT: v_mul_hi_u32 v8, v0, v8
	; GCN-NEXT: v_mul_hi_u32 v12, v11, v12
	; GCN-NEXT: v_ashrrev_i32_e32 v14, 31, v7			; GCN-NEXT: v_ashrrev_i32_e32 v14, 31, v7
				; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v7, vcc, v14, v7			; GCN-NEXT: v_add_i32_e32 v7, vcc, v14, v7
	; GCN-NEXT: v_xor_b32_e32 v7, v7, v14
	; GCN-NEXT: v_cvt_f32_u32_e32 v10, v7
	; GCN-NEXT: v_add_i32_e32 v11, vcc, v12, v11
	; GCN-NEXT: v_mul_lo_u32 v12, v8, v4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GCN-NEXT: v_mul_hi_u32 v9, v1, v9
	; GCN-NEXT: v_mul_hi_u32 v11, v2, v11
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v0, v12
	; GCN-NEXT: v_add_i32_e32 v12, vcc, 1, v8
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v12, s[0:1]			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0, v6
	; GCN-NEXT: v_sub_i32_e32 v12, vcc, v0, v4			; GCN-NEXT: v_mul_lo_u32 v0, v0, v10
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v12, s[0:1]			; GCN-NEXT: v_xor_b32_e32 v4, v7, v14
	; GCN-NEXT: v_mul_f32_e32 v10, s2, v10			; GCN-NEXT: v_mul_hi_u32 v7, v9, v12
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; GCN-NEXT: v_cvt_f32_u32_e32 v12, v4
	; GCN-NEXT: v_mul_lo_u32 v0, v9, v5			; GCN-NEXT: v_mul_hi_u32 v0, v10, v0
	; GCN-NEXT: v_cvt_u32_f32_e32 v4, v10			; GCN-NEXT: v_add_i32_e32 v11, vcc, 1, v8
	; GCN-NEXT: v_mul_lo_u32 v10, v11, v6			; GCN-NEXT: v_add_i32_e32 v7, vcc, v7, v9
	; GCN-NEXT: v_add_i32_e32 v12, vcc, 1, v8			; GCN-NEXT: v_mul_hi_u32 v7, v1, v7
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v10
	; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v9			; GCN-NEXT: v_mul_hi_u32 v0, v2, v0
				; GCN-NEXT: v_mul_lo_u32 v10, v7, v5
				; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12
				; GCN-NEXT: v_sub_i32_e32 v9, vcc, 0, v4
				; GCN-NEXT: v_sub_i32_e32 v1, vcc, v1, v10
				; GCN-NEXT: v_mul_lo_u32 v10, v0, v6
				; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
				; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
				; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v10			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v10
	; GCN-NEXT: v_cmp_ge_u32_e64 s[2:3], v0, v5			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v7
	; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v11			; GCN-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; GCN-NEXT: v_cndmask_b32_e64 v1, v9, v1, s[2:3]			; GCN-NEXT: v_add_i32_e32 v10, vcc, 1, v0
	; GCN-NEXT: v_sub_i32_e32 v9, vcc, v0, v5
	; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; GCN-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; GCN-NEXT: v_cndmask_b32_e64 v10, v11, v10, s[4:5]			; GCN-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; GCN-NEXT: v_sub_i32_e32 v11, vcc, v2, v6			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v5
	; GCN-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[2:3]			; GCN-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; GCN-NEXT: v_add_i32_e32 v9, vcc, 1, v1			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v2, v6
				; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]
				; GCN-NEXT: v_add_i32_e32 v1, vcc, 1, v7
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5
	; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v12, s[0:1]			; GCN-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v9, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc
	; GCN-NEXT: v_xor_b32_e32 v1, v8, v15			; GCN-NEXT: v_xor_b32_e32 v1, v8, v15
	; GCN-NEXT: v_xor_b32_e32 v5, v0, v16			; GCN-NEXT: v_xor_b32_e32 v5, v0, v16
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v15			; GCN-NEXT: v_sub_i32_e32 v0, vcc, v1, v15
	; GCN-NEXT: v_sub_i32_e32 v1, vcc, v5, v16			; GCN-NEXT: v_sub_i32_e32 v1, vcc, v5, v16
	; GCN-NEXT: v_sub_i32_e32 v5, vcc, 0, v7			; GCN-NEXT: v_mul_lo_u32 v5, v9, v12
	; GCN-NEXT: v_mul_lo_u32 v5, v5, v4			; GCN-NEXT: v_ashrrev_i32_e32 v8, 31, v3
	; GCN-NEXT: v_ashrrev_i32_e32 v9, 31, v3			; GCN-NEXT: v_add_i32_e32 v3, vcc, v8, v3
	; GCN-NEXT: v_add_i32_e32 v3, vcc, v9, v3			; GCN-NEXT: v_mul_hi_u32 v5, v12, v5
	; GCN-NEXT: v_mul_hi_u32 v5, v4, v5			; GCN-NEXT: v_xor_b32_e32 v3, v3, v8
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v9			; GCN-NEXT: v_add_i32_e32 v7, vcc, 1, v10
	; GCN-NEXT: v_cndmask_b32_e64 v2, v2, v11, s[4:5]			; GCN-NEXT: v_add_i32_e32 v5, vcc, v5, v12
	; GCN-NEXT: v_add_i32_e32 v8, vcc, 1, v10			; GCN-NEXT: v_mul_hi_u32 v5, v3, v5
	; GCN-NEXT: v_add_i32_e32 v4, vcc, v5, v4
	; GCN-NEXT: v_mul_hi_u32 v4, v3, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v8, vcc			; GCN-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; GCN-NEXT: v_xor_b32_e32 v2, v2, v17			; GCN-NEXT: v_xor_b32_e32 v2, v2, v17
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v7			; GCN-NEXT: v_mul_lo_u32 v6, v5, v4
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v17			; GCN-NEXT: v_sub_i32_e32 v2, vcc, v2, v17
	; GCN-NEXT: v_xor_b32_e32 v6, v9, v14			; GCN-NEXT: v_xor_b32_e32 v7, v8, v14
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v5
	; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v7
	; GCN-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[0:1]
	; GCN-NEXT: v_sub_i32_e32 v5, vcc, v3, v7
	; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]
	; GCN-NEXT: v_add_i32_e32 v5, vcc, 1, v4
	; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7
	; GCN-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc
	; GCN-NEXT: v_xor_b32_e32 v3, v3, v6
	; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v6			; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v6
				; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
				; GCN-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4
				; GCN-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
				; GCN-NEXT: v_sub_i32_e32 v6, vcc, v3, v4
				; GCN-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
				; GCN-NEXT: v_add_i32_e32 v6, vcc, 1, v5
				; GCN-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
				; GCN-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
				; GCN-NEXT: v_xor_b32_e32 v3, v3, v7
				; GCN-NEXT: v_sub_i32_e32 v3, vcc, v3, v7
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; TONGA-LABEL: sdiv_v4i32:			; TONGA-LABEL: sdiv_v4i32:
	; TONGA: ; %bb.0:			; TONGA: ; %bb.0:
	; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; TONGA-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; TONGA-NEXT: s_mov_b32 s11, 0xf000			; TONGA-NEXT: s_mov_b32 s11, 0xf000
	; TONGA-NEXT: s_mov_b32 s10, -1			; TONGA-NEXT: s_mov_b32 s10, -1
	; TONGA-NEXT: s_mov_b32 s6, s10			; TONGA-NEXT: s_mov_b32 s6, s10
	; TONGA-NEXT: s_mov_b32 s7, s11			; TONGA-NEXT: s_mov_b32 s7, s11
	; TONGA-NEXT: s_waitcnt lgkmcnt(0)			; TONGA-NEXT: s_waitcnt lgkmcnt(0)
	; TONGA-NEXT: s_mov_b32 s4, s2			; TONGA-NEXT: s_mov_b32 s4, s2
	; TONGA-NEXT: s_mov_b32 s5, s3			; TONGA-NEXT: s_mov_b32 s5, s3
	; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0			; TONGA-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0
	; TONGA-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; TONGA-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16
	; TONGA-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; TONGA-NEXT: s_mov_b32 s8, s0			; TONGA-NEXT: s_mov_b32 s8, s0
	; TONGA-NEXT: s_mov_b32 s9, s1			; TONGA-NEXT: s_mov_b32 s9, s1
	; TONGA-NEXT: s_waitcnt vmcnt(1)			; TONGA-NEXT: s_waitcnt vmcnt(1)
	; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; TONGA-NEXT: s_waitcnt vmcnt(0)			; TONGA-NEXT: s_waitcnt vmcnt(0)
	; TONGA-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	; TONGA-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; TONGA-NEXT: v_ashrrev_i32_e32 v9, 31, v4
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, v11, v5
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, v9, v4			; TONGA-NEXT: v_add_u32_e32 v4, vcc, v9, v4
	; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11
	; TONGA-NEXT: v_xor_b32_e32 v15, v8, v9
	; TONGA-NEXT: v_xor_b32_e32 v4, v4, v9
	; TONGA-NEXT: v_cvt_f32_u32_e32 v9, v5
	; TONGA-NEXT: v_add_u32_e32 v0, vcc, v8, v0			; TONGA-NEXT: v_add_u32_e32 v0, vcc, v8, v0
				; TONGA-NEXT: v_xor_b32_e32 v4, v4, v9
				; TONGA-NEXT: v_xor_b32_e32 v15, v8, v9
	; TONGA-NEXT: v_xor_b32_e32 v0, v0, v8			; TONGA-NEXT: v_xor_b32_e32 v0, v0, v8
	; TONGA-NEXT: v_cvt_f32_u32_e32 v8, v4			; TONGA-NEXT: v_cvt_f32_u32_e32 v8, v4
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v9, v9			; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4
				; TONGA-NEXT: v_ashrrev_i32_e32 v11, 31, v5
				; TONGA-NEXT: v_rcp_iflag_f32_e32 v8, v8
	; TONGA-NEXT: v_ashrrev_i32_e32 v13, 31, v6			; TONGA-NEXT: v_ashrrev_i32_e32 v13, 31, v6
	; TONGA-NEXT: v_add_u32_e32 v6, vcc, v13, v6
	; TONGA-NEXT: v_ashrrev_i32_e32 v10, 31, v1			; TONGA-NEXT: v_ashrrev_i32_e32 v10, 31, v1
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v8, v8			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v11, v5
				; TONGA-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
				; TONGA-NEXT: v_cvt_u32_f32_e32 v8, v8
				; TONGA-NEXT: v_add_u32_e32 v6, vcc, v13, v6
				; TONGA-NEXT: v_add_u32_e32 v1, vcc, v10, v1
				; TONGA-NEXT: v_mul_lo_u32 v9, v9, v8
				; TONGA-NEXT: v_xor_b32_e32 v5, v5, v11
	; TONGA-NEXT: v_xor_b32_e32 v6, v6, v13			; TONGA-NEXT: v_xor_b32_e32 v6, v6, v13
	; TONGA-NEXT: v_mul_f32_e32 v9, s2, v9
	; TONGA-NEXT: v_xor_b32_e32 v16, v10, v11			; TONGA-NEXT: v_xor_b32_e32 v16, v10, v11
				; TONGA-NEXT: v_mul_hi_u32 v9, v8, v9
				; TONGA-NEXT: v_xor_b32_e32 v1, v1, v10
				; TONGA-NEXT: v_cvt_f32_u32_e32 v10, v5
	; TONGA-NEXT: v_cvt_f32_u32_e32 v11, v6			; TONGA-NEXT: v_cvt_f32_u32_e32 v11, v6
	; TONGA-NEXT: v_cvt_u32_f32_e32 v9, v9			; TONGA-NEXT: v_add_u32_e32 v8, vcc, v9, v8
				; TONGA-NEXT: v_rcp_iflag_f32_e32 v10, v10
				; TONGA-NEXT: v_rcp_iflag_f32_e32 v11, v11
				; TONGA-NEXT: v_mul_hi_u32 v8, v0, v8
	; TONGA-NEXT: v_ashrrev_i32_e32 v12, 31, v2			; TONGA-NEXT: v_ashrrev_i32_e32 v12, 31, v2
				; TONGA-NEXT: v_mul_f32_e32 v9, 0x4f7ffffe, v10
				; TONGA-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v11
				; TONGA-NEXT: v_mul_lo_u32 v11, v8, v4
				; TONGA-NEXT: v_cvt_u32_f32_e32 v9, v9
	; TONGA-NEXT: v_add_u32_e32 v2, vcc, v12, v2			; TONGA-NEXT: v_add_u32_e32 v2, vcc, v12, v2
	; TONGA-NEXT: v_xor_b32_e32 v17, v12, v13			; TONGA-NEXT: v_xor_b32_e32 v17, v12, v13
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v12			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v12
	; TONGA-NEXT: v_mul_f32_e32 v8, s2, v8
	; TONGA-NEXT: v_sub_u32_e32 v12, vcc, 0, v5			; TONGA-NEXT: v_sub_u32_e32 v12, vcc, 0, v5
	; TONGA-NEXT: v_cvt_u32_f32_e32 v8, v8			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v11
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v11, v11			; TONGA-NEXT: v_cvt_u32_f32_e32 v10, v10
	; TONGA-NEXT: v_mul_lo_u32 v12, v12, v9			; TONGA-NEXT: v_mul_lo_u32 v12, v12, v9
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, v10, v1			; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8
	; TONGA-NEXT: v_xor_b32_e32 v1, v1, v10			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_sub_u32_e32 v10, vcc, 0, v4			; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; TONGA-NEXT: v_mul_lo_u32 v10, v10, v8			; TONGA-NEXT: v_sub_u32_e32 v11, vcc, v0, v4
	; TONGA-NEXT: v_mul_hi_u32 v12, v9, v12
	; TONGA-NEXT: v_mul_f32_e32 v11, s2, v11
	; TONGA-NEXT: v_cvt_u32_f32_e32 v11, v11
	; TONGA-NEXT: v_mul_hi_u32 v10, v8, v10
	; TONGA-NEXT: v_add_u32_e32 v9, vcc, v12, v9
	; TONGA-NEXT: v_sub_u32_e32 v12, vcc, 0, v6
	; TONGA-NEXT: v_mul_lo_u32 v12, v12, v11
	; TONGA-NEXT: v_add_u32_e32 v8, vcc, v10, v8
	; TONGA-NEXT: v_mul_hi_u32 v8, v0, v8
	; TONGA-NEXT: v_mul_hi_u32 v12, v11, v12
	; TONGA-NEXT: v_ashrrev_i32_e32 v14, 31, v7			; TONGA-NEXT: v_ashrrev_i32_e32 v14, 31, v7
				; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v11, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v7, vcc, v14, v7			; TONGA-NEXT: v_add_u32_e32 v7, vcc, v14, v7
	; TONGA-NEXT: v_xor_b32_e32 v7, v7, v14
	; TONGA-NEXT: v_cvt_f32_u32_e32 v10, v7
	; TONGA-NEXT: v_add_u32_e32 v11, vcc, v12, v11
	; TONGA-NEXT: v_mul_lo_u32 v12, v8, v4
	; TONGA-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; TONGA-NEXT: v_mul_hi_u32 v9, v1, v9
	; TONGA-NEXT: v_mul_hi_u32 v11, v2, v11
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v0, v12
	; TONGA-NEXT: v_add_u32_e32 v12, vcc, 1, v8
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v12, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v12, vcc, v0, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v12, s[0:1]
	; TONGA-NEXT: v_mul_f32_e32 v10, s2, v10
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v0, v4
	; TONGA-NEXT: v_mul_lo_u32 v0, v9, v5			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, 0, v6
	; TONGA-NEXT: v_cvt_u32_f32_e32 v4, v10			; TONGA-NEXT: v_mul_lo_u32 v0, v0, v10
	; TONGA-NEXT: v_mul_lo_u32 v10, v11, v6			; TONGA-NEXT: v_xor_b32_e32 v4, v7, v14
	; TONGA-NEXT: v_add_u32_e32 v12, vcc, 1, v8			; TONGA-NEXT: v_mul_hi_u32 v7, v9, v12
	; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v1, v0			; TONGA-NEXT: v_cvt_f32_u32_e32 v12, v4
	; TONGA-NEXT: v_add_u32_e32 v1, vcc, 1, v9			; TONGA-NEXT: v_mul_hi_u32 v0, v10, v0
				; TONGA-NEXT: v_add_u32_e32 v11, vcc, 1, v8
				; TONGA-NEXT: v_add_u32_e32 v7, vcc, v7, v9
				; TONGA-NEXT: v_mul_hi_u32 v7, v1, v7
				; TONGA-NEXT: v_add_u32_e32 v0, vcc, v0, v10
				; TONGA-NEXT: v_mul_hi_u32 v0, v2, v0
				; TONGA-NEXT: v_mul_lo_u32 v10, v7, v5
				; TONGA-NEXT: v_rcp_iflag_f32_e32 v12, v12
				; TONGA-NEXT: v_sub_u32_e32 v9, vcc, 0, v4
				; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v1, v10
				; TONGA-NEXT: v_mul_lo_u32 v10, v0, v6
				; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v1, v5
				; TONGA-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
				; TONGA-NEXT: v_cvt_u32_f32_e32 v12, v12
	; TONGA-NEXT: v_sub_u32_e32 v2, vcc, v2, v10			; TONGA-NEXT: v_sub_u32_e32 v2, vcc, v2, v10
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[2:3], v0, v5			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v7
	; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v11			; TONGA-NEXT: v_cndmask_b32_e64 v7, v7, v10, s[2:3]
	; TONGA-NEXT: v_cndmask_b32_e64 v1, v9, v1, s[2:3]			; TONGA-NEXT: v_add_u32_e32 v10, vcc, 1, v0
	; TONGA-NEXT: v_sub_u32_e32 v9, vcc, v0, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e64 s[4:5], v2, v6
	; TONGA-NEXT: v_cndmask_b32_e64 v10, v11, v10, s[4:5]			; TONGA-NEXT: v_cndmask_b32_e64 v10, v0, v10, s[4:5]
	; TONGA-NEXT: v_sub_u32_e32 v11, vcc, v2, v6			; TONGA-NEXT: v_sub_u32_e32 v0, vcc, v1, v5
	; TONGA-NEXT: v_cndmask_b32_e64 v0, v0, v9, s[2:3]			; TONGA-NEXT: v_cndmask_b32_e64 v0, v1, v0, s[2:3]
	; TONGA-NEXT: v_add_u32_e32 v9, vcc, 1, v1			; TONGA-NEXT: v_sub_u32_e32 v1, vcc, v2, v6
				; TONGA-NEXT: v_cndmask_b32_e64 v2, v2, v1, s[4:5]
				; TONGA-NEXT: v_add_u32_e32 v1, vcc, 1, v7
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v0, v5
	; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v12, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v8, v8, v11, s[0:1]
	; TONGA-NEXT: v_cndmask_b32_e32 v0, v1, v9, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v0, v7, v1, vcc
	; TONGA-NEXT: v_xor_b32_e32 v1, v8, v15			; TONGA-NEXT: v_xor_b32_e32 v1, v8, v15
	; TONGA-NEXT: v_xor_b32_e32 v5, v0, v16			; TONGA-NEXT: v_xor_b32_e32 v5, v0, v16
	; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v15, v1			; TONGA-NEXT: v_subrev_u32_e32 v0, vcc, v15, v1
	; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v16, v5			; TONGA-NEXT: v_subrev_u32_e32 v1, vcc, v16, v5
	; TONGA-NEXT: v_sub_u32_e32 v5, vcc, 0, v7			; TONGA-NEXT: v_mul_lo_u32 v5, v9, v12
	; TONGA-NEXT: v_mul_lo_u32 v5, v5, v4			; TONGA-NEXT: v_ashrrev_i32_e32 v8, 31, v3
	; TONGA-NEXT: v_ashrrev_i32_e32 v9, 31, v3			; TONGA-NEXT: v_add_u32_e32 v3, vcc, v8, v3
	; TONGA-NEXT: v_add_u32_e32 v3, vcc, v9, v3			; TONGA-NEXT: v_mul_hi_u32 v5, v12, v5
	; TONGA-NEXT: v_mul_hi_u32 v5, v4, v5			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v8
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v9			; TONGA-NEXT: v_add_u32_e32 v7, vcc, 1, v10
	; TONGA-NEXT: v_cndmask_b32_e64 v2, v2, v11, s[4:5]			; TONGA-NEXT: v_add_u32_e32 v5, vcc, v5, v12
	; TONGA-NEXT: v_add_u32_e32 v8, vcc, 1, v10			; TONGA-NEXT: v_mul_hi_u32 v5, v3, v5
	; TONGA-NEXT: v_add_u32_e32 v4, vcc, v5, v4
	; TONGA-NEXT: v_mul_hi_u32 v4, v3, v4
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v2, v6
	; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v8, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17			; TONGA-NEXT: v_xor_b32_e32 v2, v2, v17
	; TONGA-NEXT: v_mul_lo_u32 v5, v4, v7			; TONGA-NEXT: v_mul_lo_u32 v6, v5, v4
	; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2			; TONGA-NEXT: v_subrev_u32_e32 v2, vcc, v17, v2
	; TONGA-NEXT: v_xor_b32_e32 v6, v9, v14			; TONGA-NEXT: v_xor_b32_e32 v7, v8, v14
	; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v5			; TONGA-NEXT: v_sub_u32_e32 v3, vcc, v3, v6
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v7			; TONGA-NEXT: v_cmp_ge_u32_e64 s[0:1], v3, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v4, v4, v5, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v5, v5, v6, s[0:1]
	; TONGA-NEXT: v_sub_u32_e32 v5, vcc, v3, v7			; TONGA-NEXT: v_sub_u32_e32 v6, vcc, v3, v4
	; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v5, s[0:1]			; TONGA-NEXT: v_cndmask_b32_e64 v3, v3, v6, s[0:1]
	; TONGA-NEXT: v_add_u32_e32 v5, vcc, 1, v4			; TONGA-NEXT: v_add_u32_e32 v6, vcc, 1, v5
	; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v7			; TONGA-NEXT: v_cmp_ge_u32_e32 vcc, v3, v4
	; TONGA-NEXT: v_cndmask_b32_e32 v3, v4, v5, vcc			; TONGA-NEXT: v_cndmask_b32_e32 v3, v5, v6, vcc
	; TONGA-NEXT: v_xor_b32_e32 v3, v3, v6			; TONGA-NEXT: v_xor_b32_e32 v3, v3, v7
	; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v6, v3			; TONGA-NEXT: v_subrev_u32_e32 v3, vcc, v7, v3
	; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0			; TONGA-NEXT: buffer_store_dwordx4 v[0:3], off, s[8:11], 0
	; TONGA-NEXT: s_endpgm			; TONGA-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sdiv_v4i32:			; GFX9-LABEL: sdiv_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b32 s11, 0xf000			; GFX9-NEXT: s_mov_b32 s11, 0xf000
	; GFX9-NEXT: s_mov_b32 s10, -1			; GFX9-NEXT: s_mov_b32 s10, -1
	; GFX9-NEXT: s_mov_b32 s6, s10			; GFX9-NEXT: s_mov_b32 s6, s10
	; GFX9-NEXT: s_mov_b32 s7, s11			; GFX9-NEXT: s_mov_b32 s7, s11
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_mov_b32 s4, s2			; GFX9-NEXT: s_mov_b32 s4, s2
	; GFX9-NEXT: s_mov_b32 s5, s3			; GFX9-NEXT: s_mov_b32 s5, s3
	; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0
	; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16			; GFX9-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16
	; GFX9-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX9-NEXT: s_mov_b32 s8, s0			; GFX9-NEXT: s_mov_b32 s8, s0
	; GFX9-NEXT: s_mov_b32 s9, s1			; GFX9-NEXT: s_mov_b32 s9, s1
	; GFX9-NEXT: s_waitcnt vmcnt(1)			; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0			; GFX9-NEXT: v_ashrrev_i32_e32 v8, 31, v0
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v4			; GFX9-NEXT: v_ashrrev_i32_e32 v9, 31, v4
	; GFX9-NEXT: v_add_u32_e32 v4, v4, v9			; GFX9-NEXT: v_add_u32_e32 v4, v4, v9
	; GFX9-NEXT: v_ashrrev_i32_e32 v11, 31, v5			; GFX9-NEXT: v_ashrrev_i32_e32 v11, 31, v5
	Show All 24 Lines
	; GFX9-NEXT: v_cvt_f32_u32_e32 v12, v6			; GFX9-NEXT: v_cvt_f32_u32_e32 v12, v6
	; GFX9-NEXT: v_xor_b32_e32 v19, v14, v15			; GFX9-NEXT: v_xor_b32_e32 v19, v14, v15
	; GFX9-NEXT: v_xor_b32_e32 v3, v3, v14			; GFX9-NEXT: v_xor_b32_e32 v3, v3, v14
	; GFX9-NEXT: v_cvt_f32_u32_e32 v14, v7			; GFX9-NEXT: v_cvt_f32_u32_e32 v14, v7
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v8			; GFX9-NEXT: v_rcp_iflag_f32_e32 v8, v8
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v10, v10			; GFX9-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GFX9-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; GFX9-NEXT: v_rcp_iflag_f32_e32 v14, v14			; GFX9-NEXT: v_rcp_iflag_f32_e32 v14, v14
	; GFX9-NEXT: v_mul_f32_e32 v8, s2, v8			; GFX9-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
	; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v8			; GFX9-NEXT: v_cvt_u32_f32_e32 v8, v8
	; GFX9-NEXT: v_mul_f32_e32 v10, s2, v10			; GFX9-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10
	; GFX9-NEXT: v_mul_f32_e32 v12, s2, v12			; GFX9-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v10			; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GFX9-NEXT: v_sub_u32_e32 v9, 0, v4			; GFX9-NEXT: v_sub_u32_e32 v9, 0, v4
	; GFX9-NEXT: v_mul_f32_e32 v14, s2, v14			; GFX9-NEXT: v_mul_f32_e32 v14, 0x4f7ffffe, v14
	; GFX9-NEXT: v_cvt_u32_f32_e32 v12, v12			; GFX9-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GFX9-NEXT: v_cvt_u32_f32_e32 v14, v14			; GFX9-NEXT: v_cvt_u32_f32_e32 v14, v14
	; GFX9-NEXT: v_mul_lo_u32 v9, v9, v8			; GFX9-NEXT: v_mul_lo_u32 v9, v9, v8
	; GFX9-NEXT: v_sub_u32_e32 v11, 0, v5			; GFX9-NEXT: v_sub_u32_e32 v11, 0, v5
	; GFX9-NEXT: v_sub_u32_e32 v13, 0, v6			; GFX9-NEXT: v_sub_u32_e32 v13, 0, v6
	; GFX9-NEXT: v_mul_lo_u32 v11, v11, v10			; GFX9-NEXT: v_mul_lo_u32 v11, v11, v10
	; GFX9-NEXT: v_sub_u32_e32 v15, 0, v7			; GFX9-NEXT: v_sub_u32_e32 v15, 0, v7
	; GFX9-NEXT: v_mul_lo_u32 v13, v13, v12			; GFX9-NEXT: v_mul_lo_u32 v13, v13, v12
	▲ Show 20 Lines • Show All 1,224 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sdiv64.ll

	Show First 20 Lines • Show All 1,788 Lines • ▼ Show 20 Lines
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-NEXT: s_mov_b32 s3, 0x41c00000			; GCN-NEXT: s_mov_b32 s3, 0x41c00000
	; GCN-NEXT: s_mov_b32 s4, s0			; GCN-NEXT: s_mov_b32 s4, s0
	; GCN-NEXT: s_ashr_i32 s0, s2, 30			; GCN-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: s_or_b32 s0, s0, 1			; GCN-NEXT: s_or_b32 s0, s0, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s0			; GCN-NEXT: v_mov_b32_e32 v3, s0
	; GCN-NEXT: s_mov_b32 s5, s1			; GCN-NEXT: s_mov_b32 s5, s1
	; GCN-NEXT: v_mul_f32_e32 v1, s3, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	Show All 10 Lines
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s2
	; GCN-IR-NEXT: s_mov_b32 s3, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s3, 0x41c00000
	; GCN-IR-NEXT: s_mov_b32 s4, s0			; GCN-IR-NEXT: s_mov_b32 s4, s0
	; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30			; GCN-IR-NEXT: s_ashr_i32 s0, s2, 30
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: s_or_b32 s0, s0, 1			; GCN-IR-NEXT: s_or_b32 s0, s0, 1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s0			; GCN-IR-NEXT: v_mov_b32_e32 v3, s0
	; GCN-IR-NEXT: s_mov_b32 s5, s1			; GCN-IR-NEXT: s_mov_b32 s5, s1
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s3, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3			; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s3
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v3, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v3, -v2, v1, s4
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_sdiv24_k_num_i64:			; GCN-IR-LABEL: v_test_sdiv24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-IR-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-IR-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v3, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v3, -v2, v1, s4
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%x.shr = ashr i64 %x, 40			%x.shr = ashr i64 %x, 40
	%result = sdiv i64 24, %x.shr			%result = sdiv i64 24, %x.shr
	ret i64 %result			ret i64 %result
	}			}

	define i64 @v_test_sdiv24_pow2_k_num_i64(i64 %x) {			define i64 @v_test_sdiv24_pow2_k_num_i64(i64 %x) {
	; GCN-LABEL: v_test_sdiv24_pow2_k_num_i64:			; GCN-LABEL: v_test_sdiv24_pow2_k_num_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-NEXT: s_mov_b32 s4, 0x47000000			; GCN-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v3, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v3, -v2, v1, s4
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_sdiv24_pow2_k_num_i64:			; GCN-IR-LABEL: v_test_sdiv24_pow2_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000			; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v0, 30, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v0, 30, v0
	; GCN-IR-NEXT: v_or_b32_e32 v0, 1, v0			; GCN-IR-NEXT: v_or_b32_e32 v0, 1, v0
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v3, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v3, -v2, v1, s4
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v3\|, \|v1\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v0, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-IR-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	Show All 39 Lines

llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll

	Show First 20 Lines • Show All 501 Lines • ▼ Show 20 Lines
	store_label:			store_label:
	store <2 x i16> %add, <2 x i16> addrspace(1)* %out, align 4			store <2 x i16> %add, <2 x i16> addrspace(1)* %out, align 4
	ret void			ret void
	}			}


	; Check that "pulling out" SDWA operands works correctly.			; Check that "pulling out" SDWA operands works correctly.
	; GCN-LABEL: {{^}}pulled_out_test:			; GCN-LABEL: {{^}}pulled_out_test:
	; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}			; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xff, v{{[0-9]+}}
	; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}			; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
	; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}			; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xff, v{{[0-9]+}}
	; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}			; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
	; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; NOSDWA-NOT: v_and_b32_sdwa			; NOSDWA-NOT: v_and_b32_sdwa
	; NOSDWA-NOT: v_or_b32_sdwa			; NOSDWA-NOT: v_or_b32_sdwa

	; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, s{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, s{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.ll

	Show First 20 Lines • Show All 633 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, 0			; SI-NEXT: s_mov_b32 s6, 0
	; SI-NEXT: v_lshlrev_b32_e32 v4, 3, v0			; SI-NEXT: v_lshlrev_b32_e32 v4, 3, v0
	; SI-NEXT: v_mov_b32_e32 v5, 0			; SI-NEXT: v_mov_b32_e32 v5, 0
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b64 s[4:5], s[2:3]			; SI-NEXT: s_mov_b64 s[4:5], s[2:3]
	; SI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64			; SI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64
	; SI-NEXT: s_mov_b32 s4, 0xffff
	; SI-NEXT: s_mov_b64 s[2:3], s[6:7]			; SI-NEXT: s_mov_b64 s[2:3], s[6:7]
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; SI-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; SI-NEXT: v_lshrrev_b32_e32 v9, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v9, 16, v3
	; SI-NEXT: v_lshlrev_b32_e32 v1, v3, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, v3, v1
	; SI-NEXT: v_lshlrev_b32_e32 v0, v2, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, v2, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, v9, v7			; SI-NEXT: v_lshlrev_b32_e32 v2, v9, v7
	; SI-NEXT: v_lshlrev_b32_e32 v3, v8, v6			; SI-NEXT: v_lshlrev_b32_e32 v3, v8, v6
	; SI-NEXT: v_and_b32_e32 v1, s4, v1			; SI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; SI-NEXT: v_and_b32_e32 v0, s4, v0			; SI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; SI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; SI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; SI-NEXT: v_or_b32_e32 v1, v1, v2			; SI-NEXT: v_or_b32_e32 v1, v1, v2
	; SI-NEXT: v_or_b32_e32 v0, v0, v3			; SI-NEXT: v_or_b32_e32 v0, v0, v3
	; SI-NEXT: buffer_store_dwordx2 v[0:1], v[4:5], s[0:3], 0 addr64			; SI-NEXT: buffer_store_dwordx2 v[0:1], v[4:5], s[0:3], 0 addr64
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: shl_v4i16:			; VI-LABEL: shl_v4i16:
	▲ Show 20 Lines • Show All 1,563 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/shl.v2i16.ll

	Show First 20 Lines • Show All 484 Lines • ▼ Show 20 Lines
	; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; CI-NEXT: s_mov_b32 s7, 0xf000			; CI-NEXT: s_mov_b32 s7, 0xf000
	; CI-NEXT: s_mov_b32 s6, 0			; CI-NEXT: s_mov_b32 s6, 0
	; CI-NEXT: v_lshlrev_b32_e32 v4, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v4, 3, v0
	; CI-NEXT: v_mov_b32_e32 v5, 0			; CI-NEXT: v_mov_b32_e32 v5, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[4:5], s[2:3]			; CI-NEXT: s_mov_b64 s[4:5], s[2:3]
	; CI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64			; CI-NEXT: buffer_load_dwordx4 v[0:3], v[4:5], s[4:7], 0 addr64
	; CI-NEXT: s_mov_b32 s4, 0xffff
	; CI-NEXT: s_mov_b64 s[2:3], s[6:7]			; CI-NEXT: s_mov_b64 s[2:3], s[6:7]
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; CI-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v1			; CI-NEXT: v_lshrrev_b32_e32 v7, 16, v1
	; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; CI-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v3			; CI-NEXT: v_lshrrev_b32_e32 v9, 16, v3
	; CI-NEXT: v_lshlrev_b32_e32 v1, v3, v1			; CI-NEXT: v_lshlrev_b32_e32 v1, v3, v1
	; CI-NEXT: v_lshlrev_b32_e32 v0, v2, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, v2, v0
	; CI-NEXT: v_lshlrev_b32_e32 v2, v9, v7			; CI-NEXT: v_lshlrev_b32_e32 v2, v9, v7
	; CI-NEXT: v_lshlrev_b32_e32 v3, v8, v6			; CI-NEXT: v_lshlrev_b32_e32 v3, v8, v6
	; CI-NEXT: v_and_b32_e32 v1, s4, v1			; CI-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; CI-NEXT: v_and_b32_e32 v0, s4, v0			; CI-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; CI-NEXT: v_or_b32_e32 v1, v1, v2			; CI-NEXT: v_or_b32_e32 v1, v1, v2
	; CI-NEXT: v_or_b32_e32 v0, v0, v3			; CI-NEXT: v_or_b32_e32 v0, v0, v3
	; CI-NEXT: buffer_store_dwordx2 v[0:1], v[4:5], s[0:3], 0 addr64			; CI-NEXT: buffer_store_dwordx2 v[0:1], v[4:5], s[0:3], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_shl_v4i16:			; GFX10-LABEL: v_shl_v4i16:
	Show All 36 Lines
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0			; VI-NEXT: v_lshlrev_b32_e32 v2, 3, v0
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v1, s3			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2			; VI-NEXT: v_add_u32_e32 v0, vcc, s2, v2
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]			; VI-NEXT: flat_load_dwordx2 v[0:1], v[0:1]
	; VI-NEXT: s_mov_b32 s2, 0xff000000
	; VI-NEXT: v_mov_b32_e32 v3, s1			; VI-NEXT: v_mov_b32_e32 v3, s1
	; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2			; VI-NEXT: v_add_u32_e32 v2, vcc, s0, v2
	; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc			; VI-NEXT: v_addc_u32_e32 v3, vcc, 0, v3, vcc
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_lshlrev_b32_e32 v4, 8, v1			; VI-NEXT: v_lshlrev_b32_e32 v4, 8, v1
	; VI-NEXT: v_lshlrev_b16_e32 v5, 8, v0			; VI-NEXT: v_lshlrev_b16_e32 v5, 8, v0
	; VI-NEXT: v_lshlrev_b32_e32 v0, 8, v0			; VI-NEXT: v_lshlrev_b32_e32 v0, 8, v0
	; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v1			; VI-NEXT: v_lshlrev_b16_e32 v1, 8, v1
	; VI-NEXT: v_and_b32_e32 v4, s2, v4			; VI-NEXT: v_and_b32_e32 v4, 0xff000000, v4
	; VI-NEXT: v_and_b32_e32 v0, s2, v0			; VI-NEXT: v_and_b32_e32 v0, 0xff000000, v0
	; VI-NEXT: v_or_b32_e32 v1, v1, v4			; VI-NEXT: v_or_b32_e32 v1, v1, v4
	; VI-NEXT: v_or_b32_e32 v0, v5, v0			; VI-NEXT: v_or_b32_e32 v0, v5, v0
	; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; VI-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; CI-LABEL: shl_v_imm_v4i16:			; CI-LABEL: shl_v_imm_v4i16:
	; CI: ; %bb.0:			; CI: ; %bb.0:
	; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; CI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; CI-NEXT: s_mov_b32 s7, 0xf000			; CI-NEXT: s_mov_b32 s7, 0xf000
	; CI-NEXT: s_mov_b32 s6, 0			; CI-NEXT: s_mov_b32 s6, 0
	; CI-NEXT: v_lshlrev_b32_e32 v0, 3, v0			; CI-NEXT: v_lshlrev_b32_e32 v0, 3, v0
	; CI-NEXT: v_mov_b32_e32 v1, 0			; CI-NEXT: v_mov_b32_e32 v1, 0
	; CI-NEXT: s_waitcnt lgkmcnt(0)			; CI-NEXT: s_waitcnt lgkmcnt(0)
	; CI-NEXT: s_mov_b64 s[4:5], s[2:3]			; CI-NEXT: s_mov_b64 s[4:5], s[2:3]
	; CI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64			; CI-NEXT: buffer_load_dwordx2 v[2:3], v[0:1], s[4:7], 0 addr64
	; CI-NEXT: s_mov_b32 s4, 0xff00
	; CI-NEXT: s_mov_b64 s[2:3], s[6:7]			; CI-NEXT: s_mov_b64 s[2:3], s[6:7]
	; CI-NEXT: s_waitcnt vmcnt(0)			; CI-NEXT: s_waitcnt vmcnt(0)
	; CI-NEXT: v_lshrrev_b32_e32 v4, 8, v3			; CI-NEXT: v_lshrrev_b32_e32 v4, 8, v3
	; CI-NEXT: v_lshlrev_b32_e32 v3, 8, v3			; CI-NEXT: v_lshlrev_b32_e32 v3, 8, v3
	; CI-NEXT: v_and_b32_e32 v4, s4, v4			; CI-NEXT: v_and_b32_e32 v4, 0xff00, v4
	; CI-NEXT: v_lshlrev_b32_e32 v2, 8, v2			; CI-NEXT: v_lshlrev_b32_e32 v2, 8, v2
	; CI-NEXT: v_and_b32_e32 v3, s4, v3			; CI-NEXT: v_and_b32_e32 v3, 0xff00, v3
	; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; CI-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; CI-NEXT: v_or_b32_e32 v3, v3, v4			; CI-NEXT: v_or_b32_e32 v3, v3, v4
	; CI-NEXT: v_and_b32_e32 v2, 0xff00ff00, v2			; CI-NEXT: v_and_b32_e32 v2, 0xff00ff00, v2
	; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[0:3], 0 addr64			; CI-NEXT: buffer_store_dwordx2 v[2:3], v[0:1], s[0:3], 0 addr64
	; CI-NEXT: s_endpgm			; CI-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: shl_v_imm_v4i16:			; GFX10-LABEL: shl_v_imm_v4i16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/sra.ll

	Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_mov_b32 s10, s6			; SI-NEXT: s_mov_b32 s10, s6
	; SI-NEXT: s_mov_b32 s11, s7			; SI-NEXT: s_mov_b32 s11, s7
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: s_mov_b32 s2, 0xffff
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_bfe_i32 v4, v0, 0, 16			; SI-NEXT: v_bfe_i32 v4, v0, 0, 16
	; SI-NEXT: v_ashrrev_i32_e32 v0, 16, v0			; SI-NEXT: v_ashrrev_i32_e32 v0, 16, v0
	; SI-NEXT: v_bfe_i32 v5, v1, 0, 16			; SI-NEXT: v_bfe_i32 v5, v1, 0, 16
	; SI-NEXT: v_ashrrev_i32_e32 v1, 16, v1			; SI-NEXT: v_ashrrev_i32_e32 v1, 16, v1
	; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v2			; SI-NEXT: v_lshrrev_b32_e32 v6, 16, v2
	; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; SI-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; SI-NEXT: v_ashr_i32_e32 v1, v1, v7			; SI-NEXT: v_ashr_i32_e32 v1, v1, v7
	; SI-NEXT: v_ashr_i32_e32 v3, v5, v3			; SI-NEXT: v_ashr_i32_e32 v3, v5, v3
	; SI-NEXT: v_ashr_i32_e32 v0, v0, v6			; SI-NEXT: v_ashr_i32_e32 v0, v0, v6
	; SI-NEXT: v_ashr_i32_e32 v2, v4, v2			; SI-NEXT: v_ashr_i32_e32 v2, v4, v2
	; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; SI-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; SI-NEXT: v_and_b32_e32 v3, s2, v3			; SI-NEXT: v_and_b32_e32 v3, 0xffff, v3
	; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; SI-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; SI-NEXT: v_and_b32_e32 v2, s2, v2			; SI-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; SI-NEXT: v_or_b32_e32 v1, v3, v1			; SI-NEXT: v_or_b32_e32 v1, v3, v1
	; SI-NEXT: v_or_b32_e32 v0, v2, v0			; SI-NEXT: v_or_b32_e32 v0, v2, v0
	; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0			; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: ashr_v4i16:			; VI-LABEL: ashr_v4i16:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	▲ Show 20 Lines • Show All 662 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/srem-seteq-illegal-types.ll

	Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_srem_vec:			; CHECK-LABEL: test_srem_vec:
	; CHECK: ; %bb.0:			; CHECK: ; %bb.0:
	; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; CHECK-NEXT: v_bfe_i32 v3, v2, 0, 31			; CHECK-NEXT: v_bfe_i32 v3, v2, 0, 31
	; CHECK-NEXT: v_bfe_i32 v4, v1, 0, 31			; CHECK-NEXT: v_bfe_i32 v4, v1, 0, 31
	; CHECK-NEXT: v_bfe_i32 v5, v0, 0, 31			; CHECK-NEXT: v_bfe_i32 v5, v0, 0, 31
	; CHECK-NEXT: s_mov_b32 s4, 0x38e38e39			; CHECK-NEXT: s_mov_b32 s4, 0x38e38e39
	; CHECK-NEXT: s_mov_b32 s5, 0xc71c71c7			; CHECK-NEXT: s_mov_b32 s5, 0xc71c71c7
	; CHECK-NEXT: s_brev_b32 s6, -2			; CHECK-NEXT: s_mov_b32 s6, 0x7ffffffd
	; CHECK-NEXT: s_mov_b32 s7, 0x7ffffffd
	; CHECK-NEXT: v_mul_hi_i32 v5, v5, s4			; CHECK-NEXT: v_mul_hi_i32 v5, v5, s4
	; CHECK-NEXT: v_mul_hi_i32 v4, v4, s4			; CHECK-NEXT: v_mul_hi_i32 v4, v4, s4
	; CHECK-NEXT: v_mul_hi_i32 v3, v3, s5			; CHECK-NEXT: v_mul_hi_i32 v3, v3, s5
	; CHECK-NEXT: v_lshrrev_b32_e32 v6, 31, v5			; CHECK-NEXT: v_lshrrev_b32_e32 v6, 31, v5
	; CHECK-NEXT: v_lshrrev_b32_e32 v5, 1, v5			; CHECK-NEXT: v_lshrrev_b32_e32 v5, 1, v5
	; CHECK-NEXT: v_lshrrev_b32_e32 v7, 31, v4			; CHECK-NEXT: v_lshrrev_b32_e32 v7, 31, v4
	; CHECK-NEXT: v_lshrrev_b32_e32 v4, 1, v4			; CHECK-NEXT: v_lshrrev_b32_e32 v4, 1, v4
	; CHECK-NEXT: v_lshrrev_b32_e32 v8, 31, v3			; CHECK-NEXT: v_lshrrev_b32_e32 v8, 31, v3
	; CHECK-NEXT: v_lshrrev_b32_e32 v3, 1, v3			; CHECK-NEXT: v_lshrrev_b32_e32 v3, 1, v3
	; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6			; CHECK-NEXT: v_add_i32_e32 v5, vcc, v5, v6
	; CHECK-NEXT: v_add_i32_e32 v4, vcc, v4, v7			; CHECK-NEXT: v_add_i32_e32 v4, vcc, v4, v7
	; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v8			; CHECK-NEXT: v_add_i32_e32 v3, vcc, v3, v8
	; CHECK-NEXT: v_mul_lo_u32 v5, v5, 9			; CHECK-NEXT: v_mul_lo_u32 v5, v5, 9
	; CHECK-NEXT: v_mul_lo_u32 v4, v4, 9			; CHECK-NEXT: v_mul_lo_u32 v4, v4, 9
	; CHECK-NEXT: v_mul_lo_u32 v3, v3, -9			; CHECK-NEXT: v_mul_lo_u32 v3, v3, -9
	; CHECK-NEXT: v_sub_i32_e32 v0, vcc, v0, v5			; CHECK-NEXT: v_sub_i32_e32 v0, vcc, v0, v5
	; CHECK-NEXT: v_sub_i32_e32 v1, vcc, v1, v4			; CHECK-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
	; CHECK-NEXT: v_sub_i32_e32 v2, vcc, v2, v3			; CHECK-NEXT: v_sub_i32_e32 v2, vcc, v2, v3
	; CHECK-NEXT: v_and_b32_e32 v2, s6, v2			; CHECK-NEXT: v_and_b32_e32 v2, 0x7fffffff, v2
	; CHECK-NEXT: v_and_b32_e32 v1, s6, v1			; CHECK-NEXT: v_and_b32_e32 v1, 0x7fffffff, v1
	; CHECK-NEXT: v_and_b32_e32 v0, s6, v0			; CHECK-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
	; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 3, v0			; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 3, v0
	; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc			; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
	; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, s7, v1			; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, s6, v1
	; CHECK-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc			; CHECK-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
	; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 3, v2			; CHECK-NEXT: v_cmp_ne_u32_e32 vcc, 3, v2
	; CHECK-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc			; CHECK-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
	; CHECK-NEXT: s_setpc_b64 s[30:31]			; CHECK-NEXT: s_setpc_b64 s[30:31]
	%srem = srem <3 x i31> %X, <i31 9, i31 9, i31 -9>			%srem = srem <3 x i31> %X, <i31 9, i31 9, i31 -9>
	%cmp = icmp ne <3 x i31> %srem, <i31 3, i31 -3, i31 3>			%cmp = icmp ne <3 x i31> %srem, <i31 3, i31 -3, i31 3>
	ret <3 x i1> %cmp			ret <3 x i1> %cmp
	}			}

llvm/test/CodeGen/AMDGPU/srem64.ll

	Show First 20 Lines • Show All 1,958 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_ashr_i64 s[4:5], s[2:3], 40			; GCN-NEXT: s_ashr_i64 s[4:5], s[2:3], 40
	; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4			; GCN-NEXT: v_cvt_f32_i32_e32 v0, s4
	; GCN-NEXT: s_ashr_i32 s5, s4, 30			; GCN-NEXT: s_ashr_i32 s5, s4, 30
	; GCN-NEXT: s_or_b32 s5, s5, 1			; GCN-NEXT: s_or_b32 s5, s5, 1
	; GCN-NEXT: v_mov_b32_e32 v3, s5			; GCN-NEXT: v_mov_b32_e32 v3, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: v_mul_f32_e32 v1, s6, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_mad_f32 v2, -v1, v0, s6			; GCN-NEXT: v_mad_f32 v2, -v1, v0, s6
	; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	Show All 10 Lines
	; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[2:3], 40			; GCN-IR-NEXT: s_ashr_i64 s[4:5], s[2:3], 40
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v0, s4
	; GCN-IR-NEXT: s_ashr_i32 s5, s4, 30			; GCN-IR-NEXT: s_ashr_i32 s5, s4, 30
	; GCN-IR-NEXT: s_or_b32 s5, s5, 1			; GCN-IR-NEXT: s_or_b32 s5, s5, 1
	; GCN-IR-NEXT: v_mov_b32_e32 v3, s5			; GCN-IR-NEXT: v_mov_b32_e32 v3, s5
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s6, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s6			; GCN-IR-NEXT: v_mad_f32 v2, -v1, v0, s6
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, \|v0\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v0, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1			; GCN-IR-NEXT: v_add_i32_e32 v0, vcc, v0, v1
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v0
	; GCN-NEXT: v_or_b32_e32 v3, 1, v3			; GCN-NEXT: v_or_b32_e32 v3, 1, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v4, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v4, -v2, v1, s4
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_srem24_k_num_i64:			; GCN-IR-LABEL: v_test_srem24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 30, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 30, v0
	; GCN-IR-NEXT: v_or_b32_e32 v3, 1, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, 1, v3
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v4, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v4, -v2, v1, s4
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	Show All 10 Lines
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-NEXT: s_mov_b32 s4, 0x47000000			; GCN-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v0			; GCN-NEXT: v_ashrrev_i32_e32 v3, 30, v0
	; GCN-NEXT: v_or_b32_e32 v3, 1, v3			; GCN-NEXT: v_or_b32_e32 v3, 1, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_mad_f32 v4, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v4, -v2, v1, s4
	; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|
	; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc			; GCN-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
	; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
	; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24			; GCN-NEXT: v_bfe_i32 v0, v0, 0, 24
	; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GCN-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_srem24_pow2_k_num_i64:			; GCN-IR-LABEL: v_test_srem24_pow2_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40			; GCN-IR-NEXT: v_ashr_i64 v[0:1], v[0:1], 40
	; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000			; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_i32_e32 v1, v0
	; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 30, v0			; GCN-IR-NEXT: v_ashrrev_i32_e32 v3, 30, v0
	; GCN-IR-NEXT: v_or_b32_e32 v3, 1, v3			; GCN-IR-NEXT: v_or_b32_e32 v3, 1, v3
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_mad_f32 v4, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v4, -v2, v1, s4
	; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2			; GCN-IR-NEXT: v_cvt_i32_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v4\|, \|v1\|
	; GCN-IR-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc			; GCN-IR-NEXT: v_cndmask_b32_e32 v1, 0, v3, vcc
	; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1			; GCN-IR-NEXT: v_add_i32_e32 v1, vcc, v2, v1
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/ssubsat.ll

	Show First 20 Lines • Show All 128 Lines • ▼ Show 20 Lines
	; GFX6-LABEL: v_ssubsat_v2i16:			; GFX6-LABEL: v_ssubsat_v2i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v2i16:			; GFX8-LABEL: v_ssubsat_v2i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX8-NEXT: v_sub_u16_e32 v4, v3, v2			; GFX8-NEXT: v_sub_u16_e32 v4, v3, v2
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v4, v3			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v4, v3
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v2			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v2
	; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v4			; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v4
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v2, 0xffff8000, v2
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v1			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v1
	; GFX8-NEXT: v_sub_u16_e32 v1, v0, v1			; GFX8-NEXT: v_sub_u16_e32 v1, v0, v1
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v1, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v1, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v1			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v1
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v2i16:			; GFX9-LABEL: v_ssubsat_v2i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16			; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16			; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v5			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v5
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: s_mov_b32 s6, 0xffff			; GFX6-NEXT: v_min_i32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_min_i32_e32 v2, s4, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s6, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_max_i32_e32 v3, s5, v2			; GFX6-NEXT: v_max_i32_e32 v3, 0xffff8000, v2
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_and_b32_e32 v2, s6, v3			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v3
	; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16			; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v3i16:			; GFX8-LABEL: v_ssubsat_v3i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4			; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6			; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v4, 0xffff8000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v3, v1, v3			; GFX8-NEXT: v_sub_u16_e32 v3, v1, v3
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1
	; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3			; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0xffff8000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v2
	; GFX8-NEXT: v_sub_u16_e32 v2, v0, v2			; GFX8-NEXT: v_sub_u16_e32 v2, v0, v2
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v4
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v3i16:			; GFX9-LABEL: v_ssubsat_v3i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	; GFX6-LABEL: v_ssubsat_v4i16:			; GFX6-LABEL: v_ssubsat_v4i16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16			; GFX6-NEXT: v_bfe_i32 v4, v4, 0, 16
	; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16			; GFX6-NEXT: v_bfe_i32 v0, v0, 0, 16
	; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16			; GFX6-NEXT: v_bfe_i32 v5, v5, 0, 16
	; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16			; GFX6-NEXT: v_bfe_i32 v1, v1, 0, 16
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5
	; GFX6-NEXT: s_movk_i32 s4, 0x7fff
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: s_movk_i32 s5, 0x8000			; GFX6-NEXT: v_min_i32_e32 v0, 0x7fff, v0
	; GFX6-NEXT: v_min_i32_e32 v0, s4, v0			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v0, 0xffff8000, v0
	; GFX6-NEXT: v_max_i32_e32 v0, s5, v0
	; GFX6-NEXT: s_mov_b32 s6, 0xffff
	; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16			; GFX6-NEXT: v_bfe_i32 v6, v6, 0, 16
	; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16			; GFX6-NEXT: v_bfe_i32 v2, v2, 0, 16
	; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16			; GFX6-NEXT: v_bfe_i32 v7, v7, 0, 16
	; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16			; GFX6-NEXT: v_bfe_i32 v3, v3, 0, 16
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v0, s6, v0			; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX6-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v3, v7			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v3, v7
	; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v6			; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v6
	; GFX6-NEXT: v_min_i32_e32 v1, s4, v1			; GFX6-NEXT: v_min_i32_e32 v1, 0x7fff, v1
	; GFX6-NEXT: v_min_i32_e32 v2, s4, v2			; GFX6-NEXT: v_min_i32_e32 v2, 0x7fff, v2
	; GFX6-NEXT: v_max_i32_e32 v1, s5, v1			; GFX6-NEXT: v_max_i32_e32 v1, 0xffff8000, v1
	; GFX6-NEXT: v_max_i32_e32 v2, s5, v2			; GFX6-NEXT: v_max_i32_e32 v2, 0xffff8000, v2
	; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-NEXT: v_and_b32_e32 v2, s6, v2			; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
	; GFX6-NEXT: v_or_b32_e32 v1, v2, v1			; GFX6-NEXT: v_or_b32_e32 v1, v2, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v4i16:			; GFX8-LABEL: v_ssubsat_v4i16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4			; GFX8-NEXT: v_sub_u16_e32 v6, v5, v4
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v6, v5
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v4			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v4
	; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6			; GFX8-NEXT: v_ashrrev_i16_e32 v4, 15, v6
	; GFX8-NEXT: s_movk_i32 s6, 0x8000			; GFX8-NEXT: v_xor_b32_e32 v4, 0xffff8000, v4
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v6, v4, vcc
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v2
	; GFX8-NEXT: v_sub_u16_e32 v2, v0, v2			; GFX8-NEXT: v_sub_u16_e32 v2, v0, v2
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2			; GFX8-NEXT: v_ashrrev_i16_e32 v0, 15, v2
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0xffff8000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX8-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v3			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v3
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX8-NEXT: v_sub_u16_e32 v5, v4, v2			; GFX8-NEXT: v_sub_u16_e32 v5, v4, v2
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v5, v4			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, v5, v4
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v2			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], 0, v2
	; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v5			; GFX8-NEXT: v_ashrrev_i16_e32 v2, 15, v5
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0xffff8000, v2
	; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc			; GFX8-NEXT: s_xor_b64 vcc, s[4:5], vcc
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v5, v2, vcc
	; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_lt_i16_e32 vcc, 0, v3
	; GFX8-NEXT: v_sub_u16_e32 v3, v1, v3			; GFX8-NEXT: v_sub_u16_e32 v3, v1, v3
	; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1			; GFX8-NEXT: v_cmp_lt_i16_e64 s[4:5], v3, v1
	; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3			; GFX8-NEXT: v_ashrrev_i16_e32 v1, 15, v3
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0xffff8000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX8-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v4i16:			; GFX9-LABEL: v_ssubsat_v4i16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	Show All 17 Lines
	define <2 x i32> @v_ssubsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {			define <2 x i32> @v_ssubsat_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
	; GFX6-LABEL: v_ssubsat_v2i32:			; GFX6-LABEL: v_ssubsat_v2i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v2			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v2
	; GFX6-NEXT: v_sub_i32_e64 v2, s[4:5], v0, v2			; GFX6-NEXT: v_sub_i32_e64 v2, s[4:5], v0, v2
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v2
	; GFX6-NEXT: s_brev_b32 s6, 1			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX6-NEXT: v_sub_i32_e64 v2, s[4:5], v1, v3			; GFX6-NEXT: v_sub_i32_e64 v2, s[4:5], v1, v3
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v2			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v2
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v2i32:			; GFX8-LABEL: v_ssubsat_v2i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v2			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v2
	; GFX8-NEXT: v_sub_u32_e64 v2, s[4:5], v0, v2			; GFX8-NEXT: v_sub_u32_e64 v2, s[4:5], v0, v2
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v0
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v2			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v2
	; GFX8-NEXT: s_brev_b32 s6, 1			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc
	; GFX8-NEXT: v_sub_u32_e64 v2, s[4:5], v1, v3			; GFX8-NEXT: v_sub_u32_e64 v2, s[4:5], v1, v3
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v2, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v2			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v2
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v2i32:			; GFX9-LABEL: v_ssubsat_v2i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v2 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v2 clamp
	Show All 14 Lines
	define <3 x i32> @v_ssubsat_v3i32(<3 x i32> %lhs, <3 x i32> %rhs) {			define <3 x i32> @v_ssubsat_v3i32(<3 x i32> %lhs, <3 x i32> %rhs) {
	; GFX6-LABEL: v_ssubsat_v3i32:			; GFX6-LABEL: v_ssubsat_v3i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3
	; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v3			; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v0, v3
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v3
	; GFX6-NEXT: s_brev_b32 s6, 1			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v4			; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v1, v4
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v3
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v2, v5			; GFX6-NEXT: v_sub_i32_e64 v3, s[4:5], v2, v5
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v3			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v3
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v3i32:			; GFX8-LABEL: v_ssubsat_v3i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v3
	; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v0, v3			; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v0, v3
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v0
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v3			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v3
	; GFX8-NEXT: s_brev_b32 s6, 1			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc
	; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v1, v4			; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v1, v4
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v3			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v3
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
	; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v2, v5			; GFX8-NEXT: v_sub_u32_e64 v3, s[4:5], v2, v5
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v3, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v3			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v3
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v3i32:			; GFX9-LABEL: v_ssubsat_v3i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v3 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v3 clamp
	Show All 16 Lines
	define <4 x i32> @v_ssubsat_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {			define <4 x i32> @v_ssubsat_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {
	; GFX6-LABEL: v_ssubsat_v4i32:			; GFX6-LABEL: v_ssubsat_v4i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4
	; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v0, v4			; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v0, v4
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v4
	; GFX6-NEXT: s_brev_b32 s6, 1			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v1, v5			; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v1, v5
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v4
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v2, v6			; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v2, v6
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v6			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v6
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v4
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v7			; GFX6-NEXT: v_sub_i32_e64 v4, s[4:5], v3, v7
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v4			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v4
	; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX6-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v4i32:			; GFX8-LABEL: v_ssubsat_v4i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v4
	; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v0, v4			; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v0, v4
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v0
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v4
	; GFX8-NEXT: s_brev_b32 s6, 1			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v4, v0, vcc
	; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v1, v5			; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v1, v5
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v5
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v4
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v4, v1, vcc
	; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v2, v6			; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v2, v6
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v6			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v6
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v4
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v4, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v3, v7			; GFX8-NEXT: v_sub_u32_e64 v4, s[4:5], v3, v7
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v7
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v4, v3
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v4			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v4
	; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v4, v3, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v4i32:			; GFX9-LABEL: v_ssubsat_v4i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v4 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v4 clamp
	Show All 18 Lines
	define <8 x i32> @v_ssubsat_v8i32(<8 x i32> %lhs, <8 x i32> %rhs) {			define <8 x i32> @v_ssubsat_v8i32(<8 x i32> %lhs, <8 x i32> %rhs) {
	; GFX6-LABEL: v_ssubsat_v8i32:			; GFX6-LABEL: v_ssubsat_v8i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v8			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v0, v8
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v0
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v8
	; GFX6-NEXT: s_brev_b32 s6, 1			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v1, v9			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v1, v9
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v9			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v9
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v8, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v8, v1, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v2, v10			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v2, v10
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v11			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v3, v11
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX6-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v4, v12			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v4, v12
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v4, s6, v4			; GFX6-NEXT: v_xor_b32_e32 v4, 0x80000000, v4
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v13			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v5, v13
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v5, s6, v5			; GFX6-NEXT: v_xor_b32_e32 v5, 0x80000000, v5
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v6, v14			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v6, v14
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v6, s6, v6			; GFX6-NEXT: v_xor_b32_e32 v6, 0x80000000, v6
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
	; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v7, v15			; GFX6-NEXT: v_sub_i32_e64 v8, s[4:5], v7, v15
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v8			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v8
	; GFX6-NEXT: v_xor_b32_e32 v7, s6, v7			; GFX6-NEXT: v_xor_b32_e32 v7, 0x80000000, v7
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v8i32:			; GFX8-LABEL: v_ssubsat_v8i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v8
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v0, v8			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v0, v8
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v0
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v8
	; GFX8-NEXT: s_brev_b32 s6, 1			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v8, v0, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v1, v9			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v1, v9
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v9			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v9
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v8, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v8, v1, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v2, v10			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v2, v10
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v10
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v8, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v3, v11			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v3, v11
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v11
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v3
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v8, v3, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v4, v12			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v4, v12
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v12
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v4
	; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4			; GFX8-NEXT: v_xor_b32_e32 v4, 0x80000000, v4
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v8, v4, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v5, v13			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v5, v13
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v13
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v5
	; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v5, s6, v5			; GFX8-NEXT: v_xor_b32_e32 v5, 0x80000000, v5
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v8, v5, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v6, v14			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v6, v14
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v14
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v6
	; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v6, s6, v6			; GFX8-NEXT: v_xor_b32_e32 v6, 0x80000000, v6
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v6, v8, v6, vcc
	; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v7, v15			; GFX8-NEXT: v_sub_u32_e64 v8, s[4:5], v7, v15
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v15
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v8, v7
	; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v8			; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v8
	; GFX8-NEXT: v_xor_b32_e32 v7, s6, v7			; GFX8-NEXT: v_xor_b32_e32 v7, 0x80000000, v7
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v8, v7, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v8i32:			; GFX9-LABEL: v_ssubsat_v8i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v8 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v8 clamp
	Show All 25 Lines

	define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {			define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
	; GFX6-LABEL: v_ssubsat_v16i32:			; GFX6-LABEL: v_ssubsat_v16i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v0, v16			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v0, v16
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v0			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v0
	; GFX6-NEXT: s_brev_b32 s6, 1
	; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v0, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX6-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v16, v0, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v16, v0, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v1, v17			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v1, v17
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v17			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v17
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v1			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX6-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v16, v1, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v16, v1, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v2, v18			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v2, v18
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v18			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v18
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2
	; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v2, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX6-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v3, v19			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v3, v19
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3
	; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v3, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX6-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v4, v20			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v4, v20
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4
	; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v4, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v4, s6, v4			; GFX6-NEXT: v_xor_b32_e32 v4, 0x80000000, v4
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc
	; GFX6-NEXT: buffer_load_dword v16, off, s[0:3], s32			; GFX6-NEXT: buffer_load_dword v16, off, s[0:3], s32
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v5, v21			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v5, v21
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v5			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v5
	; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v5, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v5, s6, v5			; GFX6-NEXT: v_xor_b32_e32 v5, 0x80000000, v5
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v5, v17, v5, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v5, v17, v5, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v6, v22			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v6, v22
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v6			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v6
	; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v6, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v6, s6, v6			; GFX6-NEXT: v_xor_b32_e32 v6, 0x80000000, v6
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v6, v17, v6, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v6, v17, v6, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v7, v23			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v7, v23
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v7			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v7
	; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v7, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v7, s6, v7			; GFX6-NEXT: v_xor_b32_e32 v7, 0x80000000, v7
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v7, v17, v7, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v7, v17, v7, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v8, v24			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v8, v24
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v8			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v8
	; GFX6-NEXT: v_ashrrev_i32_e32 v8, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v8, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v8, s6, v8			; GFX6-NEXT: v_xor_b32_e32 v8, 0x80000000, v8
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v8, v17, v8, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v8, v17, v8, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v9, v25			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v9, v25
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v9			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v9
	; GFX6-NEXT: v_ashrrev_i32_e32 v9, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v9, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v9, s6, v9			; GFX6-NEXT: v_xor_b32_e32 v9, 0x80000000, v9
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v9, v17, v9, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v9, v17, v9, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v10, v26			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v10, v26
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v10			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v10
	; GFX6-NEXT: v_ashrrev_i32_e32 v10, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v10, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v10, s6, v10			; GFX6-NEXT: v_xor_b32_e32 v10, 0x80000000, v10
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v10, v17, v10, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v10, v17, v10, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v11, v27			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v11, v27
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v11			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v11
	; GFX6-NEXT: v_ashrrev_i32_e32 v11, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v11, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v11, s6, v11			; GFX6-NEXT: v_xor_b32_e32 v11, 0x80000000, v11
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v11, v17, v11, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v11, v17, v11, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v12, v28			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v12, v28
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v12			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v12
	; GFX6-NEXT: v_ashrrev_i32_e32 v12, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v12, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v12, s6, v12			; GFX6-NEXT: v_xor_b32_e32 v12, 0x80000000, v12
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v12, v17, v12, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v12, v17, v12, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v13, v29			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v13, v29
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v13			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v13
	; GFX6-NEXT: v_ashrrev_i32_e32 v13, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v13, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v13, s6, v13			; GFX6-NEXT: v_xor_b32_e32 v13, 0x80000000, v13
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v13, v17, v13, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v13, v17, v13, vcc
	; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v14, v30			; GFX6-NEXT: v_sub_i32_e64 v17, s[4:5], v14, v30
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v14			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v14
	; GFX6-NEXT: v_ashrrev_i32_e32 v14, 31, v17			; GFX6-NEXT: v_ashrrev_i32_e32 v14, 31, v17
	; GFX6-NEXT: v_xor_b32_e32 v14, s6, v14			; GFX6-NEXT: v_xor_b32_e32 v14, 0x80000000, v14
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v14, v17, v14, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v14, v17, v14, vcc
	; GFX6-NEXT: s_waitcnt vmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16			; GFX6-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16
	; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v15, v16			; GFX6-NEXT: v_sub_i32_e64 v16, s[4:5], v15, v16
	; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15			; GFX6-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15
	; GFX6-NEXT: v_ashrrev_i32_e32 v15, 31, v16			; GFX6-NEXT: v_ashrrev_i32_e32 v15, 31, v16
	; GFX6-NEXT: v_xor_b32_e32 v15, s6, v15			; GFX6-NEXT: v_xor_b32_e32 v15, 0x80000000, v15
	; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX6-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX6-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_ssubsat_v16i32:			; GFX8-LABEL: v_ssubsat_v16i32:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v0, v16			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v0, v16
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v0			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v0
	; GFX8-NEXT: s_brev_b32 s6, 1
	; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v0, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v0, s6, v0			; GFX8-NEXT: v_xor_b32_e32 v0, 0x80000000, v0
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v16, v0, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v16, v0, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v1, v17			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v1, v17
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v17			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v17
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v1			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v1
	; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v1, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v1, s6, v1			; GFX8-NEXT: v_xor_b32_e32 v1, 0x80000000, v1
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v16, v1, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v16, v1, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v2, v18			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v2, v18
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v18			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v18
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v2
	; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v2, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v2, s6, v2			; GFX8-NEXT: v_xor_b32_e32 v2, 0x80000000, v2
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v2, v16, v2, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v3, v19			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v3, v19
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v19
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v3
	; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v3, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v3, s6, v3			; GFX8-NEXT: v_xor_b32_e32 v3, 0x80000000, v3
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v3, v16, v3, vcc
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v4, v20			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v4, v20
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v20
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v4
	; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v4, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v4, s6, v4			; GFX8-NEXT: v_xor_b32_e32 v4, 0x80000000, v4
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v4, v16, v4, vcc
	; GFX8-NEXT: buffer_load_dword v16, off, s[0:3], s32			; GFX8-NEXT: buffer_load_dword v16, off, s[0:3], s32
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v5, v21			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v5, v21
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v21
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v5			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v5
	; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v5, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v5, s6, v5			; GFX8-NEXT: v_xor_b32_e32 v5, 0x80000000, v5
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v5, v17, v5, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v5, v17, v5, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v6, v22			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v6, v22
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v22
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v6			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v6
	; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v6, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v6, s6, v6			; GFX8-NEXT: v_xor_b32_e32 v6, 0x80000000, v6
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v6, v17, v6, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v6, v17, v6, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v7, v23			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v7, v23
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v23
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v7			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v7
	; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v7, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v7, s6, v7			; GFX8-NEXT: v_xor_b32_e32 v7, 0x80000000, v7
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v7, v17, v7, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v7, v17, v7, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v8, v24			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v8, v24
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v24
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v8			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v8
	; GFX8-NEXT: v_ashrrev_i32_e32 v8, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v8, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v8, s6, v8			; GFX8-NEXT: v_xor_b32_e32 v8, 0x80000000, v8
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v8, v17, v8, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v8, v17, v8, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v9, v25			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v9, v25
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v25
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v9			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v9
	; GFX8-NEXT: v_ashrrev_i32_e32 v9, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v9, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v9, s6, v9			; GFX8-NEXT: v_xor_b32_e32 v9, 0x80000000, v9
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v9, v17, v9, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v9, v17, v9, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v10, v26			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v10, v26
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v26
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v10			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v10
	; GFX8-NEXT: v_ashrrev_i32_e32 v10, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v10, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v10, s6, v10			; GFX8-NEXT: v_xor_b32_e32 v10, 0x80000000, v10
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v10, v17, v10, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v10, v17, v10, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v11, v27			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v11, v27
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v27
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v11			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v11
	; GFX8-NEXT: v_ashrrev_i32_e32 v11, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v11, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v11, s6, v11			; GFX8-NEXT: v_xor_b32_e32 v11, 0x80000000, v11
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v11, v17, v11, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v11, v17, v11, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v12, v28			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v12, v28
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v28
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v12			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v12
	; GFX8-NEXT: v_ashrrev_i32_e32 v12, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v12, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v12, s6, v12			; GFX8-NEXT: v_xor_b32_e32 v12, 0x80000000, v12
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v12, v17, v12, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v12, v17, v12, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v13, v29			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v13, v29
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v29
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v13			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v13
	; GFX8-NEXT: v_ashrrev_i32_e32 v13, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v13, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v13, s6, v13			; GFX8-NEXT: v_xor_b32_e32 v13, 0x80000000, v13
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v13, v17, v13, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v13, v17, v13, vcc
	; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v14, v30			; GFX8-NEXT: v_sub_u32_e64 v17, s[4:5], v14, v30
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v30
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v14			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v17, v14
	; GFX8-NEXT: v_ashrrev_i32_e32 v14, 31, v17			; GFX8-NEXT: v_ashrrev_i32_e32 v14, 31, v17
	; GFX8-NEXT: v_xor_b32_e32 v14, s6, v14			; GFX8-NEXT: v_xor_b32_e32 v14, 0x80000000, v14
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v14, v17, v14, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v14, v17, v14, vcc
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16			; GFX8-NEXT: v_cmp_lt_i32_e32 vcc, 0, v16
	; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v15, v16			; GFX8-NEXT: v_sub_u32_e64 v16, s[4:5], v15, v16
	; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15			; GFX8-NEXT: v_cmp_lt_i32_e64 s[4:5], v16, v15
	; GFX8-NEXT: v_ashrrev_i32_e32 v15, 31, v16			; GFX8-NEXT: v_ashrrev_i32_e32 v15, 31, v16
	; GFX8-NEXT: v_xor_b32_e32 v15, s6, v15			; GFX8-NEXT: v_xor_b32_e32 v15, 0x80000000, v15
	; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]			; GFX8-NEXT: s_xor_b64 vcc, vcc, s[4:5]
	; GFX8-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v15, v16, v15, vcc
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_ssubsat_v16i32:			; GFX9-LABEL: v_ssubsat_v16i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sub_i32 v0, v0, v16 clamp			; GFX9-NEXT: v_sub_i32 v0, v0, v16 clamp
	▲ Show 20 Lines • Show All 122 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fma.f16.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v3
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v1
	; GFX9-NEXT: v_fma_f16 v6, v8, v7, v6			; GFX9-NEXT: v_fma_f16 v6, v8, v7, v6
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v9, 16, v0
	; GFX9-NEXT: v_fma_f16 v1, v1, v3, v5			; GFX9-NEXT: v_fma_f16 v1, v1, v3, v5
	; GFX9-NEXT: v_fma_f16 v0, v0, v2, v4			; GFX9-NEXT: v_fma_f16 v0, v0, v2, v4
	; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: v_fma_f16 v7, v9, v8, v7			; GFX9-NEXT: v_fma_f16 v7, v9, v8, v7
	; GFX9-NEXT: v_and_b32_e32 v0, v2, v0			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_and_b32_e32 v1, v2, v1			; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
	; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0			; GFX9-NEXT: v_lshl_or_b32 v0, v7, 16, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1			; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_constained_fma_v4f16_fpexcept_strict:			; GFX8-LABEL: v_constained_fma_v4f16_fpexcept_strict:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5			; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v5
	▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/sub.v2i16.ll

	Show First 20 Lines • Show All 572 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v2, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v3, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: s_mov_b32 s7, 0xf000			; GFX9-NEXT: s_mov_b32 s7, 0xf000
	; GFX9-NEXT: s_mov_b32 s6, -1			; GFX9-NEXT: s_mov_b32 s6, -1
	; GFX9-NEXT: v_pk_sub_i16 v2, v2, v3			; GFX9-NEXT: v_pk_sub_i16 v2, v2, v3
	; GFX9-NEXT: v_and_b32_e32 v0, v4, v2			; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
	; GFX9-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; GFX9-NEXT: v_and_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0			; GFX9-NEXT: buffer_store_dwordx4 v[0:3], off, s[4:7], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:			; VI-LABEL: v_test_sub_v2i16_zext_to_v2i64:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	▲ Show 20 Lines • Show All 218 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/uaddsat.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck --check-prefix=GFX6 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck --check-prefix=GFX6 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck --check-prefix=GFX8 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck --check-prefix=GFX8 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck --check-prefix=GFX9 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck --check-prefix=GFX9 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck --check-prefix=GFX10 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck --check-prefix=GFX10 %s

define i8 @v_uaddsat_i8(i8 %lhs, i8 %rhs) {		define i8 @v_uaddsat_i8(i8 %lhs, i8 %rhs) {
; GFX6-LABEL: v_uaddsat_i8:		; GFX6-LABEL: v_uaddsat_i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s4, 0xff		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_min_u32_e32 v0, 0xff, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_i8:		; GFX8-LABEL: v_uaddsat_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_add_u16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
; GFX8-NEXT: v_min_u16_e32 v0, 0xff, v0		; GFX8-NEXT: v_min_u16_e32 v0, 0xff, v0
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
Show All 17 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i8 @llvm.uadd.sat.i8(i8 %lhs, i8 %rhs)		%result = call i8 @llvm.uadd.sat.i8(i8 %lhs, i8 %rhs)
ret i8 %result		ret i8 %result
}		}

define i16 @v_uaddsat_i16(i16 %lhs, i16 %rhs) {		define i16 @v_uaddsat_i16(i16 %lhs, i16 %rhs) {
; GFX6-LABEL: v_uaddsat_i16:		; GFX6-LABEL: v_uaddsat_i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_min_u32_e32 v0, 0xffff, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_i16:		; GFX8-LABEL: v_uaddsat_i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_add_u16_e64 v0, v0, v1 clamp		; GFX8-NEXT: v_add_u16_e64 v0, v0, v1 clamp
; GFX8-NEXT: s_setpc_b64 s[30:31]		; GFX8-NEXT: s_setpc_b64 s[30:31]
;		;
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i32 @llvm.uadd.sat.i32(i32 %lhs, i32 %rhs)		%result = call i32 @llvm.uadd.sat.i32(i32 %lhs, i32 %rhs)
ret i32 %result		ret i32 %result
}		}

define <2 x i16> @v_uaddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_uaddsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_uaddsat_v2i16:		; GFX6-LABEL: v_uaddsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v3
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1		; GFX6-NEXT: v_min_u32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_min_u32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_v2i16:		; GFX8-LABEL: v_uaddsat_v2i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 17 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.uadd.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <3 x i16> @v_uaddsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {		define <3 x i16> @v_uaddsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {
; GFX6-LABEL: v_uaddsat_v3i16:		; GFX6-LABEL: v_uaddsat_v3i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX6-NEXT: v_and_b32_e32 v5, s4, v5		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v4
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v3		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v3
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1		; GFX6-NEXT: v_min_u32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5		; GFX6-NEXT: v_add_i32_e32 v2, vcc, v2, v5
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_min_u32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_min_u32_e32 v3, s4, v2		; GFX6-NEXT: v_min_u32_e32 v3, 0xffff, v2
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_or_b32_e32 v2, 0xffff0000, v3		; GFX6-NEXT: v_or_b32_e32 v2, 0xffff0000, v3
; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16		; GFX6-NEXT: v_alignbit_b32 v1, v3, v1, 16
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_v3i16:		; GFX8-LABEL: v_uaddsat_v3i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
Show All 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <3 x i16> @llvm.uadd.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)		%result = call <3 x i16> @llvm.uadd.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_uaddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_uaddsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_uaddsat_v4i16:		; GFX6-LABEL: v_uaddsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX6-NEXT: v_and_b32_e32 v5, s4, v5		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v1, v5
; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4		; GFX6-NEXT: v_add_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1		; GFX6-NEXT: v_min_u32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v7, s4, v7		; GFX6-NEXT: v_and_b32_e32 v7, 0xffff, v7
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v6, s4, v6		; GFX6-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_min_u32_e32 v0, s4, v0		; GFX6-NEXT: v_min_u32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v6		; GFX6-NEXT: v_add_i32_e32 v1, vcc, v2, v6
; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v7		; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v7
; GFX6-NEXT: v_min_u32_e32 v2, s4, v2		; GFX6-NEXT: v_min_u32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_min_u32_e32 v1, s4, v1		; GFX6-NEXT: v_min_u32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX6-NEXT: v_or_b32_e32 v1, v1, v2		; GFX6-NEXT: v_or_b32_e32 v1, v1, v2
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_uaddsat_v4i16:		; GFX8-LABEL: v_uaddsat_v4i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_add_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; GFX8-NEXT: v_add_u16_sdwa v4, v0, v2 clamp dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
▲ Show 20 Lines • Show All 417 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv.ll

	Show First 20 Lines • Show All 337 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_mov_b32 s10, s6			; SI-NEXT: s_mov_b32 s10, s6
	; SI-NEXT: s_mov_b32 s11, s7			; SI-NEXT: s_mov_b32 s11, s7
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s8, s2			; SI-NEXT: s_mov_b32 s8, s2
	; SI-NEXT: s_mov_b32 s9, s3			; SI-NEXT: s_mov_b32 s9, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; SI-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; SI-NEXT: s_mov_b32 s4, s0			; SI-NEXT: s_mov_b32 s4, s0
	; SI-NEXT: s_mov_b32 s5, s1			; SI-NEXT: s_mov_b32 s5, s1
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_cvt_f32_u32_e32 v4, v2			; SI-NEXT: v_cvt_f32_u32_e32 v4, v2
	; SI-NEXT: v_cvt_f32_u32_e32 v5, v3			; SI-NEXT: v_cvt_f32_u32_e32 v5, v3
	; SI-NEXT: v_sub_i32_e32 v6, vcc, 0, v2			; SI-NEXT: v_sub_i32_e32 v6, vcc, 0, v2
	; SI-NEXT: v_rcp_iflag_f32_e32 v4, v4			; SI-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; SI-NEXT: v_rcp_iflag_f32_e32 v5, v5			; SI-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; SI-NEXT: v_sub_i32_e32 v7, vcc, 0, v3			; SI-NEXT: v_sub_i32_e32 v7, vcc, 0, v3
	; SI-NEXT: v_mul_f32_e32 v4, s2, v4			; SI-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; SI-NEXT: v_mul_f32_e32 v5, s2, v5			; SI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; SI-NEXT: v_cvt_u32_f32_e32 v4, v4			; SI-NEXT: v_cvt_u32_f32_e32 v4, v4
	; SI-NEXT: v_cvt_u32_f32_e32 v5, v5			; SI-NEXT: v_cvt_u32_f32_e32 v5, v5
	; SI-NEXT: v_mul_lo_u32 v6, v6, v4			; SI-NEXT: v_mul_lo_u32 v6, v6, v4
	; SI-NEXT: v_mul_lo_u32 v7, v7, v5			; SI-NEXT: v_mul_lo_u32 v7, v7, v5
	; SI-NEXT: v_mul_hi_u32 v6, v4, v6			; SI-NEXT: v_mul_hi_u32 v6, v4, v6
	; SI-NEXT: v_mul_hi_u32 v7, v5, v7			; SI-NEXT: v_mul_hi_u32 v7, v5, v7
	; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4			; SI-NEXT: v_add_i32_e32 v4, vcc, v6, v4
	; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5			; SI-NEXT: v_add_i32_e32 v5, vcc, v7, v5
	Show All 28 Lines
	; VI-NEXT: s_mov_b32 s7, 0xf000			; VI-NEXT: s_mov_b32 s7, 0xf000
	; VI-NEXT: s_mov_b32 s6, -1			; VI-NEXT: s_mov_b32 s6, -1
	; VI-NEXT: s_mov_b32 s10, s6			; VI-NEXT: s_mov_b32 s10, s6
	; VI-NEXT: s_mov_b32 s11, s7			; VI-NEXT: s_mov_b32 s11, s7
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s8, s2			; VI-NEXT: s_mov_b32 s8, s2
	; VI-NEXT: s_mov_b32 s9, s3			; VI-NEXT: s_mov_b32 s9, s3
	; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0			; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[8:11], 0
	; VI-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; VI-NEXT: s_mov_b32 s4, s0			; VI-NEXT: s_mov_b32 s4, s0
	; VI-NEXT: s_mov_b32 s5, s1			; VI-NEXT: s_mov_b32 s5, s1
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_cvt_f32_u32_e32 v4, v2			; VI-NEXT: v_cvt_f32_u32_e32 v4, v2
	; VI-NEXT: v_cvt_f32_u32_e32 v5, v3			; VI-NEXT: v_cvt_f32_u32_e32 v5, v3
	; VI-NEXT: v_sub_u32_e32 v6, vcc, 0, v2			; VI-NEXT: v_sub_u32_e32 v6, vcc, 0, v2
	; VI-NEXT: v_rcp_iflag_f32_e32 v4, v4			; VI-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; VI-NEXT: v_rcp_iflag_f32_e32 v5, v5			; VI-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; VI-NEXT: v_sub_u32_e32 v7, vcc, 0, v3			; VI-NEXT: v_sub_u32_e32 v7, vcc, 0, v3
	; VI-NEXT: v_mul_f32_e32 v4, s2, v4			; VI-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; VI-NEXT: v_mul_f32_e32 v5, s2, v5			; VI-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; VI-NEXT: v_cvt_u32_f32_e32 v4, v4			; VI-NEXT: v_cvt_u32_f32_e32 v4, v4
	; VI-NEXT: v_cvt_u32_f32_e32 v5, v5			; VI-NEXT: v_cvt_u32_f32_e32 v5, v5
	; VI-NEXT: v_mul_lo_u32 v6, v6, v4			; VI-NEXT: v_mul_lo_u32 v6, v6, v4
	; VI-NEXT: v_mul_lo_u32 v7, v7, v5			; VI-NEXT: v_mul_lo_u32 v7, v7, v5
	; VI-NEXT: v_mul_hi_u32 v6, v4, v6			; VI-NEXT: v_mul_hi_u32 v6, v4, v6
	; VI-NEXT: v_mul_hi_u32 v7, v5, v7			; VI-NEXT: v_mul_hi_u32 v7, v5, v7
	; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4			; VI-NEXT: v_add_u32_e32 v4, vcc, v6, v4
	; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5			; VI-NEXT: v_add_u32_e32 v5, vcc, v7, v5
	Show All 24 Lines
	;			;
	; GCN-LABEL: udiv_v2i32:			; GCN-LABEL: udiv_v2i32:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GCN-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v0, s2			; GCN-NEXT: v_mov_b32_e32 v0, s2
	; GCN-NEXT: v_mov_b32_e32 v1, s3			; GCN-NEXT: v_mov_b32_e32 v1, s3
	; GCN-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GCN-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GCN-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2			; GCN-NEXT: v_cvt_f32_u32_e32 v4, v2
	; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3			; GCN-NEXT: v_cvt_f32_u32_e32 v5, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v4
	; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v5			; GCN-NEXT: v_rcp_iflag_f32_e32 v5, v5
	; GCN-NEXT: v_mul_f32_e32 v4, s2, v4			; GCN-NEXT: v_mul_f32_e32 v4, 0x4f7ffffe, v4
	; GCN-NEXT: v_cvt_u32_f32_e32 v6, v4			; GCN-NEXT: v_cvt_u32_f32_e32 v6, v4
	; GCN-NEXT: v_mul_f32_e32 v5, s2, v5			; GCN-NEXT: v_mul_f32_e32 v5, 0x4f7ffffe, v5
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v5			; GCN-NEXT: v_cvt_u32_f32_e32 v7, v5
	; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v2			; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v2
	; GCN-NEXT: v_mul_lo_u32 v5, v4, v6			; GCN-NEXT: v_mul_lo_u32 v5, v4, v6
	; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v3			; GCN-NEXT: v_sub_u32_e32 v4, vcc, 0, v3
	; GCN-NEXT: v_mul_lo_u32 v8, v4, v7			; GCN-NEXT: v_mul_lo_u32 v8, v4, v7
	; GCN-NEXT: v_mul_hi_u32 v9, v6, v5			; GCN-NEXT: v_mul_hi_u32 v9, v6, v5
	; GCN-NEXT: v_mov_b32_e32 v4, s0			; GCN-NEXT: v_mov_b32_e32 v4, s0
	; GCN-NEXT: v_mov_b32_e32 v5, s1			; GCN-NEXT: v_mov_b32_e32 v5, s1
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_mov_b32 s10, -1			; SI-NEXT: s_mov_b32 s10, -1
	; SI-NEXT: s_mov_b32 s6, s10			; SI-NEXT: s_mov_b32 s6, s10
	; SI-NEXT: s_mov_b32 s7, s11			; SI-NEXT: s_mov_b32 s7, s11
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: s_mov_b32 s4, s2			; SI-NEXT: s_mov_b32 s4, s2
	; SI-NEXT: s_mov_b32 s5, s3			; SI-NEXT: s_mov_b32 s5, s3
	; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0 offset:16			; SI-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0 offset:16
	; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0			; SI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0
	; SI-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; SI-NEXT: s_mov_b32 s8, s0			; SI-NEXT: s_mov_b32 s8, s0
	; SI-NEXT: s_mov_b32 s9, s1			; SI-NEXT: s_mov_b32 s9, s1
	; SI-NEXT: s_waitcnt vmcnt(1)			; SI-NEXT: s_waitcnt vmcnt(1)
	; SI-NEXT: v_cvt_f32_u32_e32 v8, v0			; SI-NEXT: v_cvt_f32_u32_e32 v8, v0
	; SI-NEXT: v_cvt_f32_u32_e32 v10, v1			; SI-NEXT: v_cvt_f32_u32_e32 v10, v1
	; SI-NEXT: v_cvt_f32_u32_e32 v12, v2			; SI-NEXT: v_cvt_f32_u32_e32 v12, v2
	; SI-NEXT: v_cvt_f32_u32_e32 v14, v3			; SI-NEXT: v_cvt_f32_u32_e32 v14, v3
	; SI-NEXT: v_rcp_iflag_f32_e32 v8, v8			; SI-NEXT: v_rcp_iflag_f32_e32 v8, v8
	; SI-NEXT: v_rcp_iflag_f32_e32 v10, v10			; SI-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; SI-NEXT: v_rcp_iflag_f32_e32 v12, v12			; SI-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; SI-NEXT: v_rcp_iflag_f32_e32 v14, v14			; SI-NEXT: v_rcp_iflag_f32_e32 v14, v14
	; SI-NEXT: v_mul_f32_e32 v8, s2, v8			; SI-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
	; SI-NEXT: v_mul_f32_e32 v10, s2, v10			; SI-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10
	; SI-NEXT: v_mul_f32_e32 v12, s2, v12			; SI-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; SI-NEXT: v_mul_f32_e32 v14, s2, v14			; SI-NEXT: v_mul_f32_e32 v14, 0x4f7ffffe, v14
	; SI-NEXT: v_cvt_u32_f32_e32 v8, v8			; SI-NEXT: v_cvt_u32_f32_e32 v8, v8
	; SI-NEXT: v_cvt_u32_f32_e32 v10, v10			; SI-NEXT: v_cvt_u32_f32_e32 v10, v10
	; SI-NEXT: v_cvt_u32_f32_e32 v12, v12			; SI-NEXT: v_cvt_u32_f32_e32 v12, v12
	; SI-NEXT: v_cvt_u32_f32_e32 v14, v14			; SI-NEXT: v_cvt_u32_f32_e32 v14, v14
	; SI-NEXT: v_sub_i32_e32 v9, vcc, 0, v0			; SI-NEXT: v_sub_i32_e32 v9, vcc, 0, v0
	; SI-NEXT: v_sub_i32_e32 v11, vcc, 0, v1			; SI-NEXT: v_sub_i32_e32 v11, vcc, 0, v1
	; SI-NEXT: v_sub_i32_e32 v13, vcc, 0, v2			; SI-NEXT: v_sub_i32_e32 v13, vcc, 0, v2
	; SI-NEXT: v_sub_i32_e32 v15, vcc, 0, v3			; SI-NEXT: v_sub_i32_e32 v15, vcc, 0, v3
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; VI-NEXT: s_mov_b32 s10, -1			; VI-NEXT: s_mov_b32 s10, -1
	; VI-NEXT: s_mov_b32 s6, s10			; VI-NEXT: s_mov_b32 s6, s10
	; VI-NEXT: s_mov_b32 s7, s11			; VI-NEXT: s_mov_b32 s7, s11
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: s_mov_b32 s4, s2			; VI-NEXT: s_mov_b32 s4, s2
	; VI-NEXT: s_mov_b32 s5, s3			; VI-NEXT: s_mov_b32 s5, s3
	; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0 offset:16			; VI-NEXT: buffer_load_dwordx4 v[0:3], off, s[4:7], 0 offset:16
	; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0			; VI-NEXT: buffer_load_dwordx4 v[4:7], off, s[4:7], 0
	; VI-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; VI-NEXT: s_mov_b32 s8, s0			; VI-NEXT: s_mov_b32 s8, s0
	; VI-NEXT: s_mov_b32 s9, s1			; VI-NEXT: s_mov_b32 s9, s1
	; VI-NEXT: s_waitcnt vmcnt(1)			; VI-NEXT: s_waitcnt vmcnt(1)
	; VI-NEXT: v_cvt_f32_u32_e32 v8, v0			; VI-NEXT: v_cvt_f32_u32_e32 v8, v0
	; VI-NEXT: v_cvt_f32_u32_e32 v10, v1			; VI-NEXT: v_cvt_f32_u32_e32 v10, v1
	; VI-NEXT: v_cvt_f32_u32_e32 v12, v2			; VI-NEXT: v_cvt_f32_u32_e32 v12, v2
	; VI-NEXT: v_cvt_f32_u32_e32 v14, v3			; VI-NEXT: v_cvt_f32_u32_e32 v14, v3
	; VI-NEXT: v_rcp_iflag_f32_e32 v8, v8			; VI-NEXT: v_rcp_iflag_f32_e32 v8, v8
	; VI-NEXT: v_rcp_iflag_f32_e32 v10, v10			; VI-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; VI-NEXT: v_rcp_iflag_f32_e32 v12, v12			; VI-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; VI-NEXT: v_rcp_iflag_f32_e32 v14, v14			; VI-NEXT: v_rcp_iflag_f32_e32 v14, v14
	; VI-NEXT: v_mul_f32_e32 v8, s2, v8			; VI-NEXT: v_mul_f32_e32 v8, 0x4f7ffffe, v8
	; VI-NEXT: v_mul_f32_e32 v10, s2, v10			; VI-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10
	; VI-NEXT: v_mul_f32_e32 v12, s2, v12			; VI-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; VI-NEXT: v_mul_f32_e32 v14, s2, v14			; VI-NEXT: v_mul_f32_e32 v14, 0x4f7ffffe, v14
	; VI-NEXT: v_cvt_u32_f32_e32 v8, v8			; VI-NEXT: v_cvt_u32_f32_e32 v8, v8
	; VI-NEXT: v_cvt_u32_f32_e32 v10, v10			; VI-NEXT: v_cvt_u32_f32_e32 v10, v10
	; VI-NEXT: v_cvt_u32_f32_e32 v12, v12			; VI-NEXT: v_cvt_u32_f32_e32 v12, v12
	; VI-NEXT: v_cvt_u32_f32_e32 v14, v14			; VI-NEXT: v_cvt_u32_f32_e32 v14, v14
	; VI-NEXT: v_sub_u32_e32 v9, vcc, 0, v0			; VI-NEXT: v_sub_u32_e32 v9, vcc, 0, v0
	; VI-NEXT: v_sub_u32_e32 v11, vcc, 0, v1			; VI-NEXT: v_sub_u32_e32 v11, vcc, 0, v1
	; VI-NEXT: v_sub_u32_e32 v13, vcc, 0, v2			; VI-NEXT: v_sub_u32_e32 v13, vcc, 0, v2
	; VI-NEXT: v_sub_u32_e32 v15, vcc, 0, v3			; VI-NEXT: v_sub_u32_e32 v15, vcc, 0, v3
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_add_u32 s4, s2, 16			; GCN-NEXT: s_add_u32 s4, s2, 16
	; GCN-NEXT: s_addc_u32 s5, s3, 0			; GCN-NEXT: s_addc_u32 s5, s3, 0
	; GCN-NEXT: v_mov_b32_e32 v0, s4			; GCN-NEXT: v_mov_b32_e32 v0, s4
	; GCN-NEXT: v_mov_b32_e32 v1, s5			; GCN-NEXT: v_mov_b32_e32 v1, s5
	; GCN-NEXT: flat_load_dwordx4 v[0:3], v[0:1]			; GCN-NEXT: flat_load_dwordx4 v[0:3], v[0:1]
	; GCN-NEXT: v_mov_b32_e32 v5, s3			; GCN-NEXT: v_mov_b32_e32 v5, s3
	; GCN-NEXT: v_mov_b32_e32 v4, s2			; GCN-NEXT: v_mov_b32_e32 v4, s2
	; GCN-NEXT: flat_load_dwordx4 v[4:7], v[4:5]			; GCN-NEXT: flat_load_dwordx4 v[4:7], v[4:5]
	; GCN-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GCN-NEXT: v_mov_b32_e32 v8, s0			; GCN-NEXT: v_mov_b32_e32 v8, s0
	; GCN-NEXT: v_mov_b32_e32 v9, s1			; GCN-NEXT: v_mov_b32_e32 v9, s1
	; GCN-NEXT: s_waitcnt vmcnt(1)			; GCN-NEXT: s_waitcnt vmcnt(1)
	; GCN-NEXT: v_cvt_f32_u32_e32 v10, v0			; GCN-NEXT: v_cvt_f32_u32_e32 v10, v0
	; GCN-NEXT: v_cvt_f32_u32_e32 v12, v1			; GCN-NEXT: v_cvt_f32_u32_e32 v12, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v14, v2			; GCN-NEXT: v_cvt_f32_u32_e32 v14, v2
	; GCN-NEXT: v_cvt_f32_u32_e32 v16, v3			; GCN-NEXT: v_cvt_f32_u32_e32 v16, v3
	; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10			; GCN-NEXT: v_rcp_iflag_f32_e32 v10, v10
	; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12			; GCN-NEXT: v_rcp_iflag_f32_e32 v12, v12
	; GCN-NEXT: v_rcp_iflag_f32_e32 v14, v14			; GCN-NEXT: v_rcp_iflag_f32_e32 v14, v14
	; GCN-NEXT: v_rcp_iflag_f32_e32 v16, v16			; GCN-NEXT: v_rcp_iflag_f32_e32 v16, v16
	; GCN-NEXT: v_mul_f32_e32 v10, s2, v10			; GCN-NEXT: v_mul_f32_e32 v10, 0x4f7ffffe, v10
	; GCN-NEXT: v_mul_f32_e32 v12, s2, v12			; GCN-NEXT: v_mul_f32_e32 v12, 0x4f7ffffe, v12
	; GCN-NEXT: v_mul_f32_e32 v14, s2, v14			; GCN-NEXT: v_mul_f32_e32 v14, 0x4f7ffffe, v14
	; GCN-NEXT: v_mul_f32_e32 v16, s2, v16			; GCN-NEXT: v_mul_f32_e32 v16, 0x4f7ffffe, v16
	; GCN-NEXT: v_cvt_u32_f32_e32 v10, v10			; GCN-NEXT: v_cvt_u32_f32_e32 v10, v10
	; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12			; GCN-NEXT: v_cvt_u32_f32_e32 v12, v12
	; GCN-NEXT: v_cvt_u32_f32_e32 v14, v14			; GCN-NEXT: v_cvt_u32_f32_e32 v14, v14
	; GCN-NEXT: v_cvt_u32_f32_e32 v16, v16			; GCN-NEXT: v_cvt_u32_f32_e32 v16, v16
	; GCN-NEXT: v_sub_u32_e32 v11, vcc, 0, v0			; GCN-NEXT: v_sub_u32_e32 v11, vcc, 0, v0
	; GCN-NEXT: v_sub_u32_e32 v13, vcc, 0, v1			; GCN-NEXT: v_sub_u32_e32 v13, vcc, 0, v1
	; GCN-NEXT: v_sub_u32_e32 v15, vcc, 0, v2			; GCN-NEXT: v_sub_u32_e32 v15, vcc, 0, v2
	; GCN-NEXT: v_sub_u32_e32 v17, vcc, 0, v3			; GCN-NEXT: v_sub_u32_e32 v17, vcc, 0, v3
	▲ Show 20 Lines • Show All 2,010 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/udiv64.ll

	Show First 20 Lines • Show All 1,694 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s2, s3, 8			; GCN-NEXT: s_lshr_b32 s2, s3, 8
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_udiv24_k_num_i64:			; GCN-IR-LABEL: s_test_udiv24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_lshr_b32 s2, s3, 8			; GCN-IR-NEXT: s_lshr_b32 s2, s3, 8
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s2
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	define i64 @v_test_udiv24_k_num_i64(i64 %x) {			define i64 @v_test_udiv24_k_num_i64(i64 %x) {
	; GCN-LABEL: v_test_udiv24_k_num_i64:			; GCN-LABEL: v_test_udiv24_k_num_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, v0			; GCN-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GCN-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_udiv24_k_num_i64:			; GCN-IR-LABEL: v_test_udiv24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, v0			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%x.shr = lshr i64 %x, 40			%x.shr = lshr i64 %x, 40
	%result = udiv i64 24, %x.shr			%result = udiv i64 24, %x.shr
	ret i64 %result			ret i64 %result
	}			}

	define i64 @v_test_udiv24_pow2_k_num_i64(i64 %x) {			define i64 @v_test_udiv24_pow2_k_num_i64(i64 %x) {
	; GCN-LABEL: v_test_udiv24_pow2_k_num_i64:			; GCN-LABEL: v_test_udiv24_pow2_k_num_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, v0			; GCN-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GCN-NEXT: s_mov_b32 s4, 0x47000000			; GCN-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x47000000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_udiv24_pow2_k_num_i64:			; GCN-IR-LABEL: v_test_udiv24_pow2_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, v0			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, v0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000			; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s4, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x47000000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4			; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	Show All 32 Lines

llvm/test/CodeGen/AMDGPU/udivrem.ll

	Show First 20 Lines • Show All 151 Lines • ▼ Show 20 Lines
	; R600-NEXT: SUB_INT * T1.W, PV.Z, KC0[3].Y,			; R600-NEXT: SUB_INT * T1.W, PV.Z, KC0[3].Y,
	; R600-NEXT: CNDE_INT T0.X, PV.W, T0.Z, PS,			; R600-NEXT: CNDE_INT T0.X, PV.W, T0.Z, PS,
	; R600-NEXT: LSHR * T1.X, KC0[2].Y, literal.x,			; R600-NEXT: LSHR * T1.X, KC0[2].Y, literal.x,
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	;			;
	; GFX6-LABEL: test_udivrem_v2:			; GFX6-LABEL: test_udivrem_v2:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb			; GFX6-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0xb
	; GFX6-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s7
				; GFX6-NEXT: s_sub_i32 s2, 0, s6
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: s_sub_i32 s2, 0, s6
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX6-NEXT: s_sub_i32 s2, 0, s7			; GFX6-NEXT: s_sub_i32 s2, 0, s7
	; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX6-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v3, v1
				; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
				; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
				; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s6, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1			; GFX6-NEXT: v_subrev_i32_e32 v2, vcc, s7, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v2:			; GFX8-LABEL: test_udivrem_v2:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c			; GFX8-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x2c
	; GFX8-NEXT: s_mov_b32 s2, 0x4f7ffffe
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s6
	; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s7			; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s7
				; GFX8-NEXT: s_sub_i32 s2, 0, s6
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX8-NEXT: v_mul_f32_e32 v0, s2, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, s2, v1			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: s_sub_i32 s2, 0, s6
	; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX8-NEXT: s_sub_i32 s2, 0, s7			; GFX8-NEXT: s_sub_i32 s2, 0, s7
	; GFX8-NEXT: v_mul_lo_u32 v3, s2, v1			; GFX8-NEXT: v_mul_lo_u32 v3, s2, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3			; GFX8-NEXT: v_mul_hi_u32 v3, v1, v3
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v1			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v3, v1
	; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX8-NEXT: v_mul_lo_u32 v0, v0, s6			; GFX8-NEXT: v_mul_lo_u32 v0, v0, s6
	; GFX8-NEXT: v_mul_lo_u32 v1, v1, s7			; GFX8-NEXT: v_mul_lo_u32 v1, v1, s7
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0
	; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1			; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0			; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s7, v1			; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s7, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
				; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
				; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0			; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s6, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s6, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
	; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s7, v1			; GFX8-NEXT: v_subrev_u32_e32 v2, vcc, s7, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s7, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
	; GFX8-NEXT: v_mov_b32_e32 v3, s1			; GFX8-NEXT: v_mov_b32_e32 v3, s1
	; GFX8-NEXT: v_mov_b32_e32 v2, s0			; GFX8-NEXT: v_mov_b32_e32 v2, s0
	; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_store_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	%result0 = udiv <2 x i32> %x, %y			%result0 = udiv <2 x i32> %x, %y
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; R600-NEXT: SUB_INT * T1.W, PV.Y, KC0[4].Y,			; R600-NEXT: SUB_INT * T1.W, PV.Y, KC0[4].Y,
	; R600-NEXT: CNDE_INT T3.X, PV.W, T0.Y, PS,			; R600-NEXT: CNDE_INT T3.X, PV.W, T0.Y, PS,
	; R600-NEXT: LSHR * T0.X, KC0[2].Y, literal.x,			; R600-NEXT: LSHR * T0.X, KC0[2].Y, literal.x,
	; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)			; R600-NEXT: 2(2.802597e-45), 0(0.000000e+00)
	;			;
	; GFX6-LABEL: test_udivrem_v4:			; GFX6-LABEL: test_udivrem_v4:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GFX6-NEXT: s_mov_b32 s13, 0x4f7ffffe
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
				; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX6-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX6-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX6-NEXT: s_sub_i32 s2, 0, s8			; GFX6-NEXT: s_sub_i32 s12, 0, s8
	; GFX6-NEXT: s_sub_i32 s12, 0, s9			; GFX6-NEXT: s_sub_i32 s13, 0, s9
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX6-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX6-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10			; GFX6-NEXT: v_cvt_f32_u32_e32 v3, s10
	; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11			; GFX6-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX6-NEXT: v_mul_f32_e32 v0, s13, v0			; GFX6-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX6-NEXT: v_mul_f32_e32 v1, s13, v1			; GFX6-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX6-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX6-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX6-NEXT: v_mul_lo_u32 v2, s12, v0
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: v_mul_lo_u32 v4, s13, v1
	; GFX6-NEXT: v_mul_lo_u32 v4, s12, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX6-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX6-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0			; GFX6-NEXT: v_add_i32_e32 v0, vcc, v2, v0
	; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX6-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1			; GFX6-NEXT: v_add_i32_e32 v1, vcc, v4, v1
	; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX6-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX6-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX6-NEXT: v_mul_f32_e32 v2, s13, v3			; GFX6-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3
	; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX6-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX6-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GFX6-NEXT: v_sub_i32_e32 v0, vcc, s4, v0
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0			; GFX6-NEXT: v_subrev_i32_e32 v3, vcc, s8, v0
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX6-NEXT: s_sub_i32 s4, 0, s10			; GFX6-NEXT: s_sub_i32 s4, 0, s10
	; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2			; GFX6-NEXT: v_mul_lo_u32 v3, s4, v2
	; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1			; GFX6-NEXT: v_sub_i32_e32 v1, vcc, s5, v1
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX6-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX6-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX6-NEXT: s_sub_i32 s4, 0, s11			; GFX6-NEXT: s_sub_i32 s4, 0, s11
	; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2			; GFX6-NEXT: v_add_i32_e32 v2, vcc, v3, v2
	; GFX6-NEXT: v_mul_f32_e32 v3, s13, v4			; GFX6-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4
	; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX6-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1			; GFX6-NEXT: v_subrev_i32_e32 v4, vcc, s9, v1
	; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX6-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3			; GFX6-NEXT: v_mul_lo_u32 v5, s4, v3
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX6-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX6-NEXT: v_mul_hi_u32 v4, v3, v5
	Show All 15 Lines
	; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3			; GFX6-NEXT: v_cmp_le_u32_e32 vcc, s11, v3
	; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc			; GFX6-NEXT: v_cndmask_b32_e32 v3, v3, v4, vcc
	; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GFX6-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_udivrem_v4:			; GFX8-LABEL: test_udivrem_v4:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34			; GFX8-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0x34
	; GFX8-NEXT: s_mov_b32 s12, 0x4f7ffffe
	; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8			; GFX8-NEXT: v_cvt_f32_u32_e32 v0, s8
	; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s9			; GFX8-NEXT: v_cvt_f32_u32_e32 v1, s9
	; GFX8-NEXT: s_sub_i32 s2, 0, s8			; GFX8-NEXT: s_sub_i32 s2, 0, s8
	; GFX8-NEXT: s_sub_i32 s3, 0, s9			; GFX8-NEXT: s_sub_i32 s3, 0, s9
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_iflag_f32_e32 v0, v0
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1			; GFX8-NEXT: v_rcp_iflag_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f32_u32_e32 v3, s10			; GFX8-NEXT: v_cvt_f32_u32_e32 v3, s10
	; GFX8-NEXT: v_cvt_f32_u32_e32 v5, s11			; GFX8-NEXT: v_cvt_f32_u32_e32 v5, s11
	; GFX8-NEXT: v_mul_f32_e32 v0, s12, v0			; GFX8-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
	; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_u32_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, s12, v1			; GFX8-NEXT: v_mul_f32_e32 v1, 0x4f7ffffe, v1
	; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_u32_f32_e32 v1, v1
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3			; GFX8-NEXT: v_rcp_iflag_f32_e32 v3, v3
	; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0			; GFX8-NEXT: v_mul_lo_u32 v2, s2, v0
	; GFX8-NEXT: s_sub_i32 s2, 0, s10			; GFX8-NEXT: s_sub_i32 s2, 0, s10
	; GFX8-NEXT: v_mul_lo_u32 v4, s3, v1			; GFX8-NEXT: v_mul_lo_u32 v4, s3, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2			; GFX8-NEXT: v_mul_hi_u32 v2, v0, v2
	; GFX8-NEXT: v_mul_hi_u32 v4, v1, v4			; GFX8-NEXT: v_mul_hi_u32 v4, v1, v4
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v2, v0
	; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0			; GFX8-NEXT: v_mul_hi_u32 v0, s4, v0
	; GFX8-NEXT: v_add_u32_e32 v1, vcc, v4, v1			; GFX8-NEXT: v_add_u32_e32 v1, vcc, v4, v1
	; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1			; GFX8-NEXT: v_mul_hi_u32 v1, s5, v1
	; GFX8-NEXT: v_mul_lo_u32 v0, v0, s8			; GFX8-NEXT: v_mul_lo_u32 v0, v0, s8
	; GFX8-NEXT: v_mul_f32_e32 v2, s12, v3			; GFX8-NEXT: v_mul_f32_e32 v2, 0x4f7ffffe, v3
	; GFX8-NEXT: v_cvt_u32_f32_e32 v2, v2			; GFX8-NEXT: v_cvt_u32_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_lo_u32 v1, v1, s9			; GFX8-NEXT: v_mul_lo_u32 v1, v1, s9
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s4, v0
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0			; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0
				; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0			; GFX8-NEXT: v_subrev_u32_e32 v3, vcc, s8, v0
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s8, v0
	; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
	; GFX8-NEXT: v_mul_lo_u32 v3, s2, v2			; GFX8-NEXT: v_mul_lo_u32 v3, s2, v2
	; GFX8-NEXT: v_sub_u32_e32 v1, vcc, s5, v1
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1			; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3			; GFX8-NEXT: v_mul_hi_u32 v3, v2, v3
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX8-NEXT: v_rcp_iflag_f32_e32 v4, v5			; GFX8-NEXT: v_rcp_iflag_f32_e32 v4, v5
	; GFX8-NEXT: s_sub_i32 s2, 0, s11			; GFX8-NEXT: s_sub_i32 s2, 0, s11
	; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v2			; GFX8-NEXT: v_add_u32_e32 v2, vcc, v3, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, s12, v4			; GFX8-NEXT: v_mul_f32_e32 v3, 0x4f7ffffe, v4
	; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1			; GFX8-NEXT: v_subrev_u32_e32 v4, vcc, s9, v1
	; GFX8-NEXT: v_mul_hi_u32 v2, s6, v2			; GFX8-NEXT: v_mul_hi_u32 v2, s6, v2
	; GFX8-NEXT: v_mul_lo_u32 v5, s2, v3			; GFX8-NEXT: v_mul_lo_u32 v5, s2, v3
	; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1			; GFX8-NEXT: v_cmp_le_u32_e32 vcc, s9, v1
	; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc			; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v4, vcc
	; GFX8-NEXT: v_mul_lo_u32 v2, v2, s10			; GFX8-NEXT: v_mul_lo_u32 v2, v2, s10
	; GFX8-NEXT: v_mul_hi_u32 v4, v3, v5			; GFX8-NEXT: v_mul_hi_u32 v4, v3, v5
	Show All 27 Lines

llvm/test/CodeGen/AMDGPU/urem-seteq-illegal-types.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn-amd-mesa3d < %s \| FileCheck %s		; RUN: llc -mtriple=amdgcn-amd-mesa3d < %s \| FileCheck %s

define i1 @test_urem_odd(i13 %X) nounwind {		define i1 @test_urem_odd(i13 %X) nounwind {
; CHECK-LABEL: test_urem_odd:		; CHECK-LABEL: test_urem_odd:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0x1fff		; CHECK-NEXT: v_and_b32_e32 v0, 0x1fff, v0
; CHECK-NEXT: s_movk_i32 s5, 0x667		; CHECK-NEXT: s_movk_i32 s4, 0x667
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0
; CHECK-NEXT: v_mul_u32_u24_e32 v0, 0xccd, v0		; CHECK-NEXT: v_mul_u32_u24_e32 v0, 0xccd, v0
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0		; CHECK-NEXT: v_and_b32_e32 v0, 0x1fff, v0
; CHECK-NEXT: v_cmp_gt_u32_e32 vcc, s5, v0		; CHECK-NEXT: v_cmp_gt_u32_e32 vcc, s4, v0
; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%urem = urem i13 %X, 5		%urem = urem i13 %X, 5
%cmp = icmp eq i13 %urem, 0		%cmp = icmp eq i13 %urem, 0
ret i1 %cmp		ret i1 %cmp
}		}

define i1 @test_urem_even(i27 %X) nounwind {		define i1 @test_urem_even(i27 %X) nounwind {
Show All 29 Lines	; CHECK-NEXT: s_setpc_b64 s[30:31]
%cmp = icmp ne i4 %urem, 0		%cmp = icmp ne i4 %urem, 0
ret i1 %cmp		ret i1 %cmp
}		}

define i1 @test_urem_negative_odd(i9 %X) nounwind {		define i1 @test_urem_negative_odd(i9 %X) nounwind {
; CHECK-LABEL: test_urem_negative_odd:		; CHECK-LABEL: test_urem_negative_odd:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0x1ff		; CHECK-NEXT: v_and_b32_e32 v0, 0x1ff, v0
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0
; CHECK-NEXT: v_mul_u32_u24_e32 v0, 0x133, v0		; CHECK-NEXT: v_mul_u32_u24_e32 v0, 0x133, v0
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0		; CHECK-NEXT: v_and_b32_e32 v0, 0x1ff, v0
; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, 1, v0		; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, 1, v0
; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%urem = urem i9 %X, -5		%urem = urem i9 %X, -5
%cmp = icmp ne i9 %urem, 0		%cmp = icmp ne i9 %urem, 0
ret i1 %cmp		ret i1 %cmp
}		}

define <3 x i1> @test_urem_vec(<3 x i11> %X) nounwind {		define <3 x i1> @test_urem_vec(<3 x i11> %X) nounwind {
; CHECK-LABEL: test_urem_vec:		; CHECK-LABEL: test_urem_vec:
; CHECK: ; %bb.0:		; CHECK: ; %bb.0:
; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; CHECK-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; CHECK-NEXT: s_movk_i32 s4, 0x7ff		; CHECK-NEXT: v_and_b32_e32 v0, 0x7ff, v0
; CHECK-NEXT: s_mov_b32 s5, 0x8311eb33		; CHECK-NEXT: v_and_b32_e32 v1, 0x7ff, v1
; CHECK-NEXT: s_mov_b32 s6, 0x20140c		; CHECK-NEXT: v_and_b32_e32 v2, 0x7ff, v2
; CHECK-NEXT: s_mov_b32 s7, 0xb6db6db7		; CHECK-NEXT: s_mov_b32 s4, 0x8311eb33
; CHECK-NEXT: s_mov_b32 s8, 0x24924924		; CHECK-NEXT: s_mov_b32 s5, 0x20140c
; CHECK-NEXT: s_mov_b32 s9, 0xaaaaaaab		; CHECK-NEXT: s_mov_b32 s6, 0xb6db6db7
; CHECK-NEXT: s_mov_b32 s10, 0x2aaaaaaa		; CHECK-NEXT: s_mov_b32 s7, 0x24924924
; CHECK-NEXT: v_and_b32_e32 v0, s4, v0		; CHECK-NEXT: s_mov_b32 s8, 0xaaaaaaab
; CHECK-NEXT: v_and_b32_e32 v1, s4, v1		; CHECK-NEXT: s_mov_b32 s9, 0x2aaaaaaa
; CHECK-NEXT: v_and_b32_e32 v2, s4, v2		; CHECK-NEXT: v_mul_lo_u32 v2, v2, s4
; CHECK-NEXT: v_mul_lo_u32 v2, v2, s5		; CHECK-NEXT: v_mul_lo_u32 v1, v1, s6
; CHECK-NEXT: v_mul_lo_u32 v1, v1, s7		; CHECK-NEXT: v_mul_lo_u32 v0, v0, s8
; CHECK-NEXT: v_mul_lo_u32 v0, v0, s9
; CHECK-NEXT: v_add_i32_e32 v2, vcc, 0xf9dc299a, v2		; CHECK-NEXT: v_add_i32_e32 v2, vcc, 0xf9dc299a, v2
; CHECK-NEXT: v_add_i32_e32 v1, vcc, 0x49249249, v1		; CHECK-NEXT: v_add_i32_e32 v1, vcc, 0x49249249, v1
; CHECK-NEXT: v_alignbit_b32 v0, v0, v0, 1		; CHECK-NEXT: v_alignbit_b32 v0, v0, v0, 1
; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s10, v0		; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s9, v0
; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v0, 0, 1, vcc
; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s8, v1		; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s7, v1
; CHECK-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v1, 0, 1, vcc
; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s6, v2		; CHECK-NEXT: v_cmp_lt_u32_e32 vcc, s5, v2
; CHECK-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc		; CHECK-NEXT: v_cndmask_b32_e64 v2, 0, 1, vcc
; CHECK-NEXT: s_setpc_b64 s[30:31]		; CHECK-NEXT: s_setpc_b64 s[30:31]
%urem = urem <3 x i11> %X, <i11 6, i11 7, i11 -5>		%urem = urem <3 x i11> %X, <i11 6, i11 7, i11 -5>
%cmp = icmp ne <3 x i11> %urem, <i11 0, i11 1, i11 2>		%cmp = icmp ne <3 x i11> %urem, <i11 0, i11 1, i11 2>
ret <3 x i1> %cmp		ret <3 x i1> %cmp
}		}

llvm/test/CodeGen/AMDGPU/urem64.ll

	Show First 20 Lines • Show All 480 Lines • ▼ Show 20 Lines
	; GCN-LABEL: s_test_urem31_v2i64:			; GCN-LABEL: s_test_urem31_v2i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s4, s5, 1			; GCN-NEXT: s_lshr_b32 s4, s9, 1
	; GCN-NEXT: s_lshr_b32 s5, s9, 1			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s5			; GCN-NEXT: s_lshr_b32 s5, s5, 1
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, s4			; GCN-NEXT: s_lshr_b32 s6, s7, 1
	; GCN-NEXT: s_lshr_b32 s6, s11, 1			; GCN-NEXT: s_lshr_b32 s7, s11, 1
	; GCN-NEXT: v_cvt_f32_u32_e32 v3, s6			; GCN-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GCN-NEXT: s_lshr_b32 s7, s7, 1			; GCN-NEXT: v_cvt_f32_u32_e32 v4, s7
	; GCN-NEXT: v_cvt_f32_u32_e32 v5, s7			; GCN-NEXT: v_cvt_f32_u32_e32 v5, s6
	; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v3			; GCN-NEXT: v_mul_f32_e32 v3, v2, v3
	; GCN-NEXT: v_mul_f32_e32 v4, v2, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-NEXT: v_trunc_f32_e32 v4, v4			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v4			; GCN-NEXT: v_mad_f32 v2, -v3, v0, v2
	; GCN-NEXT: v_mad_f32 v2, -v4, v0, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
	; GCN-NEXT: v_mul_f32_e32 v2, v5, v6			; GCN-NEXT: v_mul_f32_e32 v2, v5, v6
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v7, vcc
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s5
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v4, v2			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
	; GCN-NEXT: v_mad_f32 v2, -v2, v3, v5			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GCN-NEXT: v_mad_f32 v2, -v2, v4, v5
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v2, v2, s6			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GCN-NEXT: s_brev_b32 s4, -2			; GCN-NEXT: v_mul_lo_u32 v2, v2, s7
	; GCN-NEXT: v_and_b32_e32 v0, s4, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
				; GCN-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
				; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
				; GCN-NEXT: v_and_b32_e32 v2, 0x7fffffff, v2
	; GCN-NEXT: v_mov_b32_e32 v3, v1			; GCN-NEXT: v_mov_b32_e32 v3, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v2
	; GCN-NEXT: v_and_b32_e32 v2, s4, v2
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem31_v2i64:			; GCN-IR-LABEL: s_test_urem31_v2i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_lshr_b32 s4, s5, 1			; GCN-IR-NEXT: s_lshr_b32 s4, s9, 1
	; GCN-IR-NEXT: s_lshr_b32 s5, s9, 1			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s5			; GCN-IR-NEXT: s_lshr_b32 s5, s5, 1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s4			; GCN-IR-NEXT: s_lshr_b32 s6, s7, 1
	; GCN-IR-NEXT: s_lshr_b32 s6, s11, 1			; GCN-IR-NEXT: s_lshr_b32 s7, s11, 1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v3, s6			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v4, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GCN-IR-NEXT: s_lshr_b32 s7, s7, 1			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s7
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s7			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s6
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v6, v3			; GCN-IR-NEXT: v_mul_f32_e32 v3, v2, v3
	; GCN-IR-NEXT: v_mul_f32_e32 v4, v2, v4			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4			; GCN-IR-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v7, v4			; GCN-IR-NEXT: v_mad_f32 v2, -v3, v0, v2
	; GCN-IR-NEXT: v_mad_f32 v2, -v4, v0, v2			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v5, v6			; GCN-IR-NEXT: v_mul_f32_e32 v2, v5, v6
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v7, vcc
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s5
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v4, v2			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_mad_f32 v2, -v2, v3, v5			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GCN-IR-NEXT: v_mad_f32 v2, -v2, v4, v5
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4
	; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s6			; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GCN-IR-NEXT: s_brev_b32 s4, -2			; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s7
	; GCN-IR-NEXT: v_and_b32_e32 v0, s4, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
				; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
				; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
				; GCN-IR-NEXT: v_and_b32_e32 v2, 0x7fffffff, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, v1			; GCN-IR-NEXT: v_mov_b32_e32 v3, v1
	; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s7, v2
	; GCN-IR-NEXT: v_and_b32_e32 v2, s4, v2
	; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = lshr <2 x i64> %x, <i64 33, i64 33>			%1 = lshr <2 x i64> %x, <i64 33, i64 33>
	%2 = lshr <2 x i64> %y, <i64 33, i64 33>			%2 = lshr <2 x i64> %y, <i64 33, i64 33>
	%result = urem <2 x i64> %1, %2			%result = urem <2 x i64> %1, %2
	store <2 x i64> %result, <2 x i64> addrspace(1)* %out			store <2 x i64> %result, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; GCN-LABEL: s_test_urem23_64_v2i64:			; GCN-LABEL: s_test_urem23_64_v2i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GCN-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_lshr_b32 s4, s5, 1			; GCN-NEXT: s_lshr_b32 s4, s9, 1
	; GCN-NEXT: s_lshr_b32 s5, s9, 1			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s5			; GCN-NEXT: s_lshr_b32 s5, s5, 1
	; GCN-NEXT: v_cvt_f32_u32_e32 v2, s4			; GCN-NEXT: s_lshr_b32 s6, s7, 9
	; GCN-NEXT: s_lshr_b32 s6, s11, 9			; GCN-NEXT: s_lshr_b32 s7, s11, 9
	; GCN-NEXT: v_cvt_f32_u32_e32 v3, s6			; GCN-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GCN-NEXT: v_rcp_iflag_f32_e32 v4, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GCN-NEXT: s_lshr_b32 s7, s7, 9			; GCN-NEXT: v_cvt_f32_u32_e32 v4, s7
	; GCN-NEXT: v_cvt_f32_u32_e32 v5, s7			; GCN-NEXT: v_cvt_f32_u32_e32 v5, s6
	; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v3			; GCN-NEXT: v_mul_f32_e32 v3, v2, v3
	; GCN-NEXT: v_mul_f32_e32 v4, v2, v4			; GCN-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-NEXT: v_trunc_f32_e32 v4, v4			; GCN-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-NEXT: v_cvt_u32_f32_e32 v7, v4			; GCN-NEXT: v_mad_f32 v2, -v3, v0, v2
	; GCN-NEXT: v_mad_f32 v2, -v4, v0, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
	; GCN-NEXT: v_mul_f32_e32 v2, v5, v6			; GCN-NEXT: v_mul_f32_e32 v2, v5, v6
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v7, vcc
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s5
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v4, v2			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
	; GCN-NEXT: v_mad_f32 v2, -v2, v3, v5			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GCN-NEXT: v_mad_f32 v2, -v2, v4, v5
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4
	; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: v_mul_lo_u32 v2, v2, s6			; GCN-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GCN-NEXT: s_brev_b32 s4, -2			; GCN-NEXT: v_mul_lo_u32 v2, v2, s7
	; GCN-NEXT: v_and_b32_e32 v0, s4, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
				; GCN-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
				; GCN-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
				; GCN-NEXT: v_and_b32_e32 v2, 0x7fffffff, v2
	; GCN-NEXT: v_mov_b32_e32 v3, v1			; GCN-NEXT: v_mov_b32_e32 v3, v1
	; GCN-NEXT: v_sub_i32_e32 v2, vcc, s7, v2
	; GCN-NEXT: v_and_b32_e32 v2, s4, v2
	; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem23_64_v2i64:			; GCN-IR-LABEL: s_test_urem23_64_v2i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd			; GCN-IR-NEXT: s_load_dwordx8 s[4:11], s[0:1], 0xd
	; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x9
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_lshr_b32 s4, s5, 1			; GCN-IR-NEXT: s_lshr_b32 s4, s9, 1
	; GCN-IR-NEXT: s_lshr_b32 s5, s9, 1			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s5			; GCN-IR-NEXT: s_lshr_b32 s5, s5, 1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s4			; GCN-IR-NEXT: s_lshr_b32 s6, s7, 9
	; GCN-IR-NEXT: s_lshr_b32 s6, s11, 9			; GCN-IR-NEXT: s_lshr_b32 s7, s11, 9
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v3, s6			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v2, s5
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v4, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v3, v0
	; GCN-IR-NEXT: s_lshr_b32 s7, s7, 9			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v4, s7
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s7			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v5, s6
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v6, v3			; GCN-IR-NEXT: v_mul_f32_e32 v3, v2, v3
	; GCN-IR-NEXT: v_mul_f32_e32 v4, v2, v4			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v6, v4
	; GCN-IR-NEXT: v_trunc_f32_e32 v4, v4			; GCN-IR-NEXT: v_trunc_f32_e32 v3, v3
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v7, v4			; GCN-IR-NEXT: v_mad_f32 v2, -v3, v0, v2
	; GCN-IR-NEXT: v_mad_f32 v2, -v4, v0, v2			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v3
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v2, v5, v6			; GCN-IR-NEXT: v_mul_f32_e32 v2, v5, v6
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v7, vcc
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s5
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v4, v2			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_mad_f32 v2, -v2, v3, v5			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s4, v0			; GCN-IR-NEXT: v_mad_f32 v2, -v2, v4, v5
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v3			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v4
	; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v4, vcc			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s6			; GCN-IR-NEXT: v_addc_u32_e32 v2, vcc, 0, v3, vcc
	; GCN-IR-NEXT: s_brev_b32 s4, -2			; GCN-IR-NEXT: v_mul_lo_u32 v2, v2, s7
	; GCN-IR-NEXT: v_and_b32_e32 v0, s4, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, s5, v0
				; GCN-IR-NEXT: v_and_b32_e32 v0, 0x7fffffff, v0
				; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s6, v2
				; GCN-IR-NEXT: v_and_b32_e32 v2, 0x7fffffff, v2
	; GCN-IR-NEXT: v_mov_b32_e32 v3, v1			; GCN-IR-NEXT: v_mov_b32_e32 v3, v1
	; GCN-IR-NEXT: v_sub_i32_e32 v2, vcc, s7, v2
	; GCN-IR-NEXT: v_and_b32_e32 v2, s4, v2
	; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0			; GCN-IR-NEXT: buffer_store_dwordx4 v[0:3], off, s[0:3], 0
	; GCN-IR-NEXT: s_endpgm			; GCN-IR-NEXT: s_endpgm
	%1 = lshr <2 x i64> %x, <i64 33, i64 41>			%1 = lshr <2 x i64> %x, <i64 33, i64 41>
	%2 = lshr <2 x i64> %y, <i64 33, i64 41>			%2 = lshr <2 x i64> %y, <i64 33, i64 41>
	%result = urem <2 x i64> %1, %2			%result = urem <2 x i64> %1, %2
	store <2 x i64> %result, <2 x i64> addrspace(1)* %out			store <2 x i64> %result, <2 x i64> addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 656 Lines • ▼ Show 20 Lines
	; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-NEXT: s_mov_b32 s5, 0x41c00000			; GCN-NEXT: s_mov_b32 s5, 0x41c00000
	; GCN-NEXT: s_waitcnt lgkmcnt(0)			; GCN-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-NEXT: s_mov_b32 s2, -1			; GCN-NEXT: s_mov_b32 s2, -1
	; GCN-NEXT: s_lshr_b32 s4, s3, 8			; GCN-NEXT: s_lshr_b32 s4, s3, 8
	; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4			; GCN-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-NEXT: s_mov_b32 s3, 0xf000			; GCN-NEXT: s_mov_b32 s3, 0xf000
	; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-NEXT: v_mul_f32_e32 v1, s5, v1			; GCN-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-NEXT: v_trunc_f32_e32 v1, v1			; GCN-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-NEXT: v_mad_f32 v1, -v1, v0, s5			; GCN-NEXT: v_mad_f32 v1, -v1, v0, s5
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GCN-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GCN-NEXT: s_endpgm			; GCN-NEXT: s_endpgm
	;			;
	; GCN-IR-LABEL: s_test_urem24_k_num_i64:			; GCN-IR-LABEL: s_test_urem24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9			; GCN-IR-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x9
	; GCN-IR-NEXT: s_mov_b32 s5, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s5, 0x41c00000
	; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt lgkmcnt(0)
	; GCN-IR-NEXT: s_mov_b32 s2, -1			; GCN-IR-NEXT: s_mov_b32 s2, -1
	; GCN-IR-NEXT: s_lshr_b32 s4, s3, 8			; GCN-IR-NEXT: s_lshr_b32 s4, s3, 8
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v0, s4
	; GCN-IR-NEXT: s_mov_b32 s3, 0xf000			; GCN-IR-NEXT: s_mov_b32 s3, 0xf000
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v1, v0
	; GCN-IR-NEXT: v_mul_f32_e32 v1, s5, v1			; GCN-IR-NEXT: v_mul_f32_e32 v1, 0x41c00000, v1
	; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1			; GCN-IR-NEXT: v_trunc_f32_e32 v1, v1
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s5			; GCN-IR-NEXT: v_mad_f32 v1, -v1, v0, s5
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v1\|, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v0, vcc, 0, v2, vcc
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4			; GCN-IR-NEXT: v_mul_lo_u32 v0, v0, s4
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	define i64 @v_test_urem24_k_num_i64(i64 %x) {			define i64 @v_test_urem24_k_num_i64(i64 %x) {
	; GCN-LABEL: v_test_urem24_k_num_i64:			; GCN-LABEL: v_test_urem24_k_num_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0
	; GCN-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-NEXT: v_mad_f32 v2, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v2, -v2, v1, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_urem24_k_num_i64:			; GCN-IR-LABEL: v_test_urem24_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, v0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000			; GCN-IR-NEXT: s_mov_b32 s4, 0x41c00000
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x41c00000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-IR-NEXT: v_mad_f32 v2, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v2, -v2, v1, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1
	; GCN-IR-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 24, v0
	; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-IR-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-IR-NEXT: s_setpc_b64 s[30:31]			; GCN-IR-NEXT: s_setpc_b64 s[30:31]
	%x.shr = lshr i64 %x, 40			%x.shr = lshr i64 %x, 40
	%result = urem i64 24, %x.shr			%result = urem i64 24, %x.shr
	ret i64 %result			ret i64 %result
	}			}

	define i64 @v_test_urem24_pow2_k_num_i64(i64 %x) {			define i64 @v_test_urem24_pow2_k_num_i64(i64 %x) {
	; GCN-LABEL: v_test_urem24_pow2_k_num_i64:			; GCN-LABEL: v_test_urem24_pow2_k_num_i64:
	; GCN: ; %bb.0:			; GCN: ; %bb.0:
	; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0			; GCN-NEXT: v_cvt_f32_u32_e32 v1, v0
	; GCN-NEXT: s_mov_b32 s4, 0x47000000			; GCN-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-NEXT: v_trunc_f32_e32 v2, v2			; GCN-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2			; GCN-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-NEXT: v_mad_f32 v2, -v2, v1, s4			; GCN-NEXT: v_mad_f32 v2, -v2, v1, s4
	; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1			; GCN-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1
	; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; GCN-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; GCN-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-NEXT: v_mov_b32_e32 v1, 0			; GCN-NEXT: v_mov_b32_e32 v1, 0
	; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0			; GCN-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
	; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0			; GCN-NEXT: v_and_b32_e32 v0, 0xffffff, v0
	; GCN-NEXT: s_setpc_b64 s[30:31]			; GCN-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GCN-IR-LABEL: v_test_urem24_pow2_k_num_i64:			; GCN-IR-LABEL: v_test_urem24_pow2_k_num_i64:
	; GCN-IR: ; %bb.0:			; GCN-IR: ; %bb.0:
	; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GCN-IR-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1			; GCN-IR-NEXT: v_lshrrev_b32_e32 v0, 8, v1
	; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, v0			; GCN-IR-NEXT: v_cvt_f32_u32_e32 v1, v0
	; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000			; GCN-IR-NEXT: s_mov_b32 s4, 0x47000000
	; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1			; GCN-IR-NEXT: v_rcp_iflag_f32_e32 v2, v1
	; GCN-IR-NEXT: v_mul_f32_e32 v2, s4, v2			; GCN-IR-NEXT: v_mul_f32_e32 v2, 0x47000000, v2
	; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2			; GCN-IR-NEXT: v_trunc_f32_e32 v2, v2
	; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2			; GCN-IR-NEXT: v_cvt_u32_f32_e32 v3, v2
	; GCN-IR-NEXT: v_mad_f32 v2, -v2, v1, s4			; GCN-IR-NEXT: v_mad_f32 v2, -v2, v1, s4
	; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1			; GCN-IR-NEXT: v_cmp_ge_f32_e64 vcc, \|v2\|, v1
	; GCN-IR-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc			; GCN-IR-NEXT: v_addc_u32_e32 v1, vcc, 0, v3, vcc
	; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0			; GCN-IR-NEXT: v_mul_lo_u32 v0, v1, v0
	; GCN-IR-NEXT: v_mov_b32_e32 v1, 0			; GCN-IR-NEXT: v_mov_b32_e32 v1, 0
	; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0			; GCN-IR-NEXT: v_sub_i32_e32 v0, vcc, 0x8000, v0
	Show All 36 Lines

llvm/test/CodeGen/AMDGPU/usubsat.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck --check-prefix=GFX6 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti < %s \| FileCheck --check-prefix=GFX6 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck --check-prefix=GFX8 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=fiji < %s \| FileCheck --check-prefix=GFX8 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck --check-prefix=GFX9 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 < %s \| FileCheck --check-prefix=GFX9 %s
; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck --check-prefix=GFX10 %s		; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s \| FileCheck --check-prefix=GFX10 %s

define i8 @v_usubsat_i8(i8 %lhs, i8 %rhs) {		define i8 @v_usubsat_i8(i8 %lhs, i8 %rhs) {
; GFX6-LABEL: v_usubsat_i8:		; GFX6-LABEL: v_usubsat_i8:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_movk_i32 s4, 0xff		; GFX6-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v0, v0, v1		; GFX6-NEXT: v_max_u32_e32 v0, v0, v1
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_i8:		; GFX8-LABEL: v_usubsat_i8:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0		; GFX8-NEXT: v_sub_u16_sdwa v0, v0, v1 clamp dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:BYTE_0
Show All 16 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i8 @llvm.usub.sat.i8(i8 %lhs, i8 %rhs)		%result = call i8 @llvm.usub.sat.i8(i8 %lhs, i8 %rhs)
ret i8 %result		ret i8 %result
}		}

define i16 @v_usubsat_i16(i16 %lhs, i16 %rhs) {		define i16 @v_usubsat_i16(i16 %lhs, i16 %rhs) {
; GFX6-LABEL: v_usubsat_i16:		; GFX6-LABEL: v_usubsat_i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v0, v0, v1		; GFX6-NEXT: v_max_u32_e32 v0, v0, v1
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v1
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX8-LABEL: v_usubsat_i16:		; GFX8-LABEL: v_usubsat_i16:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp		; GFX8-NEXT: v_sub_u16_e64 v0, v0, v1 clamp
▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call i32 @llvm.usub.sat.i32(i32 %lhs, i32 %rhs)		%result = call i32 @llvm.usub.sat.i32(i32 %lhs, i32 %rhs)
ret i32 %result		ret i32 %result
}		}

define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {		define <2 x i16> @v_usubsat_v2i16(<2 x i16> %lhs, <2 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v2i16:		; GFX6-LABEL: v_usubsat_v2i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v4, s4, v3		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v1, v1, v4		; GFX6-NEXT: v_max_u32_e32 v1, v1, v4
; GFX6-NEXT: v_max_u32_e32 v0, v0, v2		; GFX6-NEXT: v_max_u32_e32 v0, v0, v2
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v3
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v2
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0		; GFX6-NEXT: v_lshrrev_b32_e32 v1, 16, v0
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
Show All 21 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)		%result = call <2 x i16> @llvm.usub.sat.v2i16(<2 x i16> %lhs, <2 x i16> %rhs)
ret <2 x i16> %result		ret <2 x i16> %result
}		}

define <3 x i16> @v_usubsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {		define <3 x i16> @v_usubsat_v3i16(<3 x i16> %lhs, <3 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v3i16:		; GFX6-LABEL: v_usubsat_v3i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v6, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v6, s4, v4		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v1, v1, v6		; GFX6-NEXT: v_max_u32_e32 v1, v1, v6
; GFX6-NEXT: v_max_u32_e32 v0, v0, v3		; GFX6-NEXT: v_max_u32_e32 v0, v0, v3
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v4
; GFX6-NEXT: v_and_b32_e32 v5, s4, v5		; GFX6-NEXT: v_and_b32_e32 v5, 0xffff, v5
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v3
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_max_u32_e32 v1, v2, v5		; GFX6-NEXT: v_max_u32_e32 v1, v2, v5
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v1, v5		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v1, v5
; GFX6-NEXT: v_alignbit_b32 v1, v2, v0, 16		; GFX6-NEXT: v_alignbit_b32 v1, v2, v0, 16
; GFX6-NEXT: s_setpc_b64 s[30:31]		; GFX6-NEXT: s_setpc_b64 s[30:31]
;		;
Show All 23 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
%result = call <3 x i16> @llvm.usub.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)		%result = call <3 x i16> @llvm.usub.sat.v3i16(<3 x i16> %lhs, <3 x i16> %rhs)
ret <3 x i16> %result		ret <3 x i16> %result
}		}

define <2 x float> @v_usubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {		define <2 x float> @v_usubsat_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
; GFX6-LABEL: v_usubsat_v4i16:		; GFX6-LABEL: v_usubsat_v4i16:
; GFX6: ; %bb.0:		; GFX6: ; %bb.0:
; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX6-NEXT: s_mov_b32 s4, 0xffff		; GFX6-NEXT: v_and_b32_e32 v9, 0xffff, v5
; GFX6-NEXT: v_and_b32_e32 v9, s4, v5		; GFX6-NEXT: v_and_b32_e32 v1, 0xffff, v1
; GFX6-NEXT: v_and_b32_e32 v1, s4, v1		; GFX6-NEXT: v_and_b32_e32 v4, 0xffff, v4
; GFX6-NEXT: v_and_b32_e32 v4, s4, v4		; GFX6-NEXT: v_and_b32_e32 v0, 0xffff, v0
; GFX6-NEXT: v_and_b32_e32 v0, s4, v0
; GFX6-NEXT: v_max_u32_e32 v1, v1, v9		; GFX6-NEXT: v_max_u32_e32 v1, v1, v9
; GFX6-NEXT: v_max_u32_e32 v0, v0, v4		; GFX6-NEXT: v_max_u32_e32 v0, v0, v4
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v5
; GFX6-NEXT: v_and_b32_e32 v8, s4, v7		; GFX6-NEXT: v_and_b32_e32 v8, 0xffff, v7
; GFX6-NEXT: v_and_b32_e32 v3, s4, v3		; GFX6-NEXT: v_and_b32_e32 v3, 0xffff, v3
; GFX6-NEXT: v_and_b32_e32 v6, s4, v6		; GFX6-NEXT: v_and_b32_e32 v6, 0xffff, v6
; GFX6-NEXT: v_and_b32_e32 v2, s4, v2		; GFX6-NEXT: v_and_b32_e32 v2, 0xffff, v2
; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4		; GFX6-NEXT: v_sub_i32_e32 v0, vcc, v0, v4
; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX6-NEXT: v_lshlrev_b32_e32 v1, 16, v1
; GFX6-NEXT: v_or_b32_e32 v0, v0, v1		; GFX6-NEXT: v_or_b32_e32 v0, v0, v1
; GFX6-NEXT: v_max_u32_e32 v1, v2, v6		; GFX6-NEXT: v_max_u32_e32 v1, v2, v6
; GFX6-NEXT: v_max_u32_e32 v2, v3, v8		; GFX6-NEXT: v_max_u32_e32 v2, v3, v8
; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v7		; GFX6-NEXT: v_sub_i32_e32 v2, vcc, v2, v7
; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v6		; GFX6-NEXT: v_sub_i32_e32 v1, vcc, v1, v6
; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX6-NEXT: v_lshlrev_b32_e32 v2, 16, v2
▲ Show 20 Lines • Show All 391 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll

Show First 20 Lines • Show All 947 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
ret <4 x half> %shuffle		ret <4 x half> %shuffle
}		}

define <4 x half> @shuffle_v4f16_1100(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {		define <4 x half> @shuffle_v4f16_1100(<4 x half> addrspace(1)* %arg0, <4 x half> addrspace(1)* %arg1) {
; GFX9-LABEL: shuffle_v4f16_1100:		; GFX9-LABEL: shuffle_v4f16_1100:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[0:1], v[0:1], off
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_e32 v1, v2, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v0
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0		; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1		; GFX9-NEXT: v_lshl_or_b32 v1, v0, 16, v1
; GFX9-NEXT: v_and_b32_e32 v0, v2, v3		; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v2
; GFX9-NEXT: v_lshl_or_b32 v0, v3, 16, v0		; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_1100:		; GFX10-LABEL: shuffle_v4f16_1100:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: global_load_dwordx2 v[1:2], v[0:1], off		; GFX10-NEXT: global_load_dwordx2 v[1:2], v[0:1], off
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[4:5], v[0:1], off		; GFX9-NEXT: global_load_dwordx2 v[4:5], v[0:1], off
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off		; GFX9-NEXT: global_load_dwordx2 v[5:6], v[2:3], off
; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1		; GFX9-NEXT: ; kill: killed $vgpr0 killed $vgpr1
; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
; GFX9-NEXT: ; kill: killed $vgpr2 killed $vgpr3		; GFX9-NEXT: ; kill: killed $vgpr2 killed $vgpr3
; GFX9-NEXT: v_and_b32_e32 v1, v0, v4		; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v4
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_and_b32_sdwa v2, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX9-NEXT: v_and_b32_sdwa v2, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v1		; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v1
; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v2		; GFX9-NEXT: v_lshl_or_b32 v1, v6, 16, v2
; GFX9-NEXT: s_setpc_b64 s[30:31]		; GFX9-NEXT: s_setpc_b64 s[30:31]
;		;
; GFX10-LABEL: shuffle_v4f16_0456:		; GFX10-LABEL: shuffle_v4f16_0456:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Aggressively fold immediates in SIShrinkInstructionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 430306

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/add.v2i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/addo.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/andn2.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ashr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-neg-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/flat-scratch.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fmul.v2f16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/hip.extern.shared.array.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.1d.d16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.sdot4.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.udot4.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/lshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/mul.v2i16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/orn2.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/shl-ext-reduce.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/subo.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/trunc.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i32.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll

llvm/test/CodeGen/AMDGPU/add.v2i16.ll

llvm/test/CodeGen/AMDGPU/amdgpu-codegenprepare-idiv.ll

llvm/test/CodeGen/AMDGPU/amdgpu-mul24-knownbits.ll

llvm/test/CodeGen/AMDGPU/and.ll

llvm/test/CodeGen/AMDGPU/bswap.ll

llvm/test/CodeGen/AMDGPU/copy-illegal-type.ll

llvm/test/CodeGen/AMDGPU/ctpop16.ll

llvm/test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

llvm/test/CodeGen/AMDGPU/extract-subvector-16bit.ll

llvm/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

llvm/test/CodeGen/AMDGPU/fexp.ll

llvm/test/CodeGen/AMDGPU/flat-scratch.ll

llvm/test/CodeGen/AMDGPU/fmax_legacy.f16.ll

llvm/test/CodeGen/AMDGPU/fmin_legacy.f16.ll

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

llvm/test/CodeGen/AMDGPU/fold-imm-f16-f32.mir

llvm/test/CodeGen/AMDGPU/fp_to_uint.ll

llvm/test/CodeGen/AMDGPU/fpow.ll

llvm/test/CodeGen/AMDGPU/frem.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/idot2.ll

llvm/test/CodeGen/AMDGPU/idot4s.ll

llvm/test/CodeGen/AMDGPU/idot4u.ll

llvm/test/CodeGen/AMDGPU/idot8s.ll

llvm/test/CodeGen/AMDGPU/idot8u.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

llvm/test/CodeGen/AMDGPU/llvm.cos.f16.ll

llvm/test/CodeGen/AMDGPU/llvm.log.f16.ll

[AMDGPU] Aggressively fold immediates in SIShrinkInstructions
ClosedPublic