This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Avoid inserting noops during scheduling
ClosedPublic

Authored by kerbowa on Oct 19 2020, 5:14 PM.

Download Raw Diff

Details

Reviewers

rampitec
foad
t-tye
arsenm

Commits

rGebdcef20ce29: [AMDGPU] Avoid inserting noops during scheduling

Summary

Passes that are run after the post-RA scheduler may insert instructions like
waitcnt which eliminate the need for certain noops. After this patch the
scheduler is still aware of possible latency from hazards but noops will
not be inserted until the dedicated hazard recognizer pass is run.

Depends on D89753.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

kerbowa created this revision.Oct 19 2020, 5:14 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 19 2020, 5:14 PM

Herald added subscribers: llvm-commits, hiraditya, tpr and 5 others. · View Herald Transcript

kerbowa requested review of this revision.Oct 19 2020, 5:14 PM

Herald added a subscriber: wdng. · View Herald TranscriptOct 19 2020, 5:14 PM

Harbormaster completed remote builds in B75626: Diff 299226.Oct 19 2020, 6:26 PM

Looks good to me.

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp
605–633	Shouldn't this be part of the previous patch?

This revision is now accepted and ready to land.Oct 20 2020, 2:04 AM

kerbowa added inline comments.Oct 20 2020, 10:01 AM

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp
605–633	The scheduler still emits noops one at a time. So we cannot remove this in the earlier patch.

foad added inline comments.Oct 20 2020, 10:50 AM

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp
605–633	Fair enough.

This revision was landed with ongoing or failed builds.Oct 20 2020, 5:12 PM

Closed by commit rGebdcef20ce29: [AMDGPU] Avoid inserting noops during scheduling (authored by kerbowa). · Explain Why

This revision was automatically updated to reflect the committed changes.

kerbowa added a commit: rGebdcef20ce29: [AMDGPU] Avoid inserting noops during scheduling.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

GCNHazardRecognizer.cpp

44 lines

SIShrinkInstructions.cpp

29 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

extractelement.i128.ll

1 line

llvm.amdgcn.div.fmas.ll

6 lines

llvm.amdgcn.update.dpp.ll

4 lines

atomic_optimizations_local_pointer.ll

86 lines

atomic_optimizations_pixelshader.ll

2 lines

global-saddr-atomics.ll

16 lines

llvm.amdgcn.update.dpp.ll

4 lines

memory_clause.ll

6 lines

nop-fold.mir

power-sched-no-instr-sunit.mir

1 line

Diff 299522

llvm/lib/Target/AMDGPU/GCNHazardRecognizer.cpp

Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines	static unsigned getHWReg(const SIInstrInfo *TII, const MachineInstr &RegInstr) {
const MachineOperand *RegOp = TII->getNamedOperand(RegInstr,		const MachineOperand *RegOp = TII->getNamedOperand(RegInstr,
AMDGPU::OpName::simm16);		AMDGPU::OpName::simm16);
return RegOp->getImm() & AMDGPU::Hwreg::ID_MASK_;		return RegOp->getImm() & AMDGPU::Hwreg::ID_MASK_;
}		}

ScheduleHazardRecognizer::HazardType		ScheduleHazardRecognizer::HazardType
GCNHazardRecognizer::getHazardType(SUnit *SU, int Stalls) {		GCNHazardRecognizer::getHazardType(SUnit *SU, int Stalls) {
MachineInstr *MI = SU->getInstr();		MachineInstr *MI = SU->getInstr();
		// If we are not in "HazardRecognizerMode" and therefore not being run from
		// the scheduler, track possible stalls from hazards but don't insert noops.
		auto HazardType = IsHazardRecognizerMode ? NoopHazard : Hazard;

if (MI->isBundle())		if (MI->isBundle())
return NoHazard;		return NoHazard;

if (SIInstrInfo::isSMRD(*MI) && checkSMRDHazards(MI) > 0)		if (SIInstrInfo::isSMRD(*MI) && checkSMRDHazards(MI) > 0)
return NoopHazard;		return HazardType;

// FIXME: Should flat be considered vmem?		// FIXME: Should flat be considered vmem?
if ((SIInstrInfo::isVMEM(*MI) \|\|		if ((SIInstrInfo::isVMEM(*MI) \|\|
SIInstrInfo::isFLAT(*MI))		SIInstrInfo::isFLAT(*MI))
&& checkVMEMHazards(MI) > 0)		&& checkVMEMHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (ST.hasNSAtoVMEMBug() && checkNSAtoVMEMHazard(MI) > 0)		if (ST.hasNSAtoVMEMBug() && checkNSAtoVMEMHazard(MI) > 0)
return NoopHazard;		return HazardType;

if (checkFPAtomicToDenormModeHazard(MI) > 0)		if (checkFPAtomicToDenormModeHazard(MI) > 0)
return NoopHazard;		return HazardType;

if (ST.hasNoDataDepHazard())		if (ST.hasNoDataDepHazard())
return NoHazard;		return NoHazard;

if (SIInstrInfo::isVALU(*MI) && checkVALUHazards(MI) > 0)		if (SIInstrInfo::isVALU(*MI) && checkVALUHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (SIInstrInfo::isDPP(*MI) && checkDPPHazards(MI) > 0)		if (SIInstrInfo::isDPP(*MI) && checkDPPHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (isDivFMas(MI->getOpcode()) && checkDivFMasHazards(MI) > 0)		if (isDivFMas(MI->getOpcode()) && checkDivFMasHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (isRWLane(MI->getOpcode()) && checkRWLaneHazards(MI) > 0)		if (isRWLane(MI->getOpcode()) && checkRWLaneHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (isSGetReg(MI->getOpcode()) && checkGetRegHazards(MI) > 0)		if (isSGetReg(MI->getOpcode()) && checkGetRegHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (isSSetReg(MI->getOpcode()) && checkSetRegHazards(MI) > 0)		if (isSSetReg(MI->getOpcode()) && checkSetRegHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (isRFE(MI->getOpcode()) && checkRFEHazards(MI) > 0)		if (isRFE(MI->getOpcode()) && checkRFEHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (ST.hasReadM0MovRelInterpHazard() &&		if (ST.hasReadM0MovRelInterpHazard() &&
(TII.isVINTRP(*MI) \|\| isSMovRel(MI->getOpcode())) &&		(TII.isVINTRP(*MI) \|\| isSMovRel(MI->getOpcode())) &&
checkReadM0Hazards(MI) > 0)		checkReadM0Hazards(MI) > 0)
return NoopHazard;		return HazardType;

if (ST.hasReadM0SendMsgHazard() && isSendMsgTraceDataOrGDS(TII, *MI) &&		if (ST.hasReadM0SendMsgHazard() && isSendMsgTraceDataOrGDS(TII, *MI) &&
checkReadM0Hazards(MI) > 0)		checkReadM0Hazards(MI) > 0)
return NoopHazard;		return HazardType;

if (SIInstrInfo::isMAI(*MI) && checkMAIHazards(MI) > 0)		if (SIInstrInfo::isMAI(*MI) && checkMAIHazards(MI) > 0)
return NoopHazard;		return HazardType;

if ((SIInstrInfo::isVMEM(*MI) \|\|		if ((SIInstrInfo::isVMEM(*MI) \|\|
SIInstrInfo::isFLAT(*MI) \|\|		SIInstrInfo::isFLAT(*MI) \|\|
SIInstrInfo::isDS(*MI)) && checkMAILdStHazards(MI) > 0)		SIInstrInfo::isDS(*MI)) && checkMAILdStHazards(MI) > 0)
return NoopHazard;		return HazardType;

if (MI->isInlineAsm() && checkInlineAsmHazards(MI) > 0)		if (MI->isInlineAsm() && checkInlineAsmHazards(MI) > 0)
return NoopHazard;		return HazardType;

return NoHazard;		return NoHazard;
}		}

static void insertNoopInBundle(MachineInstr *MI, const SIInstrInfo &TII) {		static void insertNoopInBundle(MachineInstr *MI, const SIInstrInfo &TII) {
BuildMI(*MI->getParent(), MI, MI->getDebugLoc(), TII.get(AMDGPU::S_NOP))		BuildMI(*MI->getParent(), MI, MI->getDebugLoc(), TII.get(AMDGPU::S_NOP))
.addImm(0);		.addImm(0);
}		}
▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines

void GCNHazardRecognizer::EmitNoop() {		void GCNHazardRecognizer::EmitNoop() {
EmittedInstrs.push_front(nullptr);		EmittedInstrs.push_front(nullptr);
}		}

void GCNHazardRecognizer::AdvanceCycle() {		void GCNHazardRecognizer::AdvanceCycle() {
// When the scheduler detects a stall, it will call AdvanceCycle() without		// When the scheduler detects a stall, it will call AdvanceCycle() without
// emitting any instructions.		// emitting any instructions.
if (!CurrCycleInstr)		if (!CurrCycleInstr) {
		EmittedInstrs.push_front(nullptr);
return;		return;
		}

// Do not track non-instructions which do not affect the wait states.		// Do not track non-instructions which do not affect the wait states.
// If included, these instructions can lead to buffer overflow such that		// If included, these instructions can lead to buffer overflow such that
// detectable hazards are missed.		// detectable hazards are missed.
if (CurrCycleInstr->isImplicitDef() \|\| CurrCycleInstr->isDebugInstr() \|\|		if (CurrCycleInstr->isImplicitDef() \|\| CurrCycleInstr->isDebugInstr() \|\|
CurrCycleInstr->isKill())		CurrCycleInstr->isKill()) {
		CurrCycleInstr = nullptr;
return;		return;
		}

if (CurrCycleInstr->isBundle()) {		if (CurrCycleInstr->isBundle()) {
processBundle();		processBundle();
return;		return;
}		}

unsigned NumWaitStates = TII.getNumWaitStates(*CurrCycleInstr);		unsigned NumWaitStates = TII.getNumWaitStates(*CurrCycleInstr);

▲ Show 20 Lines • Show All 1,091 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIShrinkInstructions.cpp

Show First 20 Lines • Show All 596 Lines • ▼ Show 20 Lines	for (I = MBB.begin(); I != MBB.end(); I = Next) {
if (ST.hasSwap() && (MI.getOpcode() == AMDGPU::V_MOV_B32_e32 \|\|		if (ST.hasSwap() && (MI.getOpcode() == AMDGPU::V_MOV_B32_e32 \|\|
MI.getOpcode() == AMDGPU::COPY)) {		MI.getOpcode() == AMDGPU::COPY)) {
if (auto *NextMI = matchSwap(MI, MRI, TII)) {		if (auto *NextMI = matchSwap(MI, MRI, TII)) {
Next = NextMI->getIterator();		Next = NextMI->getIterator();
continue;		continue;
}		}
}		}

// Combine adjacent s_nops to use the immediate operand encoding how long
// to wait.
//
// s_nop N
// s_nop M
// =>
// s_nop (N + M)
if (MI.getOpcode() == AMDGPU::S_NOP &&
MI.getNumOperands() == 1 && // Don't merge with implicit operands
Next != MBB.end() &&
(*Next).getOpcode() == AMDGPU::S_NOP &&
(*Next).getNumOperands() == 1) {

MachineInstr &NextMI = *Next;
// The instruction encodes the amount to wait with an offset of 1,
// i.e. 0 is wait 1 cycle. Convert both to cycles and then convert back
// after adding.
uint8_t Nop0 = MI.getOperand(0).getImm() + 1;
uint8_t Nop1 = NextMI.getOperand(0).getImm() + 1;

// Make sure we don't overflow the bounds.
if (Nop0 + Nop1 <= 8) {
NextMI.getOperand(0).setImm(Nop0 + Nop1 - 1);
MI.eraseFromParent();
}

continue;
}

foadUnsubmitted Not Done Reply Inline Actions Shouldn't this be part of the previous patch? foad: Shouldn't this be part of the previous patch?
kerbowaAuthorUnsubmitted Not Done Reply Inline Actions The scheduler still emits noops one at a time. So we cannot remove this in the earlier patch. kerbowa: The scheduler still emits noops one at a time. So we cannot remove this in the earlier patch.
foadUnsubmitted Not Done Reply Inline Actions Fair enough. foad: Fair enough.
// FIXME: We also need to consider movs of constant operands since		// FIXME: We also need to consider movs of constant operands since
// immediate operands are not folded if they have more than one use, and		// immediate operands are not folded if they have more than one use, and
// the operand folding pass is unaware if the immediate will be free since		// the operand folding pass is unaware if the immediate will be free since
// it won't know if the src == dest constraint will end up being		// it won't know if the src == dest constraint will end up being
// satisfied.		// satisfied.
if (MI.getOpcode() == AMDGPU::S_ADD_I32 \|\|		if (MI.getOpcode() == AMDGPU::S_ADD_I32 \|\|
MI.getOpcode() == AMDGPU::S_MUL_I32) {		MI.getOpcode() == AMDGPU::S_MUL_I32) {
const MachineOperand *Dest = &MI.getOperand(0);		const MachineOperand *Dest = &MI.getOperand(0);
▲ Show 20 Lines • Show All 166 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/extractelement.i128.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s

	define amdgpu_ps i128 @extractelement_sgpr_v4i128_sgpr_idx(<4 x i128> addrspace(4)* inreg %ptr, i32 inreg %idx) {			define amdgpu_ps i128 @extractelement_sgpr_v4i128_sgpr_idx(<4 x i128> addrspace(4)* inreg %ptr, i32 inreg %idx) {
	; GFX9-LABEL: extractelement_sgpr_v4i128_sgpr_idx:			; GFX9-LABEL: extractelement_sgpr_v4i128_sgpr_idx:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx16 s[8:23], s[2:3], 0x0			; GFX9-NEXT: s_load_dwordx16 s[8:23], s[2:3], 0x0
	; GFX9-NEXT: s_lshl_b32 m0, s4, 1			; GFX9-NEXT: s_lshl_b32 m0, s4, 1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: s_movrels_b64 s[0:1], s[8:9]			; GFX9-NEXT: s_movrels_b64 s[0:1], s[8:9]
	; GFX9-NEXT: s_movrels_b64 s[2:3], s[10:11]			; GFX9-NEXT: s_movrels_b64 s[2:3], s[10:11]
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: extractelement_sgpr_v4i128_sgpr_idx:			; GFX8-LABEL: extractelement_sgpr_v4i128_sgpr_idx:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_load_dwordx16 s[8:23], s[2:3], 0x0			; GFX8-NEXT: s_load_dwordx16 s[8:23], s[2:3], 0x0
	▲ Show 20 Lines • Show All 705 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.div.fmas.ll

	Show First 20 Lines • Show All 881 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_add_u32 s0, s4, 8			; GFX8-NEXT: s_add_u32 s0, s4, 8
	; GFX8-NEXT: s_addc_u32 s1, s5, 0			; GFX8-NEXT: s_addc_u32 s1, s5, 0
	; GFX8-NEXT: s_cmp_lg_u32 s2, 0			; GFX8-NEXT: s_cmp_lg_u32 s2, 0
	; GFX8-NEXT: s_cselect_b32 s2, 1, 0			; GFX8-NEXT: s_cselect_b32 s2, 1, 0
	; GFX8-NEXT: s_and_b32 s2, 1, s2			; GFX8-NEXT: s_and_b32 s2, 1, s2
	; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX8-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, s2			; GFX8-NEXT: v_cmp_ne_u32_e64 s[2:3], 0, s2
	; GFX8-NEXT: s_and_b64 vcc, vcc, s[2:3]			; GFX8-NEXT: s_and_b64 vcc, vcc, s[2:3]
	; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
				; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3			; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10_W32-LABEL: test_div_fmas_f32_logical_cond_to_vcc:			; GFX10_W32-LABEL: test_div_fmas_f32_logical_cond_to_vcc:
	; GFX10_W32: ; %bb.0:			; GFX10_W32: ; %bb.0:
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; GFX7-NEXT: s_cmp_lg_u32 s0, 0			; GFX7-NEXT: s_cmp_lg_u32 s0, 0
	; GFX7-NEXT: s_cselect_b32 s2, 1, 0			; GFX7-NEXT: s_cselect_b32 s2, 1, 0
	; GFX7-NEXT: BB13_2: ; %exit			; GFX7-NEXT: BB13_2: ; %exit
	; GFX7-NEXT: s_or_b64 exec, exec, s[6:7]			; GFX7-NEXT: s_or_b64 exec, exec, s[6:7]
	; GFX7-NEXT: s_and_b32 s0, 1, s2			; GFX7-NEXT: s_and_b32 s0, 1, s2
	; GFX7-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0			; GFX7-NEXT: v_cmp_ne_u32_e64 vcc, 0, s0
	; GFX7-NEXT: s_mov_b32 s10, -1			; GFX7-NEXT: s_mov_b32 s10, -1
	; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]			; GFX7-NEXT: s_mov_b64 s[6:7], s[10:11]
	; GFX7-NEXT: s_nop 1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
				; GFX7-NEXT: s_nop 0
	; GFX7-NEXT: v_div_fmas_f32 v0, v1, v2, v3			; GFX7-NEXT: v_div_fmas_f32 v0, v1, v2, v3
	; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0 offset:8			; GFX7-NEXT: buffer_store_dword v0, off, s[4:7], 0 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX8-LABEL: test_div_fmas_f32_i1_phi_vcc:			; GFX8-LABEL: test_div_fmas_f32_i1_phi_vcc:
	; GFX8: ; %bb.0: ; %entry			; GFX8: ; %bb.0: ; %entry
	; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX8-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
	; GFX8-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0x4c			; GFX8-NEXT: s_load_dwordx2 s[6:7], s[0:1], 0x4c
	Show All 16 Lines
	; GFX8-NEXT: s_cmp_lg_u32 s0, 0			; GFX8-NEXT: s_cmp_lg_u32 s0, 0
	; GFX8-NEXT: s_cselect_b32 s2, 1, 0			; GFX8-NEXT: s_cselect_b32 s2, 1, 0
	; GFX8-NEXT: BB13_2: ; %exit			; GFX8-NEXT: BB13_2: ; %exit
	; GFX8-NEXT: s_or_b64 exec, exec, s[6:7]			; GFX8-NEXT: s_or_b64 exec, exec, s[6:7]
	; GFX8-NEXT: s_add_u32 s0, s4, 8			; GFX8-NEXT: s_add_u32 s0, s4, 8
	; GFX8-NEXT: s_addc_u32 s1, s5, 0			; GFX8-NEXT: s_addc_u32 s1, s5, 0
	; GFX8-NEXT: s_and_b32 s2, 1, s2			; GFX8-NEXT: s_and_b32 s2, 1, s2
	; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s2			; GFX8-NEXT: v_cmp_ne_u32_e64 vcc, 0, s2
	; GFX8-NEXT: s_nop 3
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
				; GFX8-NEXT: s_nop 2
	; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3			; GFX8-NEXT: v_div_fmas_f32 v2, v1, v2, v3
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: flat_store_dword v[0:1], v2			; GFX8-NEXT: flat_store_dword v[0:1], v2
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10_W32-LABEL: test_div_fmas_f32_i1_phi_vcc:			; GFX10_W32-LABEL: test_div_fmas_f32_i1_phi_vcc:
	; GFX10_W32: ; %bb.0: ; %entry			; GFX10_W32: ; %bb.0: ; %entry
	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.update.dpp.ll

	Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: v_mov_b32_e32 v0, s0			; GFX8-NEXT: v_mov_b32_e32 v0, s0
	; GFX8-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2			; GFX8-NEXT: v_add_u32_e32 v0, vcc, v0, v2
	; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; GFX8-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[0:1]			; GFX8-NEXT: flat_load_dwordx2 v[2:3], v[0:1]
	; GFX8-NEXT: v_mov_b32_e32 v5, s3			; GFX8-NEXT: v_mov_b32_e32 v5, s3
	; GFX8-NEXT: v_mov_b32_e32 v4, s2			; GFX8-NEXT: v_mov_b32_e32 v4, s2
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt vmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0)
	; GFX8-NEXT: v_mov_b32_dpp v5, v3 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: v_mov_b32_dpp v4, v2 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1			; GFX8-NEXT: v_mov_b32_dpp v4, v2 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
				; GFX8-NEXT: v_mov_b32_dpp v5, v3 quad_perm:[1,0,0,0] row_mask:0x1 bank_mask:0x1
	; GFX8-NEXT: flat_store_dwordx2 v[0:1], v[4:5]			; GFX8-NEXT: flat_store_dwordx2 v[0:1], v[4:5]
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: update_dpp64_test:			; GFX10-LABEL: update_dpp64_test:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 3, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 3, v0
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	Show All 23 Lines

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB0_2:			; GFX8-NEXT: BB0_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v1			; GFX8-NEXT: v_readfirstlane_b32 s2, v1
	; GFX8-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX8-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i32_constant:			; GFX9-LABEL: add_i32_constant:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s2, 0
	Show All 11 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB0_2:			; GFX9-NEXT: BB0_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v1			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX9-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i32_constant:			; GFX1064-LABEL: add_i32_constant:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	; GFX1064-NEXT: ; implicit-def: $vgpr1			; GFX1064-NEXT: ; implicit-def: $vgpr1
	Show All 14 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB0_2:			; GFX1064-NEXT: BB0_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX1064-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i32_constant:			; GFX1032-LABEL: add_i32_constant:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 14 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB0_2:			; GFX1032-NEXT: BB0_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX1032-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 5 acq_rel			%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 5 acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB2_2:			; GFX8-NEXT: BB2_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i32_varying:			; GFX9-LABEL: add_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB2_2:			; GFX9-NEXT: BB2_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_add_u32_e32 v0, s2, v0			; GFX9-NEXT: v_add_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i32_varying:			; GFX1064-LABEL: add_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB2_2:			; GFX1064-NEXT: BB2_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i32_varying:			; GFX1032-LABEL: add_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB2_2:			; GFX1032-NEXT: BB2_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB3_2:			; GFX8-NEXT: BB3_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i32_varying_gfx1032:			; GFX9-LABEL: add_i32_varying_gfx1032:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB3_2:			; GFX9-NEXT: BB3_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_add_u32_e32 v0, s2, v0			; GFX9-NEXT: v_add_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i32_varying_gfx1032:			; GFX1064-LABEL: add_i32_varying_gfx1032:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB3_2:			; GFX1064-NEXT: BB3_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i32_varying_gfx1032:			; GFX1032-LABEL: add_i32_varying_gfx1032:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB3_2:			; GFX1032-NEXT: BB3_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB4_2:			; GFX8-NEXT: BB4_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0			; GFX8-NEXT: v_add_u32_e32 v0, vcc, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i32_varying_gfx1064:			; GFX9-LABEL: add_i32_varying_gfx1064:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB4_2:			; GFX9-NEXT: BB4_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_add_u32_e32 v0, s2, v0			; GFX9-NEXT: v_add_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i32_varying_gfx1064:			; GFX1064-LABEL: add_i32_varying_gfx1064:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB4_2:			; GFX1064-NEXT: BB4_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i32_varying_gfx1064:			; GFX1032-LABEL: add_i32_varying_gfx1064:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB4_2:			; GFX1032-NEXT: BB4_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw add i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX8-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v1			; GFX8-NEXT: v_readfirstlane_b32 s2, v1
	; GFX8-NEXT: v_readfirstlane_b32 s3, v2			; GFX8-NEXT: v_readfirstlane_b32 s3, v2
	; GFX8-NEXT: v_mov_b32_e32 v1, s2			; GFX8-NEXT: v_mov_b32_e32 v1, s2
	; GFX8-NEXT: v_mov_b32_e32 v2, s3			; GFX8-NEXT: v_mov_b32_e32 v2, s3
	; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, v[1:2]			; GFX8-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, v[1:2]
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 2
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
				; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX8-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: add_i64_constant:			; GFX9-LABEL: add_i64_constant:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[4:5], exec			; GFX9-NEXT: s_mov_b64 s[4:5], exec
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s4, 0
	Show All 15 Lines
	; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX9-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v1			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_readfirstlane_b32 s3, v2			; GFX9-NEXT: v_readfirstlane_b32 s3, v2
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: v_mov_b32_e32 v2, s3			; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, v[1:2]			; GFX9-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, v[1:2]
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
				; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX9-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: add_i64_constant:			; GFX1064-LABEL: add_i64_constant:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[4:5], exec			; GFX1064-NEXT: s_mov_b64 s[4:5], exec
	; GFX1064-NEXT: ; implicit-def: $vgpr1_vgpr2			; GFX1064-NEXT: ; implicit-def: $vgpr1_vgpr2
	Show All 16 Lines
	; GFX1064-NEXT: BB5_2:			; GFX1064-NEXT: BB5_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v2			; GFX1064-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, s[2:3]			; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, s[2:3]
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_nop 2
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_constant:			; GFX1032-LABEL: add_i64_constant:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s3, exec_lo			; GFX1032-NEXT: s_mov_b32 s3, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 16 Lines
	; GFX1032-NEXT: BB5_2:			; GFX1032-NEXT: BB5_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v2			; GFX1032-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v0, 5, s[2:3]			; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v0, 5, s[2:3]
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_nop 2
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 5 acq_rel			%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 5 acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB8_2:			; GFX8-NEXT: BB8_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v1			; GFX8-NEXT: v_readfirstlane_b32 s2, v1
	; GFX8-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX8-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i32_constant:			; GFX9-LABEL: sub_i32_constant:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 13 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB8_2:			; GFX9-NEXT: BB8_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v1			; GFX9-NEXT: v_readfirstlane_b32 s2, v1
	; GFX9-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX9-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i32_constant:			; GFX1064-LABEL: sub_i32_constant:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	Show All 16 Lines
	; GFX1064-NEXT: BB8_2:			; GFX1064-NEXT: BB8_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s2, v0			; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s2, v0
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i32_constant:			; GFX1032-LABEL: sub_i32_constant:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	Show All 16 Lines
	; GFX1032-NEXT: BB8_2:			; GFX1032-NEXT: BB8_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s2, v0			; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s2, v0
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%old = atomicrmw sub i32 addrspace(3)* @local_var32, i32 5 acq_rel			%old = atomicrmw sub i32 addrspace(3)* @local_var32, i32 5 acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB10_2:			; GFX8-NEXT: BB10_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0			; GFX8-NEXT: v_sub_u32_e32 v0, vcc, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: sub_i32_varying:			; GFX9-LABEL: sub_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB10_2:			; GFX9-NEXT: BB10_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0			; GFX9-NEXT: v_sub_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: sub_i32_varying:			; GFX1064-LABEL: sub_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB10_2:			; GFX1064-NEXT: BB10_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i32_varying:			; GFX1032-LABEL: sub_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB10_2:			; GFX1032-NEXT: BB10_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw sub i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw sub i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 556 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB14_2:			; GFX8-NEXT: BB14_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_and_b32_e32 v0, s2, v0			; GFX8-NEXT: v_and_b32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: and_i32_varying:			; GFX9-LABEL: and_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0
	Show All 34 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB14_2:			; GFX9-NEXT: BB14_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_and_b32_e32 v0, s2, v0			; GFX9-NEXT: v_and_b32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: and_i32_varying:			; GFX1064-LABEL: and_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB14_2:			; GFX1064-NEXT: BB14_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_and_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: and_i32_varying:			; GFX1032-LABEL: and_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 33 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB14_2:			; GFX1032-NEXT: BB14_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_and_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw and i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw and i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB15_2:			; GFX8-NEXT: BB15_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_or_b32_e32 v0, s2, v0			; GFX8-NEXT: v_or_b32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: or_i32_varying:			; GFX9-LABEL: or_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB15_2:			; GFX9-NEXT: BB15_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_or_b32_e32 v0, s2, v0			; GFX9-NEXT: v_or_b32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: or_i32_varying:			; GFX1064-LABEL: or_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB15_2:			; GFX1064-NEXT: BB15_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_or_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_or_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: or_i32_varying:			; GFX1032-LABEL: or_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB15_2:			; GFX1032-NEXT: BB15_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_or_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_or_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw or i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw or i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB16_2:			; GFX8-NEXT: BB16_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX8-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: xor_i32_varying:			; GFX9-LABEL: xor_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB16_2:			; GFX9-NEXT: BB16_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0			; GFX9-NEXT: v_xor_b32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: xor_i32_varying:			; GFX1064-LABEL: xor_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB16_2:			; GFX1064-NEXT: BB16_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_xor_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_xor_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: xor_i32_varying:			; GFX1032-LABEL: xor_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB16_2:			; GFX1032-NEXT: BB16_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_xor_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_xor_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw xor i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw xor i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB17_2:			; GFX8-NEXT: BB17_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_max_i32_e32 v0, s2, v0			; GFX8-NEXT: v_max_i32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: max_i32_varying:			; GFX9-LABEL: max_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0
	Show All 34 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB17_2:			; GFX9-NEXT: BB17_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_max_i32_e32 v0, s2, v0			; GFX9-NEXT: v_max_i32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: max_i32_varying:			; GFX1064-LABEL: max_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB17_2:			; GFX1064-NEXT: BB17_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_max_i32_e32 v0, s3, v0			; GFX1064-NEXT: v_max_i32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: max_i32_varying:			; GFX1032-LABEL: max_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 33 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB17_2:			; GFX1032-NEXT: BB17_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_max_i32_e32 v0, s3, v0			; GFX1032-NEXT: v_max_i32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw max i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw max i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB19_2:			; GFX8-NEXT: BB19_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_min_i32_e32 v0, s2, v0			; GFX8-NEXT: v_min_i32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: min_i32_varying:			; GFX9-LABEL: min_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0
	Show All 34 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB19_2:			; GFX9-NEXT: BB19_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_min_i32_e32 v0, s2, v0			; GFX9-NEXT: v_min_i32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: min_i32_varying:			; GFX1064-LABEL: min_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB19_2:			; GFX1064-NEXT: BB19_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_min_i32_e32 v0, s3, v0			; GFX1064-NEXT: v_min_i32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: min_i32_varying:			; GFX1032-LABEL: min_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 33 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB19_2:			; GFX1032-NEXT: BB19_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_min_i32_e32 v0, s3, v0			; GFX1032-NEXT: v_min_i32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw min i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw min i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 243 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB21_2:			; GFX8-NEXT: BB21_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_max_u32_e32 v0, s2, v0			; GFX8-NEXT: v_max_u32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: umax_i32_varying:			; GFX9-LABEL: umax_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: s_mov_b64 s[2:3], exec			; GFX9-NEXT: s_mov_b64 s[2:3], exec
	Show All 35 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB21_2:			; GFX9-NEXT: BB21_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_max_u32_e32 v0, s2, v0			; GFX9-NEXT: v_max_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: umax_i32_varying:			; GFX1064-LABEL: umax_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b64 s[2:3], exec			; GFX1064-NEXT: s_mov_b64 s[2:3], exec
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB21_2:			; GFX1064-NEXT: BB21_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_max_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_max_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: umax_i32_varying:			; GFX1032-LABEL: umax_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s2, exec_lo			; GFX1032-NEXT: s_mov_b32 s2, exec_lo
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 34 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB21_2:			; GFX1032-NEXT: BB21_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_max_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_max_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw umax i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw umax i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: buffer_wbinvl1_vol			; GFX8-NEXT: buffer_wbinvl1_vol
	; GFX8-NEXT: BB23_2:			; GFX8-NEXT: BB23_2:
	; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX8-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX8-NEXT: v_readfirstlane_b32 s2, v0			; GFX8-NEXT: v_readfirstlane_b32 s2, v0
	; GFX8-NEXT: v_mov_b32_e32 v0, v1			; GFX8-NEXT: v_mov_b32_e32 v0, v1
	; GFX8-NEXT: v_min_u32_e32 v0, s2, v0			; GFX8-NEXT: v_min_u32_e32 v0, s2, v0
	; GFX8-NEXT: s_mov_b32 s3, 0xf000			; GFX8-NEXT: s_mov_b32 s3, 0xf000
	; GFX8-NEXT: s_mov_b32 s2, -1			; GFX8-NEXT: s_mov_b32 s2, -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: s_waitcnt lgkmcnt(0)			; GFX8-NEXT: s_waitcnt lgkmcnt(0)
	; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX8-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX8-NEXT: s_endpgm			; GFX8-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: umin_i32_varying:			; GFX9-LABEL: umin_i32_varying:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v3, exec_lo, 0
	Show All 34 Lines
	; GFX9-NEXT: buffer_wbinvl1_vol			; GFX9-NEXT: buffer_wbinvl1_vol
	; GFX9-NEXT: BB23_2:			; GFX9-NEXT: BB23_2:
	; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX9-NEXT: v_readfirstlane_b32 s2, v0			; GFX9-NEXT: v_readfirstlane_b32 s2, v0
	; GFX9-NEXT: v_mov_b32_e32 v0, v1			; GFX9-NEXT: v_mov_b32_e32 v0, v1
	; GFX9-NEXT: v_min_u32_e32 v0, s2, v0			; GFX9-NEXT: v_min_u32_e32 v0, s2, v0
	; GFX9-NEXT: s_mov_b32 s3, 0xf000			; GFX9-NEXT: s_mov_b32 s3, 0xf000
	; GFX9-NEXT: s_mov_b32 s2, -1			; GFX9-NEXT: s_mov_b32 s2, -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX9-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX1064-LABEL: umin_i32_varying:			; GFX1064-LABEL: umin_i32_varying:
	; GFX1064: ; %bb.0: ; %entry			; GFX1064: ; %bb.0: ; %entry
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1064-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB23_2:			; GFX1064-NEXT: BB23_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_min_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_min_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_nop 1
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1064-NEXT: s_nop 0
	; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: umin_i32_varying:			; GFX1032-LABEL: umin_i32_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0			; GFX1032-NEXT: v_mbcnt_lo_u32_b32_e64 v4, exec_lo, 0
	; GFX1032-NEXT: ; implicit-def: $vcc_hi			; GFX1032-NEXT: ; implicit-def: $vcc_hi
	Show All 33 Lines
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB23_2:			; GFX1032-NEXT: BB23_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_min_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_min_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_nop 1
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
				; GFX1032-NEXT: s_nop 0
	; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%old = atomicrmw umin i32 addrspace(3)* @local_var32, i32 %lane acq_rel			%old = atomicrmw umin i32 addrspace(3)* @local_var32, i32 %lane acq_rel
	store i32 %old, i32 addrspace(1)* %out			store i32 %old, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomic_optimizations_pixelshader.ll

	Show First 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v1, 0			; GFX8-NEXT: v_mov_b32_e32 v1, 0
	; GFX8-NEXT: s_mov_b64 exec, s[12:13]			; GFX8-NEXT: s_mov_b64 exec, s[12:13]
	; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s10, 0			; GFX8-NEXT: v_mbcnt_lo_u32_b32 v0, s10, 0
	; GFX8-NEXT: v_mbcnt_hi_u32_b32 v0, s11, v0			; GFX8-NEXT: v_mbcnt_hi_u32_b32 v0, s11, v0
	; GFX8-NEXT: s_not_b64 exec, exec			; GFX8-NEXT: s_not_b64 exec, exec
	; GFX8-NEXT: v_mov_b32_e32 v2, 0			; GFX8-NEXT: v_mov_b32_e32 v2, 0
	; GFX8-NEXT: s_not_b64 exec, exec			; GFX8-NEXT: s_not_b64 exec, exec
	; GFX8-NEXT: s_or_saveexec_b64 s[10:11], -1			; GFX8-NEXT: s_or_saveexec_b64 s[10:11], -1
	; GFX8-NEXT: s_nop 0
	; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:1 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:1 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:2 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:2 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:4 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:4 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:8 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX8-NEXT: v_add_u32_dpp v2, vcc, v2, v2 row_shr:8 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX8-NEXT: s_nop 1			; GFX8-NEXT: s_nop 1
	Show All 40 Lines
	; GFX9-NEXT: v_mov_b32_e32 v1, 0			; GFX9-NEXT: v_mov_b32_e32 v1, 0
	; GFX9-NEXT: s_mov_b64 exec, s[12:13]			; GFX9-NEXT: s_mov_b64 exec, s[12:13]
	; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s10, 0			; GFX9-NEXT: v_mbcnt_lo_u32_b32 v0, s10, 0
	; GFX9-NEXT: v_mbcnt_hi_u32_b32 v0, s11, v0			; GFX9-NEXT: v_mbcnt_hi_u32_b32 v0, s11, v0
	; GFX9-NEXT: s_not_b64 exec, exec			; GFX9-NEXT: s_not_b64 exec, exec
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: s_not_b64 exec, exec			; GFX9-NEXT: s_not_b64 exec, exec
	; GFX9-NEXT: s_or_saveexec_b64 s[10:11], -1			; GFX9-NEXT: s_or_saveexec_b64 s[10:11], -1
	; GFX9-NEXT: s_nop 0
	; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:1 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:1 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX9-NEXT: s_nop 1			; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:2 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:2 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX9-NEXT: s_nop 1			; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:4 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:4 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX9-NEXT: s_nop 1			; GFX9-NEXT: s_nop 1
	; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:8 row_mask:0xf bank_mask:0xf bound_ctrl:0			; GFX9-NEXT: v_add_u32_dpp v2, v2, v2 row_shr:8 row_mask:0xf bank_mask:0xf bound_ctrl:0
	; GFX9-NEXT: s_nop 1			; GFX9-NEXT: s_nop 1
	▲ Show 20 Lines • Show All 157 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/global-saddr-atomics.ll

	Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn(i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_nop 4
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_nop 4
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	; Base pointer is uniform, but also in VGPRs, with imm offset			; Base pointer is uniform, but also in VGPRs, with imm offset
	define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset(i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_nop 4
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_nop 4
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	; Base pointer is uniform, but also in VGPRs			; Base pointer is uniform, but also in VGPRs
	define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn(i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_nop 4
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_nop 4
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	; Base pointer is uniform, but also in VGPRs, with imm offset			; Base pointer is uniform, but also in VGPRs, with imm offset
	define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset(i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_nop 4
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
				; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42			; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_nop 4
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42			; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	▲ Show 20 Lines • Show All 2,540 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.update.dpp.ll

	Show All 24 Lines
	}			}


	; GCN-LABEL: {{^}}dpp_test1:			; GCN-LABEL: {{^}}dpp_test1:
	; GFX10: v_add_nc_u32_e32 [[REG:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}}			; GFX10: v_add_nc_u32_e32 [[REG:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}}
	; GFX8-OPT: v_add_u32_e32 [[REG:v[0-9]+]], vcc, v{{[0-9]+}}, v{{[0-9]+}}			; GFX8-OPT: v_add_u32_e32 [[REG:v[0-9]+]], vcc, v{{[0-9]+}}, v{{[0-9]+}}
	; GFX8-NOOPT: v_add_u32_e64 [[REG:v[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, v{{[0-9]+}}			; GFX8-NOOPT: v_add_u32_e64 [[REG:v[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, v{{[0-9]+}}
	; GFX8-NOOPT: v_mov_b32_e32 v{{[0-9]+}}, 0			; GFX8-NOOPT: v_mov_b32_e32 v{{[0-9]+}}, 0
	; GFX8-NOOPT: s_nop 1			; GFX8: s_nop 1
	; GFX8-OPT: s_nop 0
	; GFX8-OPT-NEXT: s_nop 0
	; GFX8-NEXT: v_mov_b32_dpp {{v[0-9]+}}, [[REG]] quad_perm:[1,0,3,2] row_mask:0xf bank_mask:0xf			; GFX8-NEXT: v_mov_b32_dpp {{v[0-9]+}}, [[REG]] quad_perm:[1,0,3,2] row_mask:0xf bank_mask:0xf
	@0 = internal unnamed_addr addrspace(3) global [448 x i32] undef, align 4			@0 = internal unnamed_addr addrspace(3) global [448 x i32] undef, align 4
	define weak_odr amdgpu_kernel void @dpp_test1(i32* %arg) local_unnamed_addr {			define weak_odr amdgpu_kernel void @dpp_test1(i32* %arg) local_unnamed_addr {
	bb:			bb:
	%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()			%tmp = tail call i32 @llvm.amdgcn.workitem.id.x()
	%tmp1 = zext i32 %tmp to i64			%tmp1 = zext i32 %tmp to i64
	%tmp2 = getelementptr inbounds [448 x i32], [448 x i32] addrspace(3)* @0, i32 0, i32 %tmp			%tmp2 = getelementptr inbounds [448 x i32], [448 x i32] addrspace(3)* @0, i32 0, i32 %tmp
	%tmp3 = load i32, i32 addrspace(3)* %tmp2, align 4			%tmp3 = load i32, i32 addrspace(3)* %tmp2, align 4
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory_clause.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -march=amdgcn -mcpu=gfx902 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx902 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

define amdgpu_kernel void @vector_clause(<4 x i32> addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture %arg1) {		define amdgpu_kernel void @vector_clause(<4 x i32> addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture %arg1) {
; GCN-LABEL: vector_clause:		; GCN-LABEL: vector_clause:
; GCN: ; %bb.0: ; %bb		; GCN: ; %bb.0: ; %bb
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c		; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
; GCN-NEXT: v_lshlrev_b32_e32 v16, 4, v0		; GCN-NEXT: v_lshlrev_b32_e32 v16, 4, v0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: global_load_dwordx4 v[0:3], v16, s[2:3]		; GCN-NEXT: global_load_dwordx4 v[0:3], v16, s[2:3]
; GCN-NEXT: global_load_dwordx4 v[4:7], v16, s[2:3] offset:16		; GCN-NEXT: global_load_dwordx4 v[4:7], v16, s[2:3] offset:16
; GCN-NEXT: global_load_dwordx4 v[8:11], v16, s[2:3] offset:32		; GCN-NEXT: global_load_dwordx4 v[8:11], v16, s[2:3] offset:32
; GCN-NEXT: global_load_dwordx4 v[12:15], v16, s[2:3] offset:48		; GCN-NEXT: global_load_dwordx4 v[12:15], v16, s[2:3] offset:48
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(3)		; GCN-NEXT: s_waitcnt vmcnt(3)
; GCN-NEXT: global_store_dwordx4 v16, v[0:3], s[4:5]		; GCN-NEXT: global_store_dwordx4 v16, v[0:3], s[4:5]
; GCN-NEXT: s_waitcnt vmcnt(3)		; GCN-NEXT: s_waitcnt vmcnt(3)
; GCN-NEXT: global_store_dwordx4 v16, v[4:7], s[4:5] offset:16		; GCN-NEXT: global_store_dwordx4 v16, v[4:7], s[4:5] offset:16
; GCN-NEXT: s_waitcnt vmcnt(3)		; GCN-NEXT: s_waitcnt vmcnt(3)
; GCN-NEXT: global_store_dwordx4 v16, v[8:11], s[4:5] offset:32		; GCN-NEXT: global_store_dwordx4 v16, v[8:11], s[4:5] offset:32
; GCN-NEXT: s_waitcnt vmcnt(3)		; GCN-NEXT: s_waitcnt vmcnt(3)
; GCN-NEXT: global_store_dwordx4 v16, v[12:15], s[4:5] offset:48		; GCN-NEXT: global_store_dwordx4 v16, v[12:15], s[4:5] offset:48
Show All 23 Lines	bb:
ret void		ret void
}		}

define amdgpu_kernel void @scalar_clause(<4 x i32> addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture %arg1) {		define amdgpu_kernel void @scalar_clause(<4 x i32> addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture %arg1) {
; GCN-LABEL: scalar_clause:		; GCN-LABEL: scalar_clause:
; GCN: ; %bb.0: ; %bb		; GCN: ; %bb.0: ; %bb
; GCN-NEXT: s_load_dwordx2 s[16:17], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[16:17], s[0:1], 0x24
; GCN-NEXT: s_load_dwordx2 s[18:19], s[0:1], 0x2c		; GCN-NEXT: s_load_dwordx2 s[18:19], s[0:1], 0x2c
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_load_dwordx4 s[0:3], s[16:17], 0x0		; GCN-NEXT: s_load_dwordx4 s[0:3], s[16:17], 0x0
; GCN-NEXT: s_load_dwordx4 s[4:7], s[16:17], 0x10		; GCN-NEXT: s_load_dwordx4 s[4:7], s[16:17], 0x10
; GCN-NEXT: s_load_dwordx4 s[8:11], s[16:17], 0x20		; GCN-NEXT: s_load_dwordx4 s[8:11], s[16:17], 0x20
; GCN-NEXT: s_load_dwordx4 s[12:15], s[16:17], 0x30		; GCN-NEXT: s_load_dwordx4 s[12:15], s[16:17], 0x30
; GCN-NEXT: v_mov_b32_e32 v12, s18		; GCN-NEXT: v_mov_b32_e32 v12, s18
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v0, s0		; GCN-NEXT: v_mov_b32_e32 v0, s0
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
; GCN-NEXT: buffer_load_dword v12, v0, s[0:3], 0 offen offset:36		; GCN-NEXT: buffer_load_dword v12, v0, s[0:3], 0 offen offset:36
; GCN-NEXT: buffer_load_dword v13, v0, s[0:3], 0 offen offset:40		; GCN-NEXT: buffer_load_dword v13, v0, s[0:3], 0 offen offset:40
; GCN-NEXT: buffer_load_dword v14, v0, s[0:3], 0 offen offset:44		; GCN-NEXT: buffer_load_dword v14, v0, s[0:3], 0 offen offset:44
; GCN-NEXT: buffer_load_dword v15, v0, s[0:3], 0 offen offset:48		; GCN-NEXT: buffer_load_dword v15, v0, s[0:3], 0 offen offset:48
; GCN-NEXT: buffer_load_dword v16, v0, s[0:3], 0 offen offset:52		; GCN-NEXT: buffer_load_dword v16, v0, s[0:3], 0 offen offset:52
; GCN-NEXT: buffer_load_dword v17, v0, s[0:3], 0 offen offset:56		; GCN-NEXT: buffer_load_dword v17, v0, s[0:3], 0 offen offset:56
; GCN-NEXT: v_add_u32_e32 v1, v1, v2		; GCN-NEXT: v_add_u32_e32 v1, v1, v2
; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen offset:60		; GCN-NEXT: buffer_load_dword v0, v0, s[0:3], 0 offen offset:60
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(15)		; GCN-NEXT: s_waitcnt vmcnt(15)
; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen		; GCN-NEXT: buffer_store_dword v3, v1, s[0:3], 0 offen
; GCN-NEXT: s_waitcnt vmcnt(15)		; GCN-NEXT: s_waitcnt vmcnt(15)
; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen offset:4		; GCN-NEXT: buffer_store_dword v4, v1, s[0:3], 0 offen offset:4
; GCN-NEXT: s_waitcnt vmcnt(15)		; GCN-NEXT: s_waitcnt vmcnt(15)
; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen offset:8		; GCN-NEXT: buffer_store_dword v5, v1, s[0:3], 0 offen offset:8
; GCN-NEXT: s_waitcnt vmcnt(15)		; GCN-NEXT: s_waitcnt vmcnt(15)
; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen offset:12		; GCN-NEXT: buffer_store_dword v6, v1, s[0:3], 0 offen offset:12
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @vector_clause_indirect(i64 addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture readnone %arg1, <4 x i32> addrspace(1)* noalias nocapture %arg2) {		define amdgpu_kernel void @vector_clause_indirect(i64 addrspace(1)* noalias nocapture readonly %arg, <4 x i32> addrspace(1)* noalias nocapture readnone %arg1, <4 x i32> addrspace(1)* noalias nocapture %arg2) {
; GCN-LABEL: vector_clause_indirect:		; GCN-LABEL: vector_clause_indirect:
; GCN: ; %bb.0: ; %bb		; GCN: ; %bb.0: ; %bb
; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34		; GCN-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x34
; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0		; GCN-NEXT: v_lshlrev_b32_e32 v0, 3, v0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: global_load_dwordx2 v[8:9], v0, s[2:3]		; GCN-NEXT: global_load_dwordx2 v[8:9], v0, s[2:3]
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off		; GCN-NEXT: global_load_dwordx4 v[0:3], v[8:9], off
; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16		; GCN-NEXT: global_load_dwordx4 v[4:7], v[8:9], off offset:16
; GCN-NEXT: v_mov_b32_e32 v9, s5		; GCN-NEXT: v_mov_b32_e32 v9, s5
; GCN-NEXT: v_mov_b32_e32 v8, s4		; GCN-NEXT: v_mov_b32_e32 v8, s4
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
; GCN-NEXT: global_store_dwordx4 v[8:9], v[0:3], off		; GCN-NEXT: global_store_dwordx4 v[8:9], v[0:3], off
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
Show All 17 Lines
define void @load_global_d16_hi(i16 addrspace(1)* %in, i16 %reg, <2 x i16> addrspace(1)* %out) {		define void @load_global_d16_hi(i16 addrspace(1)* %in, i16 %reg, <2 x i16> addrspace(1)* %out) {
; GCN-LABEL: load_global_d16_hi:		; GCN-LABEL: load_global_d16_hi:
; GCN: ; %bb.0: ; %entry		; GCN: ; %bb.0: ; %entry
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v5, v2		; GCN-NEXT: v_mov_b32_e32 v5, v2
; GCN-NEXT: global_load_short_d16_hi v5, v[0:1], off		; GCN-NEXT: global_load_short_d16_hi v5, v[0:1], off
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:64		; GCN-NEXT: global_load_short_d16_hi v2, v[0:1], off offset:64
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
; GCN-NEXT: global_store_dword v[3:4], v5, off		; GCN-NEXT: global_store_dword v[3:4], v5, off
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
; GCN-NEXT: global_store_dword v[3:4], v2, off offset:128		; GCN-NEXT: global_store_dword v[3:4], v2, off offset:128
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 32		%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 32
Show All 12 Lines
define void @load_global_d16_lo(i16 addrspace(1)* %in, i32 %reg, <2 x i16> addrspace(1)* %out) {		define void @load_global_d16_lo(i16 addrspace(1)* %in, i32 %reg, <2 x i16> addrspace(1)* %out) {
; GCN-LABEL: load_global_d16_lo:		; GCN-LABEL: load_global_d16_lo:
; GCN: ; %bb.0: ; %entry		; GCN: ; %bb.0: ; %entry
; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GCN-NEXT: v_mov_b32_e32 v5, v2		; GCN-NEXT: v_mov_b32_e32 v5, v2
; GCN-NEXT: global_load_short_d16 v5, v[0:1], off		; GCN-NEXT: global_load_short_d16 v5, v[0:1], off
; GCN-NEXT: s_nop 0		; GCN-NEXT: s_nop 0
; GCN-NEXT: global_load_short_d16 v2, v[0:1], off offset:64		; GCN-NEXT: global_load_short_d16 v2, v[0:1], off offset:64
; GCN-NEXT: s_nop 0
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
; GCN-NEXT: global_store_dword v[3:4], v5, off		; GCN-NEXT: global_store_dword v[3:4], v5, off
; GCN-NEXT: s_waitcnt vmcnt(1)		; GCN-NEXT: s_waitcnt vmcnt(1)
; GCN-NEXT: global_store_dword v[3:4], v2, off offset:128		; GCN-NEXT: global_store_dword v[3:4], v2, off offset:128
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: s_setpc_b64 s[30:31]		; GCN-NEXT: s_setpc_b64 s[30:31]
entry:		entry:
%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 32		%gep = getelementptr inbounds i16, i16 addrspace(1)* %in, i64 32
Show All 13 Lines

llvm/test/CodeGen/AMDGPU/nop-fold.mir

This file was deleted.

	# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	# RUN: llc --mtriple=amdgcn--amdhsa -mcpu=fiji -run-pass=si-shrink-instructions %s -o - \| FileCheck %s

	---

	name: merge_2_nop
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: merge_2_nop
	; CHECK: S_NOP 1
	S_NOP 0
	S_NOP 0

	...

	---

	name: merge_3_nop
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: merge_3_nop
	; CHECK: S_NOP 2
	S_NOP 0
	S_NOP 0
	S_NOP 0


	...

	---

	name: merge_7_nop
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: merge_7_nop
	; CHECK: S_NOP 6
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0

	...

	---

	name: merge_8_nop
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: merge_8_nop
	; CHECK: S_NOP 7
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0

	...
	---

	name: merge_9_nop
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: merge_9_nop
	; CHECK: S_NOP 7
	; CHECK: S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0
	S_NOP 0

	...

	---

	name: no_merge_impdef0
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: no_merge_impdef0
	; CHECK: S_NOP 0, implicit-def $sgpr0
	; CHECK: S_NOP 0
	S_NOP 0, implicit-def $sgpr0
	S_NOP 0

	...

	---

	name: no_merge_impdef1
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: no_merge_impdef1
	; CHECK: S_NOP 0
	; CHECK: S_NOP 0, implicit-def $sgpr0
	S_NOP 0
	S_NOP 0, implicit-def $sgpr0

	...

	---

	name: no_merge_impdef_both
	tracksRegLiveness: true
	body: \|
	bb.0:

	; CHECK-LABEL: name: no_merge_impdef_both
	; CHECK: S_NOP 0
	; CHECK: S_NOP 0, implicit-def $sgpr0
	S_NOP 0
	S_NOP 0, implicit-def $sgpr0

	...

llvm/test/CodeGen/AMDGPU/power-sched-no-instr-sunit.mir

	# RUN: llc -march=amdgcn -mcpu=gfx908 %s -run-pass=post-RA-sched -o - \| FileCheck -check-prefix=GCN %s			# RUN: llc -march=amdgcn -mcpu=gfx908 %s -run-pass=post-RA-sched -o - \| FileCheck -check-prefix=GCN %s

	# GCN-LABEL: name: test			# GCN-LABEL: name: test
	# GCN: V_MFMA_F32_32X32X1F32			# GCN: V_MFMA_F32_32X32X1F32
	# GCN: S_BARRIER			# GCN: S_BARRIER
	# GCN: S_NOP 0
	# GCN: V_ACCVGPR_READ_B32			# GCN: V_ACCVGPR_READ_B32
	# GCN: BUFFER_STORE_DWORD_OFFEN			# GCN: BUFFER_STORE_DWORD_OFFEN
	---			---
	name: test			name: test
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:

	$sgpr6 = S_MOV_B32 $sgpr5			$sgpr6 = S_MOV_B32 $sgpr5
	$sgpr10_sgpr11 = S_MOV_B64 $sgpr2_sgpr3, implicit-def $sgpr8_sgpr9_sgpr10_sgpr11, implicit $sgpr0_sgpr1_sgpr2_sgpr3			$sgpr10_sgpr11 = S_MOV_B64 $sgpr2_sgpr3, implicit-def $sgpr8_sgpr9_sgpr10_sgpr11, implicit $sgpr0_sgpr1_sgpr2_sgpr3
	$sgpr8_sgpr9 = S_MOV_B64 $sgpr0_sgpr1, implicit killed $sgpr0_sgpr1_sgpr2_sgpr3			$sgpr8_sgpr9 = S_MOV_B64 $sgpr0_sgpr1, implicit killed $sgpr0_sgpr1_sgpr2_sgpr3
	S_BARRIER			S_BARRIER
	$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15_agpr16_agpr17_agpr18_agpr19_agpr20_agpr21_agpr22_agpr23_agpr24_agpr25_agpr26_agpr27_agpr28_agpr29_agpr30_agpr31 = V_MFMA_F32_32X32X1F32 undef $vgpr0, undef $vgpr0, 0, 0, 0, 2, implicit $mode, implicit $exec			$agpr0_agpr1_agpr2_agpr3_agpr4_agpr5_agpr6_agpr7_agpr8_agpr9_agpr10_agpr11_agpr12_agpr13_agpr14_agpr15_agpr16_agpr17_agpr18_agpr19_agpr20_agpr21_agpr22_agpr23_agpr24_agpr25_agpr26_agpr27_agpr28_agpr29_agpr30_agpr31 = V_MFMA_F32_32X32X1F32 undef $vgpr0, undef $vgpr0, 0, 0, 0, 2, implicit $mode, implicit $exec
	$vgpr0 = V_ACCVGPR_READ_B32 $agpr31, implicit $exec			$vgpr0 = V_ACCVGPR_READ_B32 $agpr31, implicit $exec
	BUFFER_STORE_DWORD_OFFEN killed $vgpr0, undef $vgpr0, $sgpr8_sgpr9_sgpr10_sgpr11, $sgpr6, 0, 0, 0, 0, 0, 0, implicit $exec			BUFFER_STORE_DWORD_OFFEN killed $vgpr0, undef $vgpr0, $sgpr8_sgpr9_sgpr10_sgpr11, $sgpr6, 0, 0, 0, 0, 0, 0, implicit $exec

	...			...