This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Correct rmw atomics s_waitcnt generation
ClosedPublic

Authored by t-tye on Feb 15 2021, 7:27 PM.

Download Raw Diff

Details

Reviewers

kzhuravl
scott.linder
b-sumner
rampitec

Commits

rGc62b737ad655: [AMDGPU] Correct rmw atomics s_waitcnt generation

Summary

The AMD GPU SIMemoryLegalizer was using the ordering address space
rather than the instruction address space when determining the
s_waitcnt to generate to ensure that a read-modify-write atomic has
completed. This resulted in additional unnecessary counters being
waited on.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

t-tye created this revision.Feb 15 2021, 7:27 PM

Herald added subscribers: kerbowa, jfb, hiraditya and 6 others. · View Herald TranscriptFeb 15 2021, 7:27 PM

t-tye requested review of this revision.Feb 15 2021, 7:27 PM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 15 2021, 7:27 PM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

Harbormaster completed remote builds in B89305: Diff 323866.Feb 15 2021, 8:01 PM

LGTM. Thanks Tony!

This revision is now accepted and ready to land.Feb 16 2021, 10:02 AM

This revision was landed with ongoing or failed builds.Feb 16 2021, 5:33 PM

Closed by commit rGc62b737ad655: [AMDGPU] Correct rmw atomics s_waitcnt generation (authored by t-tye). · Explain Why

This revision was automatically updated to reflect the committed changes.

t-tye added a commit: rGc62b737ad655: [AMDGPU] Correct rmw atomics s_waitcnt generation.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

SIMemoryLegalizer.cpp

2 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

mubuf-global.ll

40 lines

atomic_optimizations_local_pointer.ll

100 lines

atomicrmw-nand.ll

2 lines

global-saddr-atomics.ll

329 lines

memory-legalizer-global-agent.ll

198 lines

memory-legalizer-global-system.ll

198 lines

memory-legalizer-global-workgroup.ll

157 lines

memory-legalizer-local-agent.ll

36 lines

memory-legalizer-local-system.ll

36 lines

memory-legalizer-local-workgroup.ll

36 lines

Diff 323866

llvm/lib/Target/AMDGPU/SIMemoryLegalizer.cpp

//===- SIMemoryLegalizer.cpp ----------------------------------------------===//		//===- SIMemoryLegalizer.cpp ----------------------------------------------===//
		Lint: Lint Inline Actions clang-format suggested style edits found: Lint: Lint: clang-format suggested style edits found:
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
/// \file		/// \file
▲ Show 20 Lines • Show All 1,391 Lines • ▼ Show 20 Lines	if (MOI.getOrdering() == AtomicOrdering::Release \|\|
MOI.getIsCrossAddressSpaceOrdering(),		MOI.getIsCrossAddressSpaceOrdering(),
Position::BEFORE);		Position::BEFORE);

if (MOI.getOrdering() == AtomicOrdering::Acquire \|\|		if (MOI.getOrdering() == AtomicOrdering::Acquire \|\|
MOI.getOrdering() == AtomicOrdering::AcquireRelease \|\|		MOI.getOrdering() == AtomicOrdering::AcquireRelease \|\|
MOI.getOrdering() == AtomicOrdering::SequentiallyConsistent \|\|		MOI.getOrdering() == AtomicOrdering::SequentiallyConsistent \|\|
MOI.getFailureOrdering() == AtomicOrdering::Acquire \|\|		MOI.getFailureOrdering() == AtomicOrdering::Acquire \|\|
MOI.getFailureOrdering() == AtomicOrdering::SequentiallyConsistent) {		MOI.getFailureOrdering() == AtomicOrdering::SequentiallyConsistent) {
Changed \|= CC->insertWait(MI, MOI.getScope(),		Changed \|= CC->insertWait(MI, MOI.getScope(),
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - Changed \|= CC->insertWait(MI, MOI.getScope(), - MOI.getInstrAddrSpace(), - isAtomicRet(MI) ? SIMemOp::LOAD : - SIMemOp::STORE, - MOI.getIsCrossAddressSpaceOrdering(), - Position::AFTER); + Changed \|= + CC->insertWait(MI, MOI.getScope(), MOI.getInstrAddrSpace(), + isAtomicRet(MI) ? SIMemOp::LOAD : SIMemOp::STORE, + MOI.getIsCrossAddressSpaceOrdering(), Position::AFTER); Lint: Pre-merge checks: clang-format: please reformat the code ``` - Changed \|= CC->insertWait(MI, MOI.getScope()…
MOI.getOrderingAddrSpace(),		MOI.getInstrAddrSpace(),
isAtomicRet(*MI) ? SIMemOp::LOAD :		isAtomicRet(*MI) ? SIMemOp::LOAD :
SIMemOp::STORE,		SIMemOp::STORE,
MOI.getIsCrossAddressSpaceOrdering(),		MOI.getIsCrossAddressSpaceOrdering(),
Position::AFTER);		Position::AFTER);
Changed \|= CC->insertAcquire(MI, MOI.getScope(),		Changed \|= CC->insertAcquire(MI, MOI.getScope(),
MOI.getOrderingAddrSpace(),		MOI.getOrderingAddrSpace(),
Position::AFTER);		Position::AFTER);
}		}
▲ Show 20 Lines • Show All 57 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/mubuf-global.ll

	Show First 20 Lines • Show All 922 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: v_mov_b32_e32 v0, 2			; GFX6-NEXT: v_mov_b32_e32 v0, 2
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_movk_i32 s4, 0x3ffc			; GFX6-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_add v0, off, s[0:3], s4 glc			; GFX6-NEXT: buffer_atomic_add v0, off, s[0:3], s4 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4095:			; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4095:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: v_mov_b32_e32 v0, 2			; GFX7-NEXT: v_mov_b32_e32 v0, 2
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_movk_i32 s4, 0x3ffc			; GFX7-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_add v0, off, s[0:3], s4 glc			; GFX7-NEXT: buffer_atomic_add v0, off, s[0:3], s4 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095
	%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst			%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_atomicrmw_sgpr_ptr_offset4294967296(i32 addrspace(1)* inreg %ptr) {			define amdgpu_ps float @mubuf_atomicrmw_sgpr_ptr_offset4294967296(i32 addrspace(1)* inreg %ptr) {
	; GFX6-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4294967296:			; GFX6-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4294967296:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_mov_b32 s4, 0			; GFX6-NEXT: s_mov_b32 s4, 0
	; GFX6-NEXT: s_mov_b32 s5, 4			; GFX6-NEXT: s_mov_b32 s5, 4
	; GFX6-NEXT: v_mov_b32_e32 v1, s4			; GFX6-NEXT: v_mov_b32_e32 v1, s4
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: v_mov_b32_e32 v0, 2			; GFX6-NEXT: v_mov_b32_e32 v0, 2
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, s4			; GFX6-NEXT: s_mov_b32 s2, s4
	; GFX6-NEXT: v_mov_b32_e32 v2, s5			; GFX6-NEXT: v_mov_b32_e32 v2, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_add v0, v[1:2], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_add v0, v[1:2], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4294967296:			; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_offset4294967296:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s4, 0			; GFX7-NEXT: s_mov_b32 s4, 0
	; GFX7-NEXT: s_mov_b32 s5, 4			; GFX7-NEXT: s_mov_b32 s5, 4
	; GFX7-NEXT: v_mov_b32_e32 v1, s4			; GFX7-NEXT: v_mov_b32_e32 v1, s4
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: v_mov_b32_e32 v0, 2			; GFX7-NEXT: v_mov_b32_e32 v0, 2
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s2, s4			; GFX7-NEXT: s_mov_b32 s2, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s5			; GFX7-NEXT: v_mov_b32_e32 v2, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_add v0, v[1:2], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_add v0, v[1:2], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296
	%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst			%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_atomicrmw_vgpr_ptr_offset4095(i32 addrspace(1)* %ptr) {			define amdgpu_ps float @mubuf_atomicrmw_vgpr_ptr_offset4095(i32 addrspace(1)* %ptr) {
	; GFX6-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4095:			; GFX6-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4095:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v2, 2			; GFX6-NEXT: v_mov_b32_e32 v2, 2
	; GFX6-NEXT: s_mov_b32 s2, 0			; GFX6-NEXT: s_mov_b32 s2, 0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b64 s[0:1], 0			; GFX6-NEXT: s_mov_b64 s[0:1], 0
	; GFX6-NEXT: s_movk_i32 s4, 0x3ffc			; GFX6-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], s4 addr64 glc			; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], s4 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v2			; GFX6-NEXT: v_mov_b32_e32 v0, v2
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4095:			; GFX7-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4095:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: v_mov_b32_e32 v2, 2			; GFX7-NEXT: v_mov_b32_e32 v2, 2
	; GFX7-NEXT: s_mov_b32 s2, 0			; GFX7-NEXT: s_mov_b32 s2, 0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: s_movk_i32 s4, 0x3ffc			; GFX7-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], s4 addr64 glc			; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], s4 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v2			; GFX7-NEXT: v_mov_b32_e32 v0, v2
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095
	%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst			%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_atomicrmw_vgpr_ptr_offset4294967296(i32 addrspace(1)* %ptr) {			define amdgpu_ps float @mubuf_atomicrmw_vgpr_ptr_offset4294967296(i32 addrspace(1)* %ptr) {
	; GFX6-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4294967296:			; GFX6-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4294967296:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_mov_b32 s0, 0			; GFX6-NEXT: s_mov_b32 s0, 0
	; GFX6-NEXT: s_mov_b32 s1, 4			; GFX6-NEXT: s_mov_b32 s1, 4
	; GFX6-NEXT: v_mov_b32_e32 v2, 2			; GFX6-NEXT: v_mov_b32_e32 v2, 2
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, s0			; GFX6-NEXT: s_mov_b32 s2, s0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v2			; GFX6-NEXT: v_mov_b32_e32 v0, v2
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4294967296:			; GFX7-LABEL: mubuf_atomicrmw_vgpr_ptr_offset4294967296:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s0, 0			; GFX7-NEXT: s_mov_b32 s0, 0
	; GFX7-NEXT: s_mov_b32 s1, 4			; GFX7-NEXT: s_mov_b32 s1, 4
	; GFX7-NEXT: v_mov_b32_e32 v2, 2			; GFX7-NEXT: v_mov_b32_e32 v2, 2
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s2, s0			; GFX7-NEXT: s_mov_b32 s2, s0
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v2			; GFX7-NEXT: v_mov_b32_e32 v0, v2
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296
	%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst			%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_atomicrmw_sgpr_ptr_vgpr_offset(i32 addrspace(1)* inreg %ptr, i32 %voffset) {			define amdgpu_ps float @mubuf_atomicrmw_sgpr_ptr_vgpr_offset(i32 addrspace(1)* inreg %ptr, i32 %voffset) {
	; GFX6-LABEL: mubuf_atomicrmw_sgpr_ptr_vgpr_offset:			; GFX6-LABEL: mubuf_atomicrmw_sgpr_ptr_vgpr_offset:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 2			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: v_mov_b32_e32 v2, 2			; GFX6-NEXT: v_mov_b32_e32 v2, 2
	; GFX6-NEXT: s_mov_b32 s2, 0			; GFX6-NEXT: s_mov_b32 s2, 0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v2			; GFX6-NEXT: v_mov_b32_e32 v0, v2
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_vgpr_offset:			; GFX7-LABEL: mubuf_atomicrmw_sgpr_ptr_vgpr_offset:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2			; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, 2			; GFX7-NEXT: v_mov_b32_e32 v2, 2
	; GFX7-NEXT: s_mov_b32 s2, 0			; GFX7-NEXT: s_mov_b32 s2, 0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_add v2, v[0:1], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v2			; GFX7-NEXT: v_mov_b32_e32 v0, v2
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i32 %voffset			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i32 %voffset
	%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst			%result = atomicrmw add i32 addrspace(1)* %gep, i32 2 seq_cst
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_offset4095(i32 addrspace(1)* inreg %ptr, i32 %old, i32 %in) {			define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_offset4095(i32 addrspace(1)* inreg %ptr, i32 %old, i32 %in) {
	; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4095:			; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4095:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: v_mov_b32_e32 v2, v0			; GFX6-NEXT: v_mov_b32_e32 v2, v0
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_movk_i32 s4, 0x3ffc			; GFX6-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[1:2], off, s[0:3], s4 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[1:2], off, s[0:3], s4 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v1			; GFX6-NEXT: v_mov_b32_e32 v0, v1
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4095:			; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4095:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, v0			; GFX7-NEXT: v_mov_b32_e32 v2, v0
	; GFX7-NEXT: s_mov_b32 s2, -1			; GFX7-NEXT: s_mov_b32 s2, -1
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_movk_i32 s4, 0x3ffc			; GFX7-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_cmpswap v[1:2], off, s[0:3], s4 glc			; GFX7-NEXT: buffer_atomic_cmpswap v[1:2], off, s[0:3], s4 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v1			; GFX7-NEXT: v_mov_b32_e32 v0, v1
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095
	%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%result = extractvalue { i32, i1 } %result.struct, 0			%result = extractvalue { i32, i1 } %result.struct, 0
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_offset4294967296(i32 addrspace(1)* inreg %ptr, i32 %old, i32 %in) {			define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_offset4294967296(i32 addrspace(1)* inreg %ptr, i32 %old, i32 %in) {
	; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4294967296:			; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4294967296:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_mov_b32 s4, 0			; GFX6-NEXT: s_mov_b32 s4, 0
	; GFX6-NEXT: s_mov_b32 s5, 4			; GFX6-NEXT: s_mov_b32 s5, 4
	; GFX6-NEXT: v_mov_b32_e32 v3, s4			; GFX6-NEXT: v_mov_b32_e32 v3, s4
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: v_mov_b32_e32 v2, v0			; GFX6-NEXT: v_mov_b32_e32 v2, v0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, s4			; GFX6-NEXT: s_mov_b32 s2, s4
	; GFX6-NEXT: v_mov_b32_e32 v4, s5			; GFX6-NEXT: v_mov_b32_e32 v4, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[1:2], v[3:4], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[1:2], v[3:4], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v1			; GFX6-NEXT: v_mov_b32_e32 v0, v1
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4294967296:			; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_offset4294967296:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s4, 0			; GFX7-NEXT: s_mov_b32 s4, 0
	; GFX7-NEXT: s_mov_b32 s5, 4			; GFX7-NEXT: s_mov_b32 s5, 4
	; GFX7-NEXT: v_mov_b32_e32 v3, s4			; GFX7-NEXT: v_mov_b32_e32 v3, s4
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, v0			; GFX7-NEXT: v_mov_b32_e32 v2, v0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s2, s4			; GFX7-NEXT: s_mov_b32 s2, s4
	; GFX7-NEXT: v_mov_b32_e32 v4, s5			; GFX7-NEXT: v_mov_b32_e32 v4, s5
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_cmpswap v[1:2], v[3:4], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_cmpswap v[1:2], v[3:4], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v1			; GFX7-NEXT: v_mov_b32_e32 v0, v1
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296
	%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%result = extractvalue { i32, i1 } %result.struct, 0			%result = extractvalue { i32, i1 } %result.struct, 0
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_cmpxchg_vgpr_ptr_offset4095(i32 addrspace(1)* %ptr, i32 %old, i32 %in) {			define amdgpu_ps float @mubuf_cmpxchg_vgpr_ptr_offset4095(i32 addrspace(1)* %ptr, i32 %old, i32 %in) {
	; GFX6-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4095:			; GFX6-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4095:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v4, v2			; GFX6-NEXT: v_mov_b32_e32 v4, v2
	; GFX6-NEXT: s_mov_b32 s2, 0			; GFX6-NEXT: s_mov_b32 s2, 0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b64 s[0:1], 0			; GFX6-NEXT: s_mov_b64 s[0:1], 0
	; GFX6-NEXT: s_movk_i32 s4, 0x3ffc			; GFX6-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], s4 addr64 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], s4 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v3			; GFX6-NEXT: v_mov_b32_e32 v0, v3
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4095:			; GFX7-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4095:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: v_mov_b32_e32 v4, v2			; GFX7-NEXT: v_mov_b32_e32 v4, v2
	; GFX7-NEXT: s_mov_b32 s2, 0			; GFX7-NEXT: s_mov_b32 s2, 0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b64 s[0:1], 0			; GFX7-NEXT: s_mov_b64 s[0:1], 0
	; GFX7-NEXT: s_movk_i32 s4, 0x3ffc			; GFX7-NEXT: s_movk_i32 s4, 0x3ffc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], s4 addr64 glc			; GFX7-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], s4 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v3			; GFX7-NEXT: v_mov_b32_e32 v0, v3
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4095
	%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%result = extractvalue { i32, i1 } %result.struct, 0			%result = extractvalue { i32, i1 } %result.struct, 0
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_cmpxchg_vgpr_ptr_offset4294967296(i32 addrspace(1)* %ptr, i32 %old, i32 %in) {			define amdgpu_ps float @mubuf_cmpxchg_vgpr_ptr_offset4294967296(i32 addrspace(1)* %ptr, i32 %old, i32 %in) {
	; GFX6-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4294967296:			; GFX6-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4294967296:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_mov_b32 s0, 0			; GFX6-NEXT: s_mov_b32 s0, 0
	; GFX6-NEXT: v_mov_b32_e32 v4, v2			; GFX6-NEXT: v_mov_b32_e32 v4, v2
	; GFX6-NEXT: s_mov_b32 s1, 4			; GFX6-NEXT: s_mov_b32 s1, 4
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_mov_b32 s2, s0			; GFX6-NEXT: s_mov_b32 s2, s0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v3			; GFX6-NEXT: v_mov_b32_e32 v0, v3
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4294967296:			; GFX7-LABEL: mubuf_cmpxchg_vgpr_ptr_offset4294967296:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_mov_b32 s0, 0			; GFX7-NEXT: s_mov_b32 s0, 0
	; GFX7-NEXT: v_mov_b32_e32 v4, v2			; GFX7-NEXT: v_mov_b32_e32 v4, v2
	; GFX7-NEXT: s_mov_b32 s1, 4			; GFX7-NEXT: s_mov_b32 s1, 4
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_mov_b32 s2, s0			; GFX7-NEXT: s_mov_b32 s2, s0
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_cmpswap v[3:4], v[0:1], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v3			; GFX7-NEXT: v_mov_b32_e32 v0, v3
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i64 4294967296
	%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%result = extractvalue { i32, i1 } %result.struct, 0			%result = extractvalue { i32, i1 } %result.struct, 0
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

	define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_vgpr_offset(i32 addrspace(1)* inreg %ptr, i32 %voffset, i32 %old, i32 %in) {			define amdgpu_ps float @mubuf_cmpxchg_sgpr_ptr_vgpr_offset(i32 addrspace(1)* inreg %ptr, i32 %voffset, i32 %old, i32 %in) {
	; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_vgpr_offset:			; GFX6-LABEL: mubuf_cmpxchg_sgpr_ptr_vgpr_offset:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: v_mov_b32_e32 v3, v1			; GFX6-NEXT: v_mov_b32_e32 v3, v1
	; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX6-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 2			; GFX6-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
	; GFX6-NEXT: s_mov_b32 s0, s2			; GFX6-NEXT: s_mov_b32 s0, s2
	; GFX6-NEXT: s_mov_b32 s1, s3			; GFX6-NEXT: s_mov_b32 s1, s3
	; GFX6-NEXT: s_mov_b32 s2, 0			; GFX6-NEXT: s_mov_b32 s2, 0
	; GFX6-NEXT: s_mov_b32 s3, 0xf000			; GFX6-NEXT: s_mov_b32 s3, 0xf000
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[2:3], v[0:1], s[0:3], 0 addr64 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[2:3], v[0:1], s[0:3], 0 addr64 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: v_mov_b32_e32 v0, v2			; GFX6-NEXT: v_mov_b32_e32 v0, v2
	; GFX6-NEXT: s_waitcnt expcnt(0)			; GFX6-NEXT: s_waitcnt expcnt(0)
	; GFX6-NEXT: ; return to shader part epilog			; GFX6-NEXT: ; return to shader part epilog
	;			;
	; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_vgpr_offset:			; GFX7-LABEL: mubuf_cmpxchg_sgpr_ptr_vgpr_offset:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: v_mov_b32_e32 v3, v1			; GFX7-NEXT: v_mov_b32_e32 v3, v1
	; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0			; GFX7-NEXT: v_ashrrev_i32_e32 v1, 31, v0
	; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2			; GFX7-NEXT: v_lshl_b64 v[0:1], v[0:1], 2
	; GFX7-NEXT: s_mov_b32 s0, s2			; GFX7-NEXT: s_mov_b32 s0, s2
	; GFX7-NEXT: s_mov_b32 s1, s3			; GFX7-NEXT: s_mov_b32 s1, s3
	; GFX7-NEXT: s_mov_b32 s2, 0			; GFX7-NEXT: s_mov_b32 s2, 0
	; GFX7-NEXT: s_mov_b32 s3, 0xf000			; GFX7-NEXT: s_mov_b32 s3, 0xf000
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: buffer_atomic_cmpswap v[2:3], v[0:1], s[0:3], 0 addr64 glc			; GFX7-NEXT: buffer_atomic_cmpswap v[2:3], v[0:1], s[0:3], 0 addr64 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1			; GFX7-NEXT: buffer_wbinvl1
	; GFX7-NEXT: v_mov_b32_e32 v0, v2			; GFX7-NEXT: v_mov_b32_e32 v0, v2
	; GFX7-NEXT: ; return to shader part epilog			; GFX7-NEXT: ; return to shader part epilog
	%gep = getelementptr i32, i32 addrspace(1)* %ptr, i32 %voffset			%gep = getelementptr i32, i32 addrspace(1)* %ptr, i32 %voffset
	%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%result.struct = cmpxchg i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%result = extractvalue { i32, i1 } %result.struct, 0			%result = extractvalue { i32, i1 } %result.struct, 0
	%cast = bitcast i32 %result to float			%cast = bitcast i32 %result to float
	ret float %cast			ret float %cast
	}			}

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB0_2			; GFX1064-NEXT: s_cbranch_execz BB0_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s2, s[2:3]			; GFX1064-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo
	; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s2, 5			; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s2, 5
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v1, v2, v1			; GFX1064-NEXT: ds_add_rtn_u32 v1, v2, v1
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB0_2:			; GFX1064-NEXT: BB0_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX1064-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	Show All 13 Lines
	; GFX1032-NEXT: s_cbranch_execz BB0_2			; GFX1032-NEXT: s_cbranch_execz BB0_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s2, s2			; GFX1032-NEXT: s_bcnt1_i32_b32 s2, s2
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo
	; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s2, 5			; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s2, 5
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v1, v2, v1			; GFX1032-NEXT: ds_add_rtn_u32 v1, v2, v1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB0_2:			; GFX1032-NEXT: BB0_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_mad_u32_u24 v0, v0, 5, s2			; GFX1032-NEXT: v_mad_u32_u24 v0, v0, 5, s2
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_bcnt1_i32_b64 s3, s[6:7]			; GFX1064-NEXT: s_bcnt1_i32_b64 s3, s[6:7]
	; GFX1064-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: s_mul_i32 s3, s2, s3			; GFX1064-NEXT: s_mul_i32 s3, s2, s3
	; GFX1064-NEXT: v_mov_b32_e32 v2, s3			; GFX1064-NEXT: v_mov_b32_e32 v2, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v1, v1, v2			; GFX1064-NEXT: ds_add_rtn_u32 v1, v1, v2
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB1_2:			; GFX1064-NEXT: BB1_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s0, v1			; GFX1064-NEXT: v_readfirstlane_b32 s0, v1
	; GFX1064-NEXT: s_mov_b32 s7, 0x31016000			; GFX1064-NEXT: s_mov_b32 s7, 0x31016000
	Show All 17 Lines
	; GFX1032-NEXT: s_bcnt1_i32_b32 s1, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s1, s3
	; GFX1032-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: s_mul_i32 s1, s2, s1			; GFX1032-NEXT: s_mul_i32 s1, s2, s1
	; GFX1032-NEXT: v_mov_b32_e32 v2, s1			; GFX1032-NEXT: v_mov_b32_e32 v2, s1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v1, v1, v2			; GFX1032-NEXT: ds_add_rtn_u32 v1, v1, v2
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB1_2:			; GFX1032-NEXT: BB1_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v1			; GFX1032-NEXT: v_readfirstlane_b32 s0, v1
	; GFX1032-NEXT: s_mov_b32 s7, 0x31016000			; GFX1032-NEXT: s_mov_b32 s7, 0x31016000
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB2_2			; GFX1064-NEXT: s_cbranch_execz BB2_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB2_2:			; GFX1064-NEXT: BB2_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB2_2			; GFX1032-NEXT: s_cbranch_execz BB2_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB2_2:			; GFX1032-NEXT: BB2_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB3_2			; GFX1064-NEXT: s_cbranch_execz BB3_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB3_2:			; GFX1064-NEXT: BB3_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB3_2			; GFX1032-NEXT: s_cbranch_execz BB3_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB3_2:			; GFX1032-NEXT: BB3_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB4_2			; GFX1064-NEXT: s_cbranch_execz BB4_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB4_2:			; GFX1064-NEXT: BB4_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB4_2			; GFX1032-NEXT: s_cbranch_execz BB4_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB4_2:			; GFX1032-NEXT: BB4_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_add_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX1064-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo
	; GFX1064-NEXT: v_mul_hi_u32_u24_e64 v2, s4, 5			; GFX1064-NEXT: v_mul_hi_u32_u24_e64 v2, s4, 5
	; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s4, 5			; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s4, 5
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]			; GFX1064-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB5_2:			; GFX1064-NEXT: BB5_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v2			; GFX1064-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, s[2:3]			; GFX1064-NEXT: v_mad_u64_u32 v[0:1], s[2:3], v0, 5, s[2:3]
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 15 Lines
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3
	; GFX1032-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo
	; GFX1032-NEXT: v_mul_hi_u32_u24_e64 v2, s3, 5			; GFX1032-NEXT: v_mul_hi_u32_u24_e64 v2, s3, 5
	; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s3, 5			; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s3, 5
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]			; GFX1032-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB5_2:			; GFX1032-NEXT: BB5_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v2			; GFX1032-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v0, 5, s[2:3]			; GFX1032-NEXT: v_mad_u64_u32 v[0:1], s2, v0, 5, s[2:3]
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1064-NEXT: s_mul_i32 s6, s2, s6			; GFX1064-NEXT: s_mul_i32 s6, s2, s6
	; GFX1064-NEXT: s_add_i32 s8, s8, s7			; GFX1064-NEXT: s_add_i32 s8, s8, s7
	; GFX1064-NEXT: v_mov_b32_e32 v1, s6			; GFX1064-NEXT: v_mov_b32_e32 v1, s6
	; GFX1064-NEXT: v_mov_b32_e32 v2, s8			; GFX1064-NEXT: v_mov_b32_e32 v2, s8
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]			; GFX1064-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB6_2:			; GFX1064-NEXT: BB6_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v0			; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v0
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v0			; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v0
	; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0
	Show All 24 Lines
	; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1032-NEXT: s_mul_i32 s5, s2, s5			; GFX1032-NEXT: s_mul_i32 s5, s2, s5
	; GFX1032-NEXT: s_add_i32 s7, s7, s6			; GFX1032-NEXT: s_add_i32 s7, s7, s6
	; GFX1032-NEXT: v_mov_b32_e32 v1, s5			; GFX1032-NEXT: v_mov_b32_e32 v1, s5
	; GFX1032-NEXT: v_mov_b32_e32 v2, s7			; GFX1032-NEXT: v_mov_b32_e32 v2, s7
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]			; GFX1032-NEXT: ds_add_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB6_2:			; GFX1032-NEXT: BB6_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v0			; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v0
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v0			; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v0
	; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_add_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: add_i64_varying:			; GFX1032-LABEL: add_i64_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_add_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%zext = zext i32 %lane to i64			%zext = zext i32 %lane to i64
	%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 %zext acq_rel			%old = atomicrmw add i64 addrspace(3)* @local_var64, i64 %zext acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB8_2			; GFX1064-NEXT: s_cbranch_execz BB8_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s2, s[2:3]			; GFX1064-NEXT: s_bcnt1_i32_b64 s2, s[2:3]
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo
	; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s2, 5			; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s2, 5
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u32 v1, v2, v1			; GFX1064-NEXT: ds_sub_rtn_u32 v1, v2, v1
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB8_2:			; GFX1064-NEXT: BB8_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX1064-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s2, v0			; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s2, v0
	Show All 13 Lines
	; GFX1032-NEXT: s_cbranch_execz BB8_2			; GFX1032-NEXT: s_cbranch_execz BB8_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s2, s2			; GFX1032-NEXT: s_bcnt1_i32_b32 s2, s2
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var32@abs32@lo
	; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s2, 5			; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s2, 5
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u32 v1, v2, v1			; GFX1032-NEXT: ds_sub_rtn_u32 v1, v2, v1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB8_2:			; GFX1032-NEXT: BB8_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v0			; GFX1032-NEXT: v_mul_u32_u24_e32 v0, 5, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s2, v0			; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s2, v0
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_bcnt1_i32_b64 s3, s[6:7]			; GFX1064-NEXT: s_bcnt1_i32_b64 s3, s[6:7]
	; GFX1064-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: s_mul_i32 s3, s2, s3			; GFX1064-NEXT: s_mul_i32 s3, s2, s3
	; GFX1064-NEXT: v_mov_b32_e32 v2, s3			; GFX1064-NEXT: v_mov_b32_e32 v2, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u32 v1, v1, v2			; GFX1064-NEXT: ds_sub_rtn_u32 v1, v1, v2
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB9_2:			; GFX1064-NEXT: BB9_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]			; GFX1064-NEXT: s_or_b64 exec, exec, s[0:1]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s0, v1			; GFX1064-NEXT: v_readfirstlane_b32 s0, v1
	; GFX1064-NEXT: s_mov_b32 s7, 0x31016000			; GFX1064-NEXT: s_mov_b32 s7, 0x31016000
	Show All 17 Lines
	; GFX1032-NEXT: s_bcnt1_i32_b32 s1, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s1, s3
	; GFX1032-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v1, local_var32@abs32@lo
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: s_mul_i32 s1, s2, s1			; GFX1032-NEXT: s_mul_i32 s1, s2, s1
	; GFX1032-NEXT: v_mov_b32_e32 v2, s1			; GFX1032-NEXT: v_mov_b32_e32 v2, s1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u32 v1, v1, v2			; GFX1032-NEXT: ds_sub_rtn_u32 v1, v1, v2
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB9_2:			; GFX1032-NEXT: BB9_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s0
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s0, v1			; GFX1032-NEXT: v_readfirstlane_b32 s0, v1
	; GFX1032-NEXT: s_mov_b32 s7, 0x31016000			; GFX1032-NEXT: s_mov_b32 s7, 0x31016000
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB10_2			; GFX1064-NEXT: s_cbranch_execz BB10_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_sub_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB10_2:			; GFX1064-NEXT: BB10_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_sub_nc_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB10_2			; GFX1032-NEXT: s_cbranch_execz BB10_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_sub_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB10_2:			; GFX1032-NEXT: BB10_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_sub_nc_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]			; GFX1064-NEXT: s_bcnt1_i32_b64 s4, s[4:5]
	; GFX1064-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo
	; GFX1064-NEXT: v_mul_hi_u32_u24_e64 v2, s4, 5			; GFX1064-NEXT: v_mul_hi_u32_u24_e64 v2, s4, 5
	; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s4, 5			; GFX1064-NEXT: v_mul_u32_u24_e64 v1, s4, 5
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]			; GFX1064-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB11_2:			; GFX1064-NEXT: BB11_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v1			; GFX1064-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1064-NEXT: v_mul_u32_u24_e32 v1, 5, v0			; GFX1064-NEXT: v_mul_u32_u24_e32 v1, 5, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v2			; GFX1064-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1064-NEXT: v_mul_hi_u32_u24_e32 v2, 5, v0			; GFX1064-NEXT: v_mul_hi_u32_u24_e32 v2, 5, v0
	Show All 17 Lines
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3			; GFX1032-NEXT: s_bcnt1_i32_b32 s3, s3
	; GFX1032-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v3, local_var64@abs32@lo
	; GFX1032-NEXT: v_mul_hi_u32_u24_e64 v2, s3, 5			; GFX1032-NEXT: v_mul_hi_u32_u24_e64 v2, s3, 5
	; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s3, 5			; GFX1032-NEXT: v_mul_u32_u24_e64 v1, s3, 5
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]			; GFX1032-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB11_2:			; GFX1032-NEXT: BB11_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v1			; GFX1032-NEXT: v_readfirstlane_b32 s2, v1
	; GFX1032-NEXT: v_mul_u32_u24_e32 v1, 5, v0			; GFX1032-NEXT: v_mul_u32_u24_e32 v1, 5, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v2			; GFX1032-NEXT: v_readfirstlane_b32 s3, v2
	; GFX1032-NEXT: v_mul_hi_u32_u24_e32 v2, 5, v0			; GFX1032-NEXT: v_mul_hi_u32_u24_e32 v2, 5, v0
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6			; GFX1064-NEXT: s_mul_hi_u32 s8, s2, s6
	; GFX1064-NEXT: s_mul_i32 s6, s2, s6			; GFX1064-NEXT: s_mul_i32 s6, s2, s6
	; GFX1064-NEXT: s_add_i32 s8, s8, s7			; GFX1064-NEXT: s_add_i32 s8, s8, s7
	; GFX1064-NEXT: v_mov_b32_e32 v1, s6			; GFX1064-NEXT: v_mov_b32_e32 v1, s6
	; GFX1064-NEXT: v_mov_b32_e32 v2, s8			; GFX1064-NEXT: v_mov_b32_e32 v2, s8
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]			; GFX1064-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB12_2:			; GFX1064-NEXT: BB12_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: s_waitcnt lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v0			; GFX1064-NEXT: v_mul_lo_u32 v3, s3, v0
	; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v0			; GFX1064-NEXT: v_mul_hi_u32 v4, s2, v0
	; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1064-NEXT: v_mul_lo_u32 v0, s2, v0
	Show All 24 Lines
	; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5			; GFX1032-NEXT: s_mul_hi_u32 s7, s2, s5
	; GFX1032-NEXT: s_mul_i32 s5, s2, s5			; GFX1032-NEXT: s_mul_i32 s5, s2, s5
	; GFX1032-NEXT: s_add_i32 s7, s7, s6			; GFX1032-NEXT: s_add_i32 s7, s7, s6
	; GFX1032-NEXT: v_mov_b32_e32 v1, s5			; GFX1032-NEXT: v_mov_b32_e32 v1, s5
	; GFX1032-NEXT: v_mov_b32_e32 v2, s7			; GFX1032-NEXT: v_mov_b32_e32 v2, s7
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]			; GFX1032-NEXT: ds_sub_rtn_u64 v[1:2], v3, v[1:2]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB12_2:			; GFX1032-NEXT: BB12_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: s_waitcnt lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v0			; GFX1032-NEXT: v_mul_lo_u32 v3, s3, v0
	; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v0			; GFX1032-NEXT: v_mul_hi_u32 v4, s2, v0
	; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0			; GFX1032-NEXT: v_mul_lo_u32 v0, s2, v0
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1064-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1064-NEXT: s_mov_b32 s2, -1			; GFX1064-NEXT: s_mov_b32 s2, -1
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1064-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1064-NEXT: s_endpgm			; GFX1064-NEXT: s_endpgm
	;			;
	; GFX1032-LABEL: sub_i64_varying:			; GFX1032-LABEL: sub_i64_varying:
	; GFX1032: ; %bb.0: ; %entry			; GFX1032: ; %bb.0: ; %entry
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24			; GFX1032-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0x24
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	; GFX1032-NEXT: s_mov_b32 s2, -1			; GFX1032-NEXT: s_mov_b32 s2, -1
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_sub_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0			; GFX1032-NEXT: buffer_store_dwordx2 v[0:1], off, s[0:3], 0
	; GFX1032-NEXT: s_endpgm			; GFX1032-NEXT: s_endpgm
	entry:			entry:
	%lane = call i32 @llvm.amdgcn.workitem.id.x()			%lane = call i32 @llvm.amdgcn.workitem.id.x()
	%zext = zext i32 %lane to i64			%zext = zext i32 %lane to i64
	%old = atomicrmw sub i64 addrspace(3)* @local_var64, i64 %zext acq_rel			%old = atomicrmw sub i64 addrspace(3)* @local_var64, i64 %zext acq_rel
	store i64 %old, i64 addrspace(1)* %out			store i64 %old, i64 addrspace(1)* %out
	▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB14_2			; GFX1064-NEXT: s_cbranch_execz BB14_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_and_rtn_b32 v0, v7, v4			; GFX1064-NEXT: ds_and_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB14_2:			; GFX1064-NEXT: BB14_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_and_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB14_2			; GFX1032-NEXT: s_cbranch_execz BB14_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_and_rtn_b32 v0, v7, v4			; GFX1032-NEXT: ds_and_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB14_2:			; GFX1032-NEXT: BB14_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_and_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_and_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB15_2			; GFX1064-NEXT: s_cbranch_execz BB15_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_or_rtn_b32 v0, v7, v4			; GFX1064-NEXT: ds_or_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB15_2:			; GFX1064-NEXT: BB15_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_or_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_or_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB15_2			; GFX1032-NEXT: s_cbranch_execz BB15_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_or_rtn_b32 v0, v7, v4			; GFX1032-NEXT: ds_or_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB15_2:			; GFX1032-NEXT: BB15_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_or_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_or_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB16_2			; GFX1064-NEXT: s_cbranch_execz BB16_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_xor_rtn_b32 v0, v7, v4			; GFX1064-NEXT: ds_xor_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB16_2:			; GFX1064-NEXT: BB16_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_xor_b32_e32 v0, s3, v0			; GFX1064-NEXT: v_xor_b32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB16_2			; GFX1032-NEXT: s_cbranch_execz BB16_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_xor_rtn_b32 v0, v7, v4			; GFX1032-NEXT: ds_xor_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB16_2:			; GFX1032-NEXT: BB16_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_xor_b32_e32 v0, s3, v0			; GFX1032-NEXT: v_xor_b32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB17_2			; GFX1064-NEXT: s_cbranch_execz BB17_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_i32 v0, v7, v4			; GFX1064-NEXT: ds_max_rtn_i32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB17_2:			; GFX1064-NEXT: BB17_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_max_i32_e32 v0, s3, v0			; GFX1064-NEXT: v_max_i32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 36 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB17_2			; GFX1032-NEXT: s_cbranch_execz BB17_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_i32 v0, v7, v4			; GFX1032-NEXT: ds_max_rtn_i32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB17_2:			; GFX1032-NEXT: BB17_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_max_i32_e32 v0, s3, v0			; GFX1032-NEXT: v_max_i32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB18_2			; GFX1064-NEXT: s_cbranch_execz BB18_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, 5			; GFX1064-NEXT: v_mov_b32_e32 v0, 5
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_i64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_max_rtn_i64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB18_2:			; GFX1064-NEXT: BB18_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, 0x80000000, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, 0x80000000, vcc
	; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc
	Show All 16 Lines
	; GFX1032-NEXT: s_cbranch_execz BB18_2			; GFX1032-NEXT: s_cbranch_execz BB18_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, 5			; GFX1032-NEXT: v_mov_b32_e32 v0, 5
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_i64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_max_rtn_i64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB18_2:			; GFX1032-NEXT: BB18_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, 0x80000000, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, 0x80000000, vcc_lo
	; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc_lo
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB19_2			; GFX1064-NEXT: s_cbranch_execz BB19_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_i32 v0, v7, v4			; GFX1064-NEXT: ds_min_rtn_i32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB19_2:			; GFX1064-NEXT: BB19_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	; GFX1064-NEXT: v_min_i32_e32 v0, s3, v0			; GFX1064-NEXT: v_min_i32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 36 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB19_2			; GFX1032-NEXT: s_cbranch_execz BB19_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_i32 v0, v7, v4			; GFX1032-NEXT: ds_min_rtn_i32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB19_2:			; GFX1032-NEXT: BB19_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	; GFX1032-NEXT: v_min_i32_e32 v0, s3, v0			; GFX1032-NEXT: v_min_i32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB20_2			; GFX1064-NEXT: s_cbranch_execz BB20_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, 5			; GFX1064-NEXT: v_mov_b32_e32 v0, 5
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_i64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_min_rtn_i64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB20_2:			; GFX1064-NEXT: BB20_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, 0x7fffffff, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, 0x7fffffff, vcc
	; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc
	Show All 16 Lines
	; GFX1032-NEXT: s_cbranch_execz BB20_2			; GFX1032-NEXT: s_cbranch_execz BB20_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, 5			; GFX1032-NEXT: v_mov_b32_e32 v0, 5
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_i64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_min_rtn_i64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB20_2:			; GFX1032-NEXT: BB20_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, 0x7fffffff, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, 0x7fffffff, vcc_lo
	; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc_lo
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB21_2			; GFX1064-NEXT: s_cbranch_execz BB21_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_max_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB21_2:			; GFX1064-NEXT: BB21_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_max_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_max_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB21_2			; GFX1032-NEXT: s_cbranch_execz BB21_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_max_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB21_2:			; GFX1032-NEXT: BB21_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_max_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_max_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB22_2			; GFX1064-NEXT: s_cbranch_execz BB22_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, 5			; GFX1064-NEXT: v_mov_b32_e32 v0, 5
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_u64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_max_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB22_2:			; GFX1064-NEXT: BB22_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc
	Show All 16 Lines
	; GFX1032-NEXT: s_cbranch_execz BB22_2			; GFX1032-NEXT: s_cbranch_execz BB22_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, 5			; GFX1032-NEXT: v_mov_b32_e32 v0, 5
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_u64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_max_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB22_2:			; GFX1032-NEXT: BB22_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, 0, vcc_lo
	▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB23_2			; GFX1064-NEXT: s_cbranch_execz BB23_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v4, s7			; GFX1064-NEXT: v_mov_b32_e32 v4, s7
	; GFX1064-NEXT: s_mov_b32 s3, s7			; GFX1064-NEXT: s_mov_b32 s3, s7
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_u32 v0, v7, v4			; GFX1064-NEXT: ds_min_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB23_2:			; GFX1064-NEXT: BB23_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v3			; GFX1064-NEXT: v_mov_b32_e32 v0, v3
	; GFX1064-NEXT: v_min_u32_e32 v0, s3, v0			; GFX1064-NEXT: v_min_u32_e32 v0, s3, v0
	; GFX1064-NEXT: s_mov_b32 s3, 0x31016000			; GFX1064-NEXT: s_mov_b32 s3, 0x31016000
	Show All 34 Lines
	; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s3, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB23_2			; GFX1032-NEXT: s_cbranch_execz BB23_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v4, s4			; GFX1032-NEXT: v_mov_b32_e32 v4, s4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_u32 v0, v7, v4			; GFX1032-NEXT: ds_min_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB23_2:			; GFX1032-NEXT: BB23_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s3
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v3			; GFX1032-NEXT: v_mov_b32_e32 v0, v3
	; GFX1032-NEXT: v_min_u32_e32 v0, s3, v0			; GFX1032-NEXT: v_min_u32_e32 v0, s3, v0
	; GFX1032-NEXT: s_mov_b32 s3, 0x31016000			; GFX1032-NEXT: s_mov_b32 s3, 0x31016000
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: s_cbranch_execz BB24_2			; GFX1064-NEXT: s_cbranch_execz BB24_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, 5			; GFX1064-NEXT: v_mov_b32_e32 v0, 5
	; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v1, 0			; GFX1064-NEXT: v_mov_b32_e32 v1, 0
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_u64 v[0:1], v2, v[0:1]			; GFX1064-NEXT: ds_min_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: BB24_2:			; GFX1064-NEXT: BB24_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]			; GFX1064-NEXT: s_or_b64 exec, exec, s[2:3]
	; GFX1064-NEXT: v_readfirstlane_b32 s2, v0			; GFX1064-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v1			; GFX1064-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc
	; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc			; GFX1064-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc
	Show All 16 Lines
	; GFX1032-NEXT: s_cbranch_execz BB24_2			; GFX1032-NEXT: s_cbranch_execz BB24_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, 5			; GFX1032-NEXT: v_mov_b32_e32 v0, 5
	; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v2, local_var64@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v1, 0			; GFX1032-NEXT: v_mov_b32_e32 v1, 0
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_u64 v[0:1], v2, v[0:1]			; GFX1032-NEXT: ds_min_rtn_u64 v[0:1], v2, v[0:1]
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: BB24_2:			; GFX1032-NEXT: BB24_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s2
	; GFX1032-NEXT: v_readfirstlane_b32 s2, v0			; GFX1032-NEXT: v_readfirstlane_b32 s2, v0
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v1			; GFX1032-NEXT: v_readfirstlane_b32 s3, v1
	; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v1, 0, -1, vcc_lo
	; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc_lo			; GFX1032-NEXT: v_cndmask_b32_e64 v0, 5, -1, vcc_lo
	Show All 13 Lines

llvm/test/CodeGen/AMDGPU/atomicrmw-nand.ll

	Show All 36 Lines
	; GCN-NEXT: BB1_1: ; %atomicrmw.start			; GCN-NEXT: BB1_1: ; %atomicrmw.start
	; GCN-NEXT: ; =>This Inner Loop Header: Depth=1			; GCN-NEXT: ; =>This Inner Loop Header: Depth=1
	; GCN-NEXT: s_waitcnt vmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: v_mov_b32_e32 v3, v2			; GCN-NEXT: v_mov_b32_e32 v3, v2
	; GCN-NEXT: v_not_b32_e32 v2, v3			; GCN-NEXT: v_not_b32_e32 v2, v3
	; GCN-NEXT: v_or_b32_e32 v2, -5, v2			; GCN-NEXT: v_or_b32_e32 v2, -5, v2
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GCN-NEXT: global_atomic_cmpswap v2, v[0:1], v[2:3], off glc			; GCN-NEXT: global_atomic_cmpswap v2, v[0:1], v[2:3], off glc
	; GCN-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GCN-NEXT: s_waitcnt vmcnt(0)
	; GCN-NEXT: buffer_wbinvl1_vol			; GCN-NEXT: buffer_wbinvl1_vol
	; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v2, v3			; GCN-NEXT: v_cmp_eq_u32_e32 vcc, v2, v3
	; GCN-NEXT: s_or_b64 s[4:5], vcc, s[4:5]			; GCN-NEXT: s_or_b64 s[4:5], vcc, s[4:5]
	; GCN-NEXT: s_andn2_b64 exec, exec, s[4:5]			; GCN-NEXT: s_andn2_b64 exec, exec, s[4:5]
	; GCN-NEXT: s_cbranch_execnz BB1_1			; GCN-NEXT: s_cbranch_execnz BB1_1
	; GCN-NEXT: ; %bb.2: ; %atomicrmw.end			; GCN-NEXT: ; %bb.2: ; %atomicrmw.end
	; GCN-NEXT: s_or_b64 exec, exec, s[4:5]			; GCN-NEXT: s_or_b64 exec, exec, s[4:5]
	; GCN-NEXT: v_mov_b32_e32 v0, v2			; GCN-NEXT: v_mov_b32_e32 v0, v2
	Show All 33 Lines

llvm/test/CodeGen/AMDGPU/global-saddr-atomics.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
	; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -mattr=+wavefrontsize64 < %s \| FileCheck -check-prefixes=GCN,GFX10 %s			; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -mattr=+wavefrontsize64 < %s \| FileCheck -check-prefixes=GCN,GFX10 %s

	; Test using saddr addressing mode of global_* flat atomic instructions.			; Test using saddr addressing mode of global_* flat atomic instructions.

	define amdgpu_ps void @global_xchg_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_nortn:			; GFX9-LABEL: global_xchg_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_nortn:			; GFX10-LABEL: global_xchg_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	; Maximum positive offset on gfx10			; Maximum positive offset on gfx10
	define amdgpu_ps void @global_xchg_saddr_i32_nortn_offset_2047(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_i32_nortn_offset_2047(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_nortn_offset_2047:			; GFX9-LABEL: global_xchg_saddr_i32_nortn_offset_2047:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3] offset:2047			; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3] offset:2047
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_nortn_offset_2047:			; GFX10-LABEL: global_xchg_saddr_i32_nortn_offset_2047:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3] offset:2047			; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3] offset:2047
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 2047			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 2047
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	; Maximum negative offset on gfx10			; Maximum negative offset on gfx10
	define amdgpu_ps void @global_xchg_saddr_i32_nortn_offset_neg2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_i32_nortn_offset_neg2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_nortn_offset_neg2048:			; GFX9-LABEL: global_xchg_saddr_i32_nortn_offset_neg2048:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3] offset:-2048			; GFX9-NEXT: global_atomic_swap v0, v1, s[2:3] offset:-2048
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_nortn_offset_neg2048:			; GFX10-LABEL: global_xchg_saddr_i32_nortn_offset_neg2048:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3] offset:-2048			; GFX10-NEXT: global_atomic_swap v0, v1, s[2:3] offset:-2048
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -2048			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -2048
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps float @global_xchg_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_rtn:			; GFX9-LABEL: global_xchg_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_rtn:			; GFX10-LABEL: global_xchg_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_xchg_saddr_i32_rtn_2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_i32_rtn_2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_rtn_2048:			; GFX9-LABEL: global_xchg_saddr_i32_rtn_2048:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:2048 glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:2048 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_rtn_2048:			; GFX10-LABEL: global_xchg_saddr_i32_rtn_2048:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_add_co_u32_e64 v0, s[0:1], s2, v0			; GFX10-NEXT: v_add_co_u32_e64 v0, s[0:1], s2, v0
	; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s[0:1], s3, 0, s[0:1]			; GFX10-NEXT: v_add_co_ci_u32_e64 v3, s[0:1], s3, 0, s[0:1]
	; GFX10-NEXT: v_add_co_u32_e64 v2, vcc, 0x800, v0			; GFX10-NEXT: v_add_co_u32_e64 v2, vcc, 0x800, v0
	; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc, 0, v3, vcc			; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc, 0, v3, vcc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v[2:3], v1, off glc			; GFX10-NEXT: global_atomic_swap v0, v[2:3], v1, off glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 2048			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 2048
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_xchg_saddr_i32_rtn_neg2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_i32_rtn_neg2048(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_i32_rtn_neg2048:			; GFX9-LABEL: global_xchg_saddr_i32_rtn_neg2048:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:-2048 glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:-2048 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_i32_rtn_neg2048:			; GFX10-LABEL: global_xchg_saddr_i32_rtn_neg2048:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:-2048 glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[2:3] offset:-2048 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -2048			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -2048
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	Show All 14 Lines
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_nop 3			; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_nop 2			; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	; Base pointer is uniform, but also in VGPRs, with imm offset			; Base pointer is uniform, but also in VGPRs, with imm offset
	define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset(i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_nop 3			; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc			; GFX9-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_rtn_immoffset:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_nop 2			; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc			; GFX10-NEXT: global_atomic_swap v0, v0, v1, s[0:1] offset:42 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	Show All 9 Lines
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_nop 3			; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_nop 2			; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw xchg i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	; Base pointer is uniform, but also in VGPRs, with imm offset			; Base pointer is uniform, but also in VGPRs, with imm offset
	define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset(i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset(i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:			; GFX9-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v2, 0			; GFX9-NEXT: v_mov_b32_e32 v2, 0
	; GFX9-NEXT: ds_read_b64 v[2:3], v2			; GFX9-NEXT: ds_read_b64 v[2:3], v2
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_readfirstlane_b32 s0, v2			; GFX9-NEXT: v_readfirstlane_b32 s0, v2
	; GFX9-NEXT: v_readfirstlane_b32 s1, v3			; GFX9-NEXT: v_readfirstlane_b32 s1, v3
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: s_nop 3			; GFX9-NEXT: s_nop 3
	; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42			; GFX9-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:			; GFX10-LABEL: global_xchg_saddr_uniform_ptr_in_vgprs_nortn_immoffset:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v2, 0			; GFX10-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-NEXT: ds_read_b64 v[2:3], v2			; GFX10-NEXT: ds_read_b64 v[2:3], v2
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: v_readfirstlane_b32 s0, v2			; GFX10-NEXT: v_readfirstlane_b32 s0, v2
	; GFX10-NEXT: v_readfirstlane_b32 s1, v3			; GFX10-NEXT: v_readfirstlane_b32 s1, v3
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: s_nop 2			; GFX10-NEXT: s_nop 2
	; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42			; GFX10-NEXT: global_atomic_swap v0, v1, s[0:1] offset:42
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds			%sbase = load i8 addrspace(1), i8 addrspace(1) addrspace(3)* @ptr.in.lds
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 42
	Show All 10 Lines
	; atomicrmw xchg			; atomicrmw xchg
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps <2 x float> @global_xchg_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_xchg_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xchg_saddr_i64_rtn:			; GFX9-LABEL: global_xchg_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_i64_rtn:			; GFX10-LABEL: global_xchg_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw xchg i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw xchg i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_xchg_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_xchg_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xchg_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_xchg_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xchg_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_xchg_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_swap_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw xchg i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw xchg i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_xchg_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_xchg_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xchg_saddr_i64_nortn:			; GFX9-LABEL: global_xchg_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_i64_nortn:			; GFX10-LABEL: global_xchg_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw xchg i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw xchg i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_xchg_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_xchg_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xchg_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_xchg_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xchg_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_xchg_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_swap_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw xchg i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw xchg i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw add			; atomicrmw add
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_add_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_add_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_add_saddr_i32_rtn:			; GFX9-LABEL: global_add_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_add v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_add_saddr_i32_rtn:			; GFX10-LABEL: global_add_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_add v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw add i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw add i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_add_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_add_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_add_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_add_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_add v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_add_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_add_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_add v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw add i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw add i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_add_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_add_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_add_saddr_i32_nortn:			; GFX9-LABEL: global_add_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_add v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_add_saddr_i32_nortn:			; GFX10-LABEL: global_add_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_add v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw add i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw add i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_add_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_add_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_add_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_add_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_add v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_add_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_add_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_add v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw add i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw add i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_add_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_add_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_add_saddr_i64_rtn:			; GFX9-LABEL: global_add_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_add_saddr_i64_rtn:			; GFX10-LABEL: global_add_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw add i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw add i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_add_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_add_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_add_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_add_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_add_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_add_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_add_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw add i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw add i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_add_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_add_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_add_saddr_i64_nortn:			; GFX9-LABEL: global_add_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_add_saddr_i64_nortn:			; GFX10-LABEL: global_add_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw add i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw add i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_add_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_add_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_add_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_add_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_add_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_add_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_add_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw add i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw add i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw sub			; atomicrmw sub
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_sub_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_sub_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_sub_saddr_i32_rtn:			; GFX9-LABEL: global_sub_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_sub v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_sub_saddr_i32_rtn:			; GFX10-LABEL: global_sub_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_sub v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw sub i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw sub i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_sub_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_sub_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_sub_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_sub_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_sub v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_sub_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_sub_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_sub v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw sub i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw sub i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_sub_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_sub_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_sub_saddr_i32_nortn:			; GFX9-LABEL: global_sub_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_sub v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_sub_saddr_i32_nortn:			; GFX10-LABEL: global_sub_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_sub v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw sub i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw sub i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_sub_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_sub_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_sub_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_sub_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_sub v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_sub_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_sub_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_sub v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw sub i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw sub i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_sub_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_sub_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_sub_saddr_i64_rtn:			; GFX9-LABEL: global_sub_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_sub_saddr_i64_rtn:			; GFX10-LABEL: global_sub_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw sub i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw sub i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_sub_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_sub_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_sub_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_sub_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_sub_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_sub_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_sub_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw sub i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw sub i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_sub_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_sub_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_sub_saddr_i64_nortn:			; GFX9-LABEL: global_sub_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_sub_saddr_i64_nortn:			; GFX10-LABEL: global_sub_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw sub i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw sub i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_sub_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_sub_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_sub_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_sub_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_sub_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_sub_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_sub_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw sub i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw sub i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw and			; atomicrmw and
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_and_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_and_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_and_saddr_i32_rtn:			; GFX9-LABEL: global_and_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_and v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_and_saddr_i32_rtn:			; GFX10-LABEL: global_and_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_and v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw and i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw and i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_and_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_and_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_and_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_and_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_and v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_and_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_and_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_and v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw and i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw and i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_and_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_and_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_and_saddr_i32_nortn:			; GFX9-LABEL: global_and_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_and v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_and_saddr_i32_nortn:			; GFX10-LABEL: global_and_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_and v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw and i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw and i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_and_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_and_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_and_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_and_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_and v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_and_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_and_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_and v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw and i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw and i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_and_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_and_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_and_saddr_i64_rtn:			; GFX9-LABEL: global_and_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_and_saddr_i64_rtn:			; GFX10-LABEL: global_and_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw and i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw and i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_and_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_and_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_and_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_and_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_and_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_and_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_and_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw and i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw and i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_and_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_and_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_and_saddr_i64_nortn:			; GFX9-LABEL: global_and_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_and_saddr_i64_nortn:			; GFX10-LABEL: global_and_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw and i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw and i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_and_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_and_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_and_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_and_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_and_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_and_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_and_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw and i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw and i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw or			; atomicrmw or
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_or_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_or_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_or_saddr_i32_rtn:			; GFX9-LABEL: global_or_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_or v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_or_saddr_i32_rtn:			; GFX10-LABEL: global_or_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_or v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw or i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw or i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_or_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_or_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_or_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_or_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_or v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_or_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_or_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_or v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw or i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw or i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_or_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_or_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_or_saddr_i32_nortn:			; GFX9-LABEL: global_or_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_or v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_or_saddr_i32_nortn:			; GFX10-LABEL: global_or_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_or v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw or i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw or i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_or_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_or_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_or_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_or_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_or v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_or_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_or_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_or v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw or i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw or i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_or_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_or_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_or_saddr_i64_rtn:			; GFX9-LABEL: global_or_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_or_saddr_i64_rtn:			; GFX10-LABEL: global_or_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw or i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw or i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_or_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_or_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_or_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_or_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_or_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_or_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_or_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw or i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw or i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_or_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_or_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_or_saddr_i64_nortn:			; GFX9-LABEL: global_or_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_or_saddr_i64_nortn:			; GFX10-LABEL: global_or_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw or i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw or i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_or_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_or_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_or_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_or_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_or_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_or_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_or_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw or i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw or i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw xor			; atomicrmw xor
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_xor_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xor_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xor_saddr_i32_rtn:			; GFX9-LABEL: global_xor_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_xor v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xor_saddr_i32_rtn:			; GFX10-LABEL: global_xor_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_xor v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw xor i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw xor i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_xor_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_xor_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xor_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_xor_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_xor v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xor_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_xor_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_xor v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw xor i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw xor i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_xor_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xor_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xor_saddr_i32_nortn:			; GFX9-LABEL: global_xor_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_xor v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xor_saddr_i32_nortn:			; GFX10-LABEL: global_xor_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_xor v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw xor i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw xor i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_xor_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_xor_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_xor_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_xor_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_xor v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xor_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_xor_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_xor v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw xor i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw xor i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_xor_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_xor_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xor_saddr_i64_rtn:			; GFX9-LABEL: global_xor_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xor_saddr_i64_rtn:			; GFX10-LABEL: global_xor_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw xor i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw xor i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_xor_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_xor_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xor_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_xor_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_xor_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_xor_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_xor_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw xor i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw xor i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_xor_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_xor_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xor_saddr_i64_nortn:			; GFX9-LABEL: global_xor_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xor_saddr_i64_nortn:			; GFX10-LABEL: global_xor_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw xor i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw xor i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_xor_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_xor_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_xor_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_xor_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_xor_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_xor_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_xor_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw xor i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw xor i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw max			; atomicrmw max
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_max_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_max_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_max_saddr_i32_rtn:			; GFX9-LABEL: global_max_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_smax v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_max_saddr_i32_rtn:			; GFX10-LABEL: global_max_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_smax v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw max i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw max i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_max_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_max_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_max_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_max_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_smax v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_max_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_max_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_smax v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw max i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw max i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_max_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_max_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_max_saddr_i32_nortn:			; GFX9-LABEL: global_max_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_smax v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_max_saddr_i32_nortn:			; GFX10-LABEL: global_max_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_smax v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw max i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw max i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_max_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_max_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_max_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_max_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_smax v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_max_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_max_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_smax v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw max i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw max i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_max_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_max_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_max_saddr_i64_rtn:			; GFX9-LABEL: global_max_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_max_saddr_i64_rtn:			; GFX10-LABEL: global_max_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw max i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw max i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_max_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_max_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_max_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_max_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_max_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_max_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_smax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw max i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw max i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_max_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_max_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_max_saddr_i64_nortn:			; GFX9-LABEL: global_max_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_max_saddr_i64_nortn:			; GFX10-LABEL: global_max_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw max i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw max i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_max_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_max_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_max_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_max_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_max_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_max_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_smax_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw max i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw max i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw min			; atomicrmw min
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_min_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_min_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_min_saddr_i32_rtn:			; GFX9-LABEL: global_min_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_smin v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_min_saddr_i32_rtn:			; GFX10-LABEL: global_min_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_smin v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw min i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw min i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_min_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_min_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_min_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_min_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_smin v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_min_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_min_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_smin v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw min i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw min i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_min_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_min_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_min_saddr_i32_nortn:			; GFX9-LABEL: global_min_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_smin v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_min_saddr_i32_nortn:			; GFX10-LABEL: global_min_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_smin v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw min i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw min i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_min_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_min_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_min_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_min_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_smin v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_min_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_min_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_smin v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw min i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw min i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_min_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_min_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_min_saddr_i64_rtn:			; GFX9-LABEL: global_min_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_min_saddr_i64_rtn:			; GFX10-LABEL: global_min_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw min i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw min i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_min_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_min_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_min_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_min_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_min_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_min_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_smin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw min i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw min i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_min_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_min_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_min_saddr_i64_nortn:			; GFX9-LABEL: global_min_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_min_saddr_i64_nortn:			; GFX10-LABEL: global_min_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw min i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw min i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_min_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_min_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_min_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_min_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_min_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_min_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_smin_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw min i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw min i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw umax			; atomicrmw umax
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_umax_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_umax_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umax_saddr_i32_rtn:			; GFX9-LABEL: global_umax_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_umax v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umax_saddr_i32_rtn:			; GFX10-LABEL: global_umax_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_umax v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw umax i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw umax i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_umax_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_umax_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umax_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_umax_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_umax v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umax_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_umax_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_umax v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw umax i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw umax i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_umax_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_umax_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umax_saddr_i32_nortn:			; GFX9-LABEL: global_umax_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_umax v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umax_saddr_i32_nortn:			; GFX10-LABEL: global_umax_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_umax v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw umax i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw umax i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_umax_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_umax_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umax_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_umax_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_umax v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umax_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_umax_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_umax v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw umax i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw umax i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_umax_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_umax_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umax_saddr_i64_rtn:			; GFX9-LABEL: global_umax_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umax_saddr_i64_rtn:			; GFX10-LABEL: global_umax_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw umax i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw umax i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_umax_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_umax_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umax_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_umax_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umax_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_umax_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_umax_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw umax i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw umax i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_umax_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_umax_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umax_saddr_i64_nortn:			; GFX9-LABEL: global_umax_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umax_saddr_i64_nortn:			; GFX10-LABEL: global_umax_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw umax i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw umax i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_umax_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_umax_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umax_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_umax_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umax_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_umax_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_umax_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw umax i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw umax i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; atomicrmw umin			; atomicrmw umin
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_umin_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_umin_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umin_saddr_i32_rtn:			; GFX9-LABEL: global_umin_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin v0, v0, v1, s[2:3] glc			; GFX9-NEXT: global_atomic_umin v0, v0, v1, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umin_saddr_i32_rtn:			; GFX10-LABEL: global_umin_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin v0, v0, v1, s[2:3] glc			; GFX10-NEXT: global_atomic_umin v0, v0, v1, s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%rtn = atomicrmw umin i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%rtn = atomicrmw umin i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_umin_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps float @global_umin_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umin_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_umin_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin v0, v0, v1, s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_umin v0, v0, v1, s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umin_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_umin_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin v0, v0, v1, s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_umin v0, v0, v1, s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%rtn = atomicrmw umin i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%rtn = atomicrmw umin i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_umin_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_umin_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umin_saddr_i32_nortn:			; GFX9-LABEL: global_umin_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin v0, v1, s[2:3]			; GFX9-NEXT: global_atomic_umin v0, v1, s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umin_saddr_i32_nortn:			; GFX10-LABEL: global_umin_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin v0, v1, s[2:3]			; GFX10-NEXT: global_atomic_umin v0, v1, s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = atomicrmw umin i32 addrspace(1)* %cast.gep0, i32 %data seq_cst			%unused = atomicrmw umin i32 addrspace(1)* %cast.gep0, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_umin_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {			define amdgpu_ps void @global_umin_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %data) {
	; GFX9-LABEL: global_umin_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_umin_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin v0, v1, s[2:3] offset:-128			; GFX9-NEXT: global_atomic_umin v0, v1, s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umin_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_umin_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin v0, v1, s[2:3] offset:-128			; GFX10-NEXT: global_atomic_umin v0, v1, s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = atomicrmw umin i32 addrspace(1)* %cast.gep1, i32 %data seq_cst			%unused = atomicrmw umin i32 addrspace(1)* %cast.gep1, i32 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_umin_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_umin_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umin_saddr_i64_rtn:			; GFX9-LABEL: global_umin_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX9-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umin_saddr_i64_rtn:			; GFX10-LABEL: global_umin_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] glc			; GFX10-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%rtn = atomicrmw umin i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%rtn = atomicrmw umin i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_umin_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps <2 x float> @global_umin_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umin_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_umin_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_umin_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_umin_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_umin_x2 v[0:1], v0, v[1:2], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%rtn = atomicrmw umin i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%rtn = atomicrmw umin i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_umin_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_umin_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umin_saddr_i64_nortn:			; GFX9-LABEL: global_umin_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3]			; GFX9-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umin_saddr_i64_nortn:			; GFX10-LABEL: global_umin_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3]			; GFX10-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = atomicrmw umin i64 addrspace(1)* %cast.gep0, i64 %data seq_cst			%unused = atomicrmw umin i64 addrspace(1)* %cast.gep0, i64 %data seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_umin_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {			define amdgpu_ps void @global_umin_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %data) {
	; GFX9-LABEL: global_umin_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_umin_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_umin_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_umin_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_umin_x2 v0, v[1:2], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%unused = atomicrmw umin i64 addrspace(1)* %cast.gep1, i64 %data seq_cst			%unused = atomicrmw umin i64 addrspace(1)* %cast.gep1, i64 %data seq_cst
	ret void			ret void
	}			}

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; cmpxchg			; cmpxchg
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	define amdgpu_ps float @global_cmpxchg_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {			define amdgpu_ps float @global_cmpxchg_saddr_i32_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i32_rtn:			; GFX9-LABEL: global_cmpxchg_saddr_i32_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] glc			; GFX9-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i32_rtn:			; GFX10-LABEL: global_cmpxchg_saddr_i32_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] glc			; GFX10-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%cmpxchg = cmpxchg i32 addrspace(1)* %cast.gep0, i32 %cmp, i32 %data seq_cst seq_cst			%cmpxchg = cmpxchg i32 addrspace(1)* %cast.gep0, i32 %cmp, i32 %data seq_cst seq_cst
	%rtn = extractvalue { i32, i1 } %cmpxchg, 0			%rtn = extractvalue { i32, i1 } %cmpxchg, 0
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps float @global_cmpxchg_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {			define amdgpu_ps float @global_cmpxchg_saddr_i32_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i32_rtn_neg128:			; GFX9-LABEL: global_cmpxchg_saddr_i32_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i32_rtn_neg128:			; GFX10-LABEL: global_cmpxchg_saddr_i32_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_cmpswap v0, v0, v[2:3], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%cmpxchg = cmpxchg i32 addrspace(1)* %cast.gep1, i32 %cmp, i32 %data seq_cst seq_cst			%cmpxchg = cmpxchg i32 addrspace(1)* %cast.gep1, i32 %cmp, i32 %data seq_cst seq_cst
	%rtn = extractvalue { i32, i1 } %cmpxchg, 0			%rtn = extractvalue { i32, i1 } %cmpxchg, 0
	%cast.rtn = bitcast i32 %rtn to float			%cast.rtn = bitcast i32 %rtn to float
	ret float %cast.rtn			ret float %cast.rtn
	}			}

	define amdgpu_ps void @global_cmpxchg_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {			define amdgpu_ps void @global_cmpxchg_saddr_i32_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i32_nortn:			; GFX9-LABEL: global_cmpxchg_saddr_i32_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3]			; GFX9-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i32_nortn:			; GFX10-LABEL: global_cmpxchg_saddr_i32_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3]			; GFX10-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i32 addrspace(1)*
	%unused = cmpxchg i32 addrspace(1)* %cast.gep0, i32 %cmp, i32 %data seq_cst seq_cst			%unused = cmpxchg i32 addrspace(1)* %cast.gep0, i32 %cmp, i32 %data seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_cmpxchg_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {			define amdgpu_ps void @global_cmpxchg_saddr_i32_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i32 %cmp, i32 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i32_nortn_neg128:			; GFX9-LABEL: global_cmpxchg_saddr_i32_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v3, v1			; GFX9-NEXT: v_mov_b32_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i32_nortn_neg128:			; GFX10-LABEL: global_cmpxchg_saddr_i32_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, v1			; GFX10-NEXT: v_mov_b32_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_cmpswap v0, v[2:3], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i32 addrspace(1)*
	%unused = cmpxchg i32 addrspace(1)* %cast.gep1, i32 %cmp, i32 %data seq_cst seq_cst			%unused = cmpxchg i32 addrspace(1)* %cast.gep1, i32 %cmp, i32 %data seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps <2 x float> @global_cmpxchg_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {			define amdgpu_ps <2 x float> @global_cmpxchg_saddr_i64_rtn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i64_rtn:			; GFX9-LABEL: global_cmpxchg_saddr_i64_rtn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_mov_b32_e32 v5, v1			; GFX9-NEXT: v_mov_b32_e32 v5, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] glc			; GFX9-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i64_rtn:			; GFX10-LABEL: global_cmpxchg_saddr_i64_rtn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: v_mov_b32_e32 v5, v1			; GFX10-NEXT: v_mov_b32_e32 v5, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] glc			; GFX10-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%cmpxchg = cmpxchg i64 addrspace(1)* %cast.gep0, i64 %cmp, i64 %data seq_cst seq_cst			%cmpxchg = cmpxchg i64 addrspace(1)* %cast.gep0, i64 %cmp, i64 %data seq_cst seq_cst
	%rtn = extractvalue { i64, i1 } %cmpxchg, 0			%rtn = extractvalue { i64, i1 } %cmpxchg, 0
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps <2 x float> @global_cmpxchg_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {			define amdgpu_ps <2 x float> @global_cmpxchg_saddr_i64_rtn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i64_rtn_neg128:			; GFX9-LABEL: global_cmpxchg_saddr_i64_rtn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_mov_b32_e32 v5, v1			; GFX9-NEXT: v_mov_b32_e32 v5, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] offset:-128 glc			; GFX9-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] offset:-128 glc
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i64_rtn_neg128:			; GFX10-LABEL: global_cmpxchg_saddr_i64_rtn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: v_mov_b32_e32 v5, v1			; GFX10-NEXT: v_mov_b32_e32 v5, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] offset:-128 glc			; GFX10-NEXT: global_atomic_cmpswap_x2 v[0:1], v0, v[3:6], s[2:3] offset:-128 glc
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	%cmpxchg = cmpxchg i64 addrspace(1)* %cast.gep1, i64 %cmp, i64 %data seq_cst seq_cst			%cmpxchg = cmpxchg i64 addrspace(1)* %cast.gep1, i64 %cmp, i64 %data seq_cst seq_cst
	%rtn = extractvalue { i64, i1 } %cmpxchg, 0			%rtn = extractvalue { i64, i1 } %cmpxchg, 0
	%cast.rtn = bitcast i64 %rtn to <2 x float>			%cast.rtn = bitcast i64 %rtn to <2 x float>
	ret <2 x float> %cast.rtn			ret <2 x float> %cast.rtn
	}			}

	define amdgpu_ps void @global_cmpxchg_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {			define amdgpu_ps void @global_cmpxchg_saddr_i64_nortn(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i64_nortn:			; GFX9-LABEL: global_cmpxchg_saddr_i64_nortn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_mov_b32_e32 v5, v1			; GFX9-NEXT: v_mov_b32_e32 v5, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3]			; GFX9-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3]
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i64_nortn:			; GFX10-LABEL: global_cmpxchg_saddr_i64_nortn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: v_mov_b32_e32 v5, v1			; GFX10-NEXT: v_mov_b32_e32 v5, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3]			; GFX10-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3]
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*			%cast.gep0 = bitcast i8 addrspace(1)* %gep0 to i64 addrspace(1)*
	%unused = cmpxchg i64 addrspace(1)* %cast.gep0, i64 %cmp, i64 %data seq_cst seq_cst			%unused = cmpxchg i64 addrspace(1)* %cast.gep0, i64 %cmp, i64 %data seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_ps void @global_cmpxchg_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {			define amdgpu_ps void @global_cmpxchg_saddr_i64_nortn_neg128(i8 addrspace(1)* inreg %sbase, i32 %voffset, i64 %cmp, i64 %data) {
	; GFX9-LABEL: global_cmpxchg_saddr_i64_nortn_neg128:			; GFX9-LABEL: global_cmpxchg_saddr_i64_nortn_neg128:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v6, v2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: v_mov_b32_e32 v5, v1			; GFX9-NEXT: v_mov_b32_e32 v5, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX9-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3] offset:-128			; GFX9-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3] offset:-128
	; GFX9-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: buffer_wbinvl1			; GFX9-NEXT: buffer_wbinvl1
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: global_cmpxchg_saddr_i64_nortn_neg128:			; GFX10-LABEL: global_cmpxchg_saddr_i64_nortn_neg128:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v6, v2			; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: v_mov_b32_e32 v5, v1			; GFX10-NEXT: v_mov_b32_e32 v5, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3] offset:-128			; GFX10-NEXT: global_atomic_cmpswap_x2 v0, v[3:6], s[2:3] offset:-128
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: buffer_gl0_inv			; GFX10-NEXT: buffer_gl0_inv
	; GFX10-NEXT: buffer_gl1_inv			; GFX10-NEXT: buffer_gl1_inv
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%zext.offset = zext i32 %voffset to i64			%zext.offset = zext i32 %voffset to i64
	%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset			%gep0 = getelementptr inbounds i8, i8 addrspace(1)* %sbase, i64 %zext.offset
	%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128			%gep1 = getelementptr inbounds i8, i8 addrspace(1)* %gep0, i64 -128
	%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*			%cast.gep1 = bitcast i8 addrspace(1)* %gep1 to i64 addrspace(1)*
	▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-agent.ll

	Show First 20 Lines • Show All 641 Lines • ▼ Show 20 Lines
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_atomicrmw:			; GFX7-LABEL: global_agent_acquire_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_atomicrmw:			; GFX10-WGP-LABEL: global_agent_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_atomicrmw:			; GFX10-CU-LABEL: global_agent_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_release_atomicrmw(			define amdgpu_kernel void @global_agent_release_atomicrmw(
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_atomicrmw:			; GFX7-LABEL: global_agent_acq_rel_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_atomicrmw:			; GFX10-WGP-LABEL: global_agent_acq_rel_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_atomicrmw:			; GFX10-CU-LABEL: global_agent_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acq_rel
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_atomicrmw(			define amdgpu_kernel void @global_agent_seq_cst_atomicrmw(
	; GFX6-LABEL: global_agent_seq_cst_atomicrmw:			; GFX6-LABEL: global_agent_seq_cst_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_atomicrmw:			; GFX7-LABEL: global_agent_seq_cst_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_atomicrmw:			; GFX10-WGP-LABEL: global_agent_seq_cst_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_atomicrmw:			; GFX10-CU-LABEL: global_agent_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acquire_ret_atomicrmw(			define amdgpu_kernel void @global_agent_acquire_ret_atomicrmw(
	; GFX6-LABEL: global_agent_acquire_ret_atomicrmw:			; GFX6-LABEL: global_agent_acquire_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_ret_atomicrmw:			; GFX7-LABEL: global_agent_acquire_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: global_agent_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: global_agent_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acquire
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acq_rel_ret_atomicrmw(			define amdgpu_kernel void @global_agent_acq_rel_ret_atomicrmw(
	; GFX6-LABEL: global_agent_acq_rel_ret_atomicrmw:			; GFX6-LABEL: global_agent_acq_rel_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_ret_atomicrmw:			; GFX7-LABEL: global_agent_acq_rel_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_ret_atomicrmw:			; GFX10-WGP-LABEL: global_agent_acq_rel_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: global_agent_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") acq_rel
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_ret_atomicrmw(			define amdgpu_kernel void @global_agent_seq_cst_ret_atomicrmw(
	; GFX6-LABEL: global_agent_seq_cst_ret_atomicrmw:			; GFX6-LABEL: global_agent_seq_cst_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_ret_atomicrmw:			; GFX7-LABEL: global_agent_seq_cst_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_ret_atomicrmw:			; GFX10-WGP-LABEL: global_agent_seq_cst_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: global_agent_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("agent") seq_cst
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_monotonic_cmpxchg:			; GFX7-LABEL: global_agent_acquire_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acquire_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_agent_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire monotonic
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_monotonic_cmpxchg:			; GFX7-LABEL: global_agent_acq_rel_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acq_rel_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_agent_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_monotonic_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_monotonic_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_monotonic_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_monotonic_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_monotonic_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acquire_acquire_cmpxchg(			define amdgpu_kernel void @global_agent_acquire_acquire_cmpxchg(
	; GFX6-LABEL: global_agent_acquire_acquire_cmpxchg:			; GFX6-LABEL: global_agent_acquire_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_acquire_cmpxchg:			; GFX7-LABEL: global_agent_acquire_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acquire_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: global_agent_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_release_acquire_cmpxchg(			define amdgpu_kernel void @global_agent_release_acquire_cmpxchg(
	; GFX6-LABEL: global_agent_release_acquire_cmpxchg:			; GFX6-LABEL: global_agent_release_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_release_acquire_cmpxchg:			; GFX7-LABEL: global_agent_release_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_release_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_agent_release_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_release_acquire_cmpxchg:			; GFX10-CU-LABEL: global_agent_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_release_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_release_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") release acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acq_rel_acquire_cmpxchg(			define amdgpu_kernel void @global_agent_acq_rel_acquire_cmpxchg(
	; GFX6-LABEL: global_agent_acq_rel_acquire_cmpxchg:			; GFX6-LABEL: global_agent_acq_rel_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_acquire_cmpxchg:			; GFX7-LABEL: global_agent_acq_rel_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acq_rel_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: global_agent_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_acquire_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_acquire_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_acquire_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_acquire_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_seq_cst_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_seq_cst_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_seq_cst_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acquire_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_agent_acquire_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acq_rel_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_agent_acq_rel_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acquire_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_agent_acquire_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_agent_acquire_acquire_ret_cmpxchg:			; GFX6-LABEL: global_agent_acquire_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acquire_acquire_ret_cmpxchg:			; GFX7-LABEL: global_agent_acquire_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acquire_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acquire_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acquire acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_release_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_agent_release_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_agent_release_acquire_ret_cmpxchg:			; GFX6-LABEL: global_agent_release_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_release_acquire_ret_cmpxchg:			; GFX7-LABEL: global_agent_release_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_release_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_release_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_release_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_release_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") release acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_acq_rel_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_agent_acq_rel_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:			; GFX6-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:			; GFX7-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_acq_rel_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") acq_rel acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_agent_seq_cst_seq_cst_ret_cmpxchg(			define amdgpu_kernel void @global_agent_seq_cst_seq_cst_ret_cmpxchg(
	; GFX6-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:			; GFX6-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:			; GFX7-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-WGP-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_agent_seq_cst_seq_cst_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("agent") seq_cst seq_cst
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	▲ Show 20 Lines • Show All 2,762 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-system.ll

	Show First 20 Lines • Show All 641 Lines • ▼ Show 20 Lines
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_atomicrmw:			; GFX7-LABEL: global_system_acquire_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_atomicrmw:			; GFX10-WGP-LABEL: global_system_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_atomicrmw:			; GFX10-CU-LABEL: global_system_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_acquire_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_release_atomicrmw(			define amdgpu_kernel void @global_system_release_atomicrmw(
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_atomicrmw:			; GFX7-LABEL: global_system_acq_rel_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_atomicrmw:			; GFX10-WGP-LABEL: global_system_acq_rel_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_atomicrmw:			; GFX10-CU-LABEL: global_system_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acq_rel
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_atomicrmw(			define amdgpu_kernel void @global_system_seq_cst_atomicrmw(
	; GFX6-LABEL: global_system_seq_cst_atomicrmw:			; GFX6-LABEL: global_system_seq_cst_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_atomicrmw:			; GFX7-LABEL: global_system_seq_cst_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_atomicrmw:			; GFX10-WGP-LABEL: global_system_seq_cst_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_atomicrmw:			; GFX10-CU-LABEL: global_system_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acquire_ret_atomicrmw(			define amdgpu_kernel void @global_system_acquire_ret_atomicrmw(
	; GFX6-LABEL: global_system_acquire_ret_atomicrmw:			; GFX6-LABEL: global_system_acquire_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_ret_atomicrmw:			; GFX7-LABEL: global_system_acquire_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: global_system_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: global_system_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_acquire_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acquire
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acq_rel_ret_atomicrmw(			define amdgpu_kernel void @global_system_acq_rel_ret_atomicrmw(
	; GFX6-LABEL: global_system_acq_rel_ret_atomicrmw:			; GFX6-LABEL: global_system_acq_rel_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_ret_atomicrmw:			; GFX7-LABEL: global_system_acq_rel_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_ret_atomicrmw:			; GFX10-WGP-LABEL: global_system_acq_rel_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: global_system_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in acq_rel
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_ret_atomicrmw(			define amdgpu_kernel void @global_system_seq_cst_ret_atomicrmw(
	; GFX6-LABEL: global_system_seq_cst_ret_atomicrmw:			; GFX6-LABEL: global_system_seq_cst_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_ret_atomicrmw:			; GFX7-LABEL: global_system_seq_cst_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_ret_atomicrmw:			; GFX10-WGP-LABEL: global_system_seq_cst_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: global_system_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in seq_cst
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_monotonic_cmpxchg:			; GFX7-LABEL: global_system_acquire_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_system_acquire_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_system_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acquire_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire monotonic
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_monotonic_cmpxchg:			; GFX7-LABEL: global_system_acq_rel_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_system_acq_rel_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_system_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_monotonic_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_monotonic_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_monotonic_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_monotonic_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_monotonic_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acquire_acquire_cmpxchg(			define amdgpu_kernel void @global_system_acquire_acquire_cmpxchg(
	; GFX6-LABEL: global_system_acquire_acquire_cmpxchg:			; GFX6-LABEL: global_system_acquire_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_acquire_cmpxchg:			; GFX7-LABEL: global_system_acquire_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_system_acquire_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: global_system_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acquire_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_release_acquire_cmpxchg(			define amdgpu_kernel void @global_system_release_acquire_cmpxchg(
	; GFX6-LABEL: global_system_release_acquire_cmpxchg:			; GFX6-LABEL: global_system_release_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_release_acquire_cmpxchg:			; GFX7-LABEL: global_system_release_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_release_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_system_release_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_release_acquire_cmpxchg:			; GFX10-CU-LABEL: global_system_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_release_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_release_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in release acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acq_rel_acquire_cmpxchg(			define amdgpu_kernel void @global_system_acq_rel_acquire_cmpxchg(
	; GFX6-LABEL: global_system_acq_rel_acquire_cmpxchg:			; GFX6-LABEL: global_system_acq_rel_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_acquire_cmpxchg:			; GFX7-LABEL: global_system_acq_rel_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_system_acq_rel_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: global_system_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_acquire_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_acquire_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_acquire_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_acquire_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_seq_cst_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_seq_cst_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_seq_cst_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_seq_cst_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_seq_cst_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_seq_cst_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_seq_cst_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_seq_cst_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_seq_cst_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_seq_cst_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acquire_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_system_acquire_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_system_acquire_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_system_acquire_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_system_acquire_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acquire_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acq_rel_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_system_acq_rel_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acquire_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_system_acquire_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_system_acquire_acquire_ret_cmpxchg:			; GFX6-LABEL: global_system_acquire_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acquire_acquire_ret_cmpxchg:			; GFX7-LABEL: global_system_acquire_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acquire_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acquire_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acquire acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_release_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_system_release_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_system_release_acquire_ret_cmpxchg:			; GFX6-LABEL: global_system_release_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_release_acquire_ret_cmpxchg:			; GFX7-LABEL: global_system_release_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_release_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_release_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_release_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_release_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in release acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_acq_rel_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_system_acq_rel_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:			; GFX6-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:			; GFX7-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_acq_rel_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in acq_rel acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_system_seq_cst_seq_cst_ret_cmpxchg(			define amdgpu_kernel void @global_system_seq_cst_seq_cst_ret_cmpxchg(
	; GFX6-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:			; GFX6-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_wbinvl1			; GFX6-NEXT: buffer_wbinvl1
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:			; GFX7-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: buffer_wbinvl1_vol			; GFX7-NEXT: buffer_wbinvl1_vol
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-WGP-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: buffer_gl1_inv			; GFX10-WGP-NEXT: buffer_gl1_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CU-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: buffer_gl0_inv			; GFX10-CU-NEXT: buffer_gl0_inv
	; GFX10-CU-NEXT: buffer_gl1_inv			; GFX10-CU-NEXT: buffer_gl1_inv
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_system_seq_cst_seq_cst_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in seq_cst seq_cst
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	▲ Show 20 Lines • Show All 2,762 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-workgroup.ll

	Show First 20 Lines • Show All 628 Lines • ▼ Show 20 Lines
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_atomicrmw:			; GFX7-LABEL: global_workgroup_acquire_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_release_atomicrmw(			define amdgpu_kernel void @global_workgroup_release_atomicrmw(
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_atomicrmw:			; GFX7-LABEL: global_workgroup_acq_rel_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acq_rel
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_atomicrmw(			define amdgpu_kernel void @global_workgroup_seq_cst_atomicrmw(
	; GFX6-LABEL: global_workgroup_seq_cst_atomicrmw:			; GFX6-LABEL: global_workgroup_seq_cst_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_atomicrmw:			; GFX7-LABEL: global_workgroup_seq_cst_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v[0:1], v2			; GFX7-NEXT: flat_atomic_swap v[0:1], v2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]			; GFX10-CU-NEXT: global_atomic_swap v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acquire_ret_atomicrmw(			define amdgpu_kernel void @global_workgroup_acquire_ret_atomicrmw(
	; GFX6-LABEL: global_workgroup_acquire_ret_atomicrmw:			; GFX6-LABEL: global_workgroup_acquire_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_ret_atomicrmw:			; GFX7-LABEL: global_workgroup_acquire_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acquire			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acquire
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acq_rel_ret_atomicrmw(			define amdgpu_kernel void @global_workgroup_acq_rel_ret_atomicrmw(
	; GFX6-LABEL: global_workgroup_acq_rel_ret_atomicrmw:			; GFX6-LABEL: global_workgroup_acq_rel_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_ret_atomicrmw:			; GFX7-LABEL: global_workgroup_acq_rel_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_ret_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acq_rel			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") acq_rel
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_ret_atomicrmw(			define amdgpu_kernel void @global_workgroup_seq_cst_ret_atomicrmw(
	; GFX6-LABEL: global_workgroup_seq_cst_ret_atomicrmw:			; GFX6-LABEL: global_workgroup_seq_cst_ret_atomicrmw:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2			; GFX6-NEXT: s_load_dword s4, s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc			; GFX6-NEXT: buffer_atomic_swap v0, off, s[0:3], 0 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_ret_atomicrmw:			; GFX7-LABEL: global_workgroup_seq_cst_ret_atomicrmw:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2			; GFX7-NEXT: s_load_dword s2, s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc			; GFX7-NEXT: flat_atomic_swap v2, v[0:1], v2 glc
	; GFX7-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_ret_atomicrmw:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-WGP-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: global_workgroup_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dword s2, s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc			; GFX10-CU-NEXT: global_atomic_swap v1, v0, v1, s[0:1] glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-CU-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_ret_atomicrmw:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_ret_atomicrmw:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dword s0, s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_swap v0, off, s[4:7], 0 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in) {			i32 addrspace(1)* %out, i32 %in) {
	entry:			entry:
	%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") seq_cst			%val = atomicrmw volatile xchg i32 addrspace(1)* %out, i32 %in syncscope("workgroup") seq_cst
	store i32 %val, i32 addrspace(1)* %out, align 4			store i32 %val, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_monotonic_cmpxchg:			; GFX7-LABEL: global_workgroup_acquire_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acquire_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:			; GFX7-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_monotonic_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_monotonic_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_monotonic_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acquire_acquire_cmpxchg(			define amdgpu_kernel void @global_workgroup_acquire_acquire_cmpxchg(
	; GFX6-LABEL: global_workgroup_acquire_acquire_cmpxchg:			; GFX6-LABEL: global_workgroup_acquire_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_acquire_cmpxchg:			; GFX7-LABEL: global_workgroup_acquire_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acquire_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_release_acquire_cmpxchg(			define amdgpu_kernel void @global_workgroup_release_acquire_cmpxchg(
	; GFX6-LABEL: global_workgroup_release_acquire_cmpxchg:			; GFX6-LABEL: global_workgroup_release_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_release_acquire_cmpxchg:			; GFX7-LABEL: global_workgroup_release_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_release_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_release_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_release_acquire_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_release_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_release_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acq_rel_acquire_cmpxchg(			define amdgpu_kernel void @global_workgroup_acq_rel_acquire_cmpxchg(
	; GFX6-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:			; GFX6-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:			; GFX7-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_acquire_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_acquire_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_acquire_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_seq_cst_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_seq_cst_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s0, s0, 16			; GFX7-NEXT: s_add_u32 s0, s0, 16
	; GFX7-NEXT: s_addc_u32 s1, s1, 0			; GFX7-NEXT: s_addc_u32 s1, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]			; GFX7-NEXT: flat_atomic_cmpswap v[0:1], v[2:3]
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-WGP-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16			; GFX10-CU-NEXT: global_atomic_cmpswap v2, v[0:1], s[0:1] offset:16
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_seq_cst_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acquire_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_acquire_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acq_rel_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_acq_rel_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_monotonic_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_monotonic_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst monotonic
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acquire_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_acquire_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acquire_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acquire acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_release_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_release_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_release_acquire_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_release_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_release_acquire_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_release_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_release_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_release_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_release_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_release_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") release acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_acq_rel_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_acq_rel_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_acq_rel_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") acq_rel acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_acquire_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_acquire_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_acquire_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst acquire
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @global_workgroup_seq_cst_seq_cst_ret_cmpxchg(			define amdgpu_kernel void @global_workgroup_seq_cst_seq_cst_ret_cmpxchg(
	; GFX6-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; GFX6-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; GFX6: ; %bb.0: ; %entry			; GFX6: ; %bb.0: ; %entry
	; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX6-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2			; GFX6-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x2
	; GFX6-NEXT: s_mov_b32 s3, 0x100f000			; GFX6-NEXT: s_mov_b32 s3, 0x100f000
	; GFX6-NEXT: s_mov_b32 s2, -1			; GFX6-NEXT: s_mov_b32 s2, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s5			; GFX6-NEXT: v_mov_b32_e32 v1, s5
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc			; GFX6-NEXT: buffer_atomic_cmpswap v[0:1], off, s[0:3], 0 offset:16 glc
	; GFX6-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0)
	; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0			; GFX6-NEXT: buffer_store_dword v0, off, s[0:3], 0
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; GFX7-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; GFX7: ; %bb.0: ; %entry			; GFX7: ; %bb.0: ; %entry
	; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX7-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x2
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: s_add_u32 s4, s0, 16			; GFX7-NEXT: s_add_u32 s4, s0, 16
	; GFX7-NEXT: s_addc_u32 s5, s1, 0			; GFX7-NEXT: s_addc_u32 s5, s1, 0
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s5			; GFX7-NEXT: v_mov_b32_e32 v1, s5
	; GFX7-NEXT: v_mov_b32_e32 v3, s3			; GFX7-NEXT: v_mov_b32_e32 v3, s3
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc			; GFX7-NEXT: flat_atomic_cmpswap v2, v[0:1], v[2:3] glc
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_waitcnt vmcnt(0)			; GFX7-NEXT: s_waitcnt vmcnt(0)
	; GFX7-NEXT: flat_store_dword v[0:1], v2			; GFX7-NEXT: flat_store_dword v[0:1], v2
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX10-WGP-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-WGP-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_clause 0x1			; GFX10-WGP-NEXT: s_clause 0x1
	; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-WGP-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-WGP-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-WGP-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_clause 0x1			; GFX10-CU-NEXT: s_clause 0x1
	; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8			; GFX10-CU-NEXT: s_load_dwordx2 s[2:3], s[4:5], 0x8
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0			; GFX10-CU-NEXT: v_mov_b32_e32 v2, 0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s2
	; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3			; GFX10-CU-NEXT: v_mov_b32_e32 v1, s3
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc			; GFX10-CU-NEXT: global_atomic_cmpswap v0, v2, v[0:1], s[0:1] offset:16 glc
	; GFX10-CU-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt vmcnt(0)
	; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]			; GFX10-CU-NEXT: global_store_dword v2, v0, s[0:1]
	; GFX10-CU-NEXT: s_endpgm			; GFX10-CU-NEXT: s_endpgm
	;			;
	; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; SKIP-CACHE-INV-LABEL: global_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; SKIP-CACHE-INV: ; %bb.0: ; %entry			; SKIP-CACHE-INV: ; %bb.0: ; %entry
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb			; SKIP-CACHE-INV-NEXT: s_load_dwordx2 s[0:1], s[0:1], 0xb
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000			; SKIP-CACHE-INV-NEXT: s_mov_b32 s7, 0xf000
	; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1			; SKIP-CACHE-INV-NEXT: s_mov_b32 s6, -1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v0, s0
	; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1			; SKIP-CACHE-INV-NEXT: v_mov_b32_e32 v1, s1
	; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt lgkmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc			; SKIP-CACHE-INV-NEXT: buffer_atomic_cmpswap v[0:1], off, s[4:7], 0 offset:16 glc
	; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; SKIP-CACHE-INV-NEXT: s_waitcnt vmcnt(0)
	; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SKIP-CACHE-INV-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SKIP-CACHE-INV-NEXT: s_endpgm			; SKIP-CACHE-INV-NEXT: s_endpgm
	i32 addrspace(1)* %out, i32 %in, i32 %old) {			i32 addrspace(1)* %out, i32 %in, i32 %old) {
	entry:			entry:
	%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4			%gep = getelementptr i32, i32 addrspace(1)* %out, i32 4
	%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst			%val = cmpxchg volatile i32 addrspace(1)* %gep, i32 %old, i32 %in syncscope("workgroup") seq_cst seq_cst
	%val0 = extractvalue { i32, i1 } %val, 0			%val0 = extractvalue { i32, i1 } %val, 0
	store i32 %val0, i32 addrspace(1)* %out, align 4			store i32 %val0, i32 addrspace(1)* %out, align 4
	▲ Show 20 Lines • Show All 2,494 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-agent.ll

	Show First 20 Lines • Show All 589 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_agent_acquire_atomicrmw:			; GFX10-WGP-LABEL: local_agent_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_atomicrmw:			; GFX10-CU-LABEL: local_agent_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_atomicrmw:			; GFX10-CU-LABEL: local_agent_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_atomicrmw:			; GFX10-CU-LABEL: local_agent_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_agent_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: local_agent_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: local_agent_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: local_agent_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: local_agent_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_agent_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_agent_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: local_agent_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_release_acquire_cmpxchg:			; GFX10-CU-LABEL: local_agent_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: local_agent_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_agent_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: local_agent_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_agent_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: local_agent_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_agent_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: local_agent_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 2,201 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-system.ll

	Show First 20 Lines • Show All 589 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_system_acquire_atomicrmw:			; GFX10-WGP-LABEL: local_system_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_atomicrmw:			; GFX10-CU-LABEL: local_system_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_atomicrmw:			; GFX10-CU-LABEL: local_system_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_atomicrmw:			; GFX10-CU-LABEL: local_system_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_system_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: local_system_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: local_system_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: local_system_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: local_system_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_system_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_system_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: local_system_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_release_acquire_cmpxchg:			; GFX10-CU-LABEL: local_system_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: local_system_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_system_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: local_system_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_system_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: local_system_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_system_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: local_system_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 2,201 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-workgroup.ll

	Show First 20 Lines • Show All 589 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_workgroup_acquire_atomicrmw:			; GFX10-WGP-LABEL: local_workgroup_acquire_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_acquire_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_acq_rel_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v0, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_seq_cst_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-WGP-LABEL: local_workgroup_acquire_ret_atomicrmw:			; GFX10-WGP-LABEL: local_workgroup_acquire_ret_atomicrmw:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_ret_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_acquire_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_ret_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_acq_rel_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1			; GFX10-WGP-NEXT: ds_wrxchg_rtn_b32 v1, v0, v1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_ret_atomicrmw:			; GFX10-CU-LABEL: local_workgroup_seq_cst_ret_atomicrmw:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx2 s[0:1], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acquire_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acq_rel_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_monotonic_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_monotonic_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_acquire_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acquire_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_release_acquire_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_release_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_acquire_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acq_rel_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_acquire_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_acquire_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_b32 v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_seq_cst_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_seq_cst_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0			; GFX10-CU-NEXT: v_mov_b32_e32 v0, s0
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX10-WGP-LABEL: local_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acquire_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acq_rel_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_monotonic_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_monotonic_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GFX10-WGP-LABEL: local_workgroup_acquire_acquire_ret_cmpxchg:			; GFX10-WGP-LABEL: local_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX10-WGP: ; %bb.0: ; %entry			; GFX10-WGP: ; %bb.0: ; %entry
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acquire_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acquire_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_release_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_release_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_acq_rel_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_acq_rel_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_acquire_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_acquire_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-WGP-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0			; GFX10-WGP-NEXT: v_mov_b32_e32 v0, s0
	; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2			; GFX10-WGP-NEXT: v_mov_b32_e32 v1, s2
	; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1			; GFX10-WGP-NEXT: v_mov_b32_e32 v2, s1
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-WGP-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16			; GFX10-WGP-NEXT: ds_cmpst_rtn_b32 v1, v0, v1, v2 offset:16
	; GFX10-WGP-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX10-WGP-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-WGP-NEXT: buffer_gl0_inv			; GFX10-WGP-NEXT: buffer_gl0_inv
	; GFX10-WGP-NEXT: ds_write_b32 v0, v1			; GFX10-WGP-NEXT: ds_write_b32 v0, v1
	; GFX10-WGP-NEXT: s_endpgm			; GFX10-WGP-NEXT: s_endpgm
	;			;
	; GFX10-CU-LABEL: local_workgroup_seq_cst_seq_cst_ret_cmpxchg:			; GFX10-CU-LABEL: local_workgroup_seq_cst_seq_cst_ret_cmpxchg:
	; GFX10-CU: ; %bb.0: ; %entry			; GFX10-CU: ; %bb.0: ; %entry
	; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0			; GFX10-CU-NEXT: s_load_dwordx4 s[0:3], s[4:5], 0x0
	; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-CU-NEXT: s_waitcnt lgkmcnt(0)
	▲ Show 20 Lines • Show All 2,201 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Correct rmw atomics s_waitcnt generationClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 323866

llvm/lib/Target/AMDGPU/SIMemoryLegalizer.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/mubuf-global.ll

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

llvm/test/CodeGen/AMDGPU/atomicrmw-nand.ll

llvm/test/CodeGen/AMDGPU/global-saddr-atomics.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-agent.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-system.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-global-workgroup.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-agent.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-system.ll

llvm/test/CodeGen/AMDGPU/memory-legalizer-local-workgroup.ll

[AMDGPU] Correct rmw atomics s_waitcnt generation
ClosedPublic